Ollama : une app pour faire tourner des LLM localement et nouvelle version
lun, 29/09/2025 - 08:03
En juillet dernier, nous avions présenté l'application Ollama. Cette app permet d'exécuter des LLM localement. Pour rappel : Ollama met d'abord en place un serveur pour ensuite récupérer le LLM et l'exécuter localement. Il faut donc prévoir la place nécessaire. Ollama est disponible sur macOS et Windows en version 0.9.5. Pour aller plus vite, on utilisait le Terminal pour exécuter les LLM : ollama run gemma3:1b. On peut ainsi utiliser en quelques minutes le modèle de son choix sans passer par un service distant.

Ollama ne cesse d'évoluer. Le 23 septembre, le projet annonçait de nouveaux LLM et une nouvelle version :
- réduction des crashs liés à la mémoire et à sa saturation rendant instable l'environnement
- meilleure utilisation de la GPU pour mieux utiliser la mémoire GPU
- optimisation dans un contexte multi-GPU
- surveillance de la mémoire facilité via ollama ps
Les modèles récents supportés :
gpt-ossllama4,llama3.2-vision(bientôt :llama3.2,llama3.1,llama3)gemma3,embeddinggemma,gemma3nqwen3,qwen2.5vl(bientôt :qwen3-coder)mistral-small3.2all-minilm
Ollama est disponible sur Linux, macOS et Windows en app avec GUI ou directement en CLI.
Article du 3 juillet : https://www.programmez.com/actualites/ollama-une-app-pour-executer-les-llm-localement-37980
GitHub : https://github.com/ollama/ollama

