
Ollama est un environnement d’exécution pour LLM sorti par Meta en 2023, dont le but est de proposer un ensemble de modèles d’IA génératives (GenAI) utilisables gratuitement en local. Ces modèles peuvent être proposés par Meta (llama) ou provenir de tiers. Pour un seuil d’utilisation très élevé, un accord commercial est nécessaire avec Meta, qui ne nous concerne pas ici. Ollama dispose d’un moteur d’inférence appelé **ollama.cpp**, qui exécute les modèles de langage tout en profitant d’API graphiques. Ces API sont Metal pour Apple, CUDA pour Nvidia ou encore ROCm, pour AMD, qui est plus ouvert.

