YZMA : inférence locale en Go
mer, 29/10/2025 - 10:40
YZMA est le nouveau projet de Ron Evans, un développeur bien connu de la communauté Go. Il s'agit de pouvoir faire en Go de l'inférence locale en s'appuyant sur llama.cpp. Il peut faire de l'inférence sur des LLM, SML, TLM et VLM. Le VLM (Vision Language Model) permet de faire du traitement d'images, de textes, de vidéo. Il fonctionne sur Linux, macOS et Windows.
Il utilise les paquets purego et ffi et ne nécessitant pas CGO. Sur Linux et Windows, il faut installer les drivers NVIDIA pour utiliser l'accélération CUDA. Et il faut installer les dernières versions de llama.cpp.
Un exemple VLM avec Qwen2.5 :
Pour en savoir plus : https://github.com/hybridgroup/yzma

