Faire tourner Qwen3.6 sur une GTX 1070 datant de... 2016

Par:
francoistonic

mer, 27/05/2026 - 15:54

Yves Rougy, qui travaille sur Linux et les IA souveraines, a voulu utiliser un matériel un peu ancien pour faire tourner des modèles localement : Asus G20AJ avec une GTX 1070 8 Go, pour la GPU. Le hardware propose un Core i7, 16 Go de RAM, Ubuntu 22.04 LTS, CUDA 12.8. Bref, un matériel un peu ancien mais à jour. Le PoC d'Yves est de faire tourner un LLM localement. Le choix se fait sur Qwen3.5 9B.

Pour optimiser son usage et minimiser les traitements, et la puissance GPU nécessaire, Yves opte pour une version quantisée disponible via Unsloth (Qwen3-35B-A3B-UD-IQ2_M). Il a fallu régler la configuration pour éviter la saturation de la RAM (côté GPU). 

Les performances mesurées sont :

- prefill (pp) : env. 375 tokens / seconde

- génération (tg) : env. 25 tokens / seconde

Comme le précise Yves, il a fallu faire une compilation d'Ollama un peu spécifique pour le hardware cible puis il a fallu affiner les réglages. 

" J’ai essayé de trouver une bonne balance entre l’analyse de prompt et la génération de tokens. L’outil llama-benchy a été d’une grande aide. On voit que la génération reste stable autour de 23-25 tokens/seconde avec ces petits prompts, mais le prefill est autour de 375-400 tokens/seconde. Ce dernier est important en agentique. À l’usage, et ce n’est pas dans la mesure de llama-benchy, on notera que quand le contexte est plein, la vitesse de prefill tombe autour de 180-200 t/s et la génération autour de 15 t/s." explique Yves. 

Bilan : oui, il est possible de faire de l'IA au quotidien sur un hardware et un GPU non récents. Il avoue que pour la génération de code, il perd en précision à cause de la quantification. 

Pour découvrir le PoC complet : https://www.rougy.net/blog/20260526-qwen3.6-35b-a3b-gtx1070/