Qwen3-ASR : Alibaba ouvre ces vLLM

Par:
francoistonic

lun, 02/02/2026 - 09:25

Alibaba, un des géants techs chinois, annonce la mise en open source des modèles Qwen-3ASR et ForcedAligner. ASR est un LLM dédié à la reconnaissance vocale. Les deux LLM servent à identifier la langue, actuellement 52 langages et accents sont supportés. La reconnaissance vocale est supportée par 30 langues et 22 dialectes chinois ainsi les accents anglais de plusieurs pays. Cela concerne les modèles ASR-1.7B et 0.6B. 

Pour Alibaba, les enjeux sont de fournir des vLLM avec une taux de reconnaissance le plus fiable et fidèle possible. La version 0.6b joue sur l'optimisation du modèle et est un compromis entre précision et efficacité de la reconnaisance. Des SDK dédiés sont disponibles pour intégrer les LLM et les entraîner sur des nouvelles données. 

Ces LLM s'appuient sur le modèle Qwen-3 Omni qui est un des LLM de référence d'Alibaba. 

Pour démarrer. Il faut installer Qweb3-ASR avec le paquet quwen-asr disponible sur PyPi. Alababa conseille d'utiliser un environnement Python 3.12. 

Tous les détails : https://github.com/QwenLM/Qwen3-ASR