Les LLM utilisent les mêmes données : Larry Ellison prévient

Par:
francoistonic

mar, 27/01/2026 - 07:41

Quel est un des problèmes de l'IA actuelle ? Les modèles, principalement les LLM, utilisent grosso modo les mêmes données et, de facto, tous les grands LLM du marché sont peu ou prou identiques. Ils utilisent les mêmes données pour être entraînés, avec des variantes ici et là.

C'est Larry Ellison qui l'affirmait il y a quelques jours. Il n'y aurait donc pas assez de variations entre les LLM de Google, Meta, Open AI, etc. "Pour que ces modèles atteignent leur plein potentiel, il est nécessaire de les entraîner non seulement sur des données publiques, mais aussi sur des données privées." expliquait Ellison.

Oui, les LLM puisent dans les données accessibles et celles-ci ne sont pas extensibles à l'infini. Les sources sont donc, à un moment donné, les mêmes ou identiques. Chaque LLM est entraîné de manière différente. Cela détermine leurs comportements. Aujourd'hui, et encore plus demain, se pose la question : quelles nouvelles données pour alimenter les LLM ? Et sans ces nouvelles données, le risque est une stagnation des LLM.

Yan LeCun ne croit pas aux LLM et le chercheur voit l'avenir de l'IA dans une autre approche, ce qu'il appelle les modèles mondiaux. Ils doivent modéliser le monde réel pour le comprendre et le prédire. C'est une des raisons du départ de LeCun de Meta, une opposition stratégique sur le rôle des LLM et comment l'IA peut fonctionner. 

Pour Ellison, l'avenir, et l'efficacité des LLM, passe par les données des utilisateurs : les données internes des entreprises. Ce sont elles qui peuvent apporter du sens aux usages de l'IA par les utilisateurs.

L'autre risque est de vouloir faire grossir toujours plus les LLM, en multipliant toujours les paramètres. Ces modèles exigent une puissance de calcul colossale pour l'entraînement. Mais le LLM reste fondamentalement un modèle généraliste.