Microsoft a dévoilé ML.NET Text Classification API en préversion

Par:
fredericmazue

mar, 21/06/2022 - 13:16

L'API ML.NET Text Classification est une API qui vous permet de former plus facilement des modèles de classification de texte personnalisés dans ML.NET à l'aide des dernières techniques d'apprentissage en profondeur de pointe. Pour mémoire, ML.NET est une infrastructure d'apprentissage automatique multi plates-formes open source pour les développeurs .NET qui permet l'intégration de modèles d'apprentissage automatique personnalisés dans les applications .NET.

La classification de texte, comme son nom l'indique, est le processus d'application d'étiquettes ou de catégories au texte.

Les cas d'utilisation courants incluent :

  • Catégoriser les e-mails comme spam ou non spam
  • Analyser le sentiment comme positif ou négatif à partir des avis clients
  • Application d'étiquettes aux tickets d'assistance

Microsoft souligne que la classification est un problème courant en apprentissage automatique. Il existe une variété d'algorithmes que vous pouvez utiliser pour former un modèle de classification. La classification de texte est une sous-catégorie de classification qui traite spécifiquement du texte brut. Le texte pose des défis intéressants car vous devez tenir compte du contexte et de la sémantique dans lesquels le texte apparaît. En tant que tel, l'encodage du sens et du contexte peut être difficile. Ces dernières années, les modèles d'apprentissage en profondeur sont apparus comme une technique prometteuse pour résoudre les problèmes de langage naturel. Plus précisément, un type de réseau neuronal connu sous le nom de transformateurs est devenu le moyen prédominant de résoudre les problèmes de langage naturel tels que la classification de texte, la traduction, le résumé et la réponse aux questions.

L'API de classification de texte de Microsoft est optimisée par TorchSharp. TorchSharp est une bibliothèque .NET qui donne accès à libtorch, la bibliothèque qui alimente PyTorch. TorchSharp contient les éléments de base pour la formation de réseaux de neurones à partir de zéro dans .NET. Les composants TorchSharp sont cependant de bas niveau et la construction de réseaux de neurones à partir de zéro a une courbe d'apprentissage abrupte. Dans ML.NET, Microsoft a résumé une partie de cette complexité au niveau du scénario.

En collaboration directe avec Microsoft Research, Microsoft a pris une implémentation TorchSharp de NAS-BERT, une variante de BERT obtenue avec la recherche d'architecture neuronale, et l'aajoutée à ML.NET. À l'aide d'une version pré-entraînée de ce modèle, l'API de classification de texte utilise vos données pour affiner le modèle.

Pour se familiariser avec cette API, Microsoft propose un exemple complet ici

L'API ML.NET Text Classification  fait partie des dernières versions d'aperçu 2.0.0 et 0.20.0 de ML.NET.

Pour l'utiliser, vous devrez installer les packages suivants en plus de Microsoft.ML:

  • Microsoft.ML.TorchSharp
  • TorchSharp-cpu si vous utilisez le CPU ou / TorchSharp-cuda-windowsTorchSharp-cuda-linux si vous utilisez un GPU.