Microsoft place des composants de son moteur de recherche Bing en open source

Par:
fredericmazue

jeu, 08/09/2016 - 16:07

De plus en plus, Microsoft joue la carte de l'open source. Nous l'avons vu récemment par exemple avec l'ouverture du code de sa plate-forme .NET. Nous le voyons aujourd'hui avec l'ouverture de composants majeurs de son moteur de recherche Bing.

Ces composants sont BitFunnel, NativeJIT et Workbecnh

Sur son blog, Michael Hopcroft, un des ingénieurs de la première heure de Bing, explique comment BitFunnel est né et a évolué avec le temps. BitFunnel est une librairie hautes performances pour la recherche de texte sur Internet. Bitunnel travaille avec un algorithme probabiliste, pour classer les documents selon le contenu des requêtes : mots-clés, phrases et expressions mathématiques.

Au départ BitFunnel était une librairie sans dépendance, et elle l'est restée... dans l'esprit de Michael Hopcroft. En effet lorsqu'un chercheur lui avait demandé s'il pouvait travailler avec BitFunnel, Michael lui avait répondu 'bien sûr'. Et voulant l'aider pour cela, il a vite constaté que c'était devenu absolument impossible. En devenant open source le projet BitFunnel doit être épuré, dépouillé, et redevenir un moteur de recherche basique (bébé) utilisable pour tout un chacun. Une documentation, pour l'instant totalement absente, doit voir le jour également.

Un autre composant majeur est NativeJIT, une librairie de compilation Just-in-Time. Cette librairie C++ compile des structures de données de type C en faisant tout particulièrement attention à l'usage des registre du processeur, dans le code machine produit.

Enfin Workbench est un ensemble de librairies auxilliaires Java et Lucene pour BitFunnel. Pour la préparation du texte, notamment.

Les 3 projets sont sur GitHub.