La technologie de recherche open source Nutch choisie par Misterbot

Par:
fredericmazue

lun, 13/03/2006 - 00:00

Le petit moteur francophone Misterbot a adopté la technologie open source Nutch pour son moteur de recheche.

Parmis les originalités de ce moteur, une transparence dans son modèle d'indexation. Pour chaque résultat, un lien "Pertinence" explique pourquoi ce site figure parmis les résultats de la recherche, avec les valeurs pondérées sur les critères de recherche.

Nutch intègre également un système de plug-in linguistique qui permet de déterminer la langue d'une page et donc de restreindre l'indexation aux contenus rédigés dans une langue donnée.

Créé en 2001 par SM Conseils, Misterbot s'appuyait à l'origine sur un script open source en langage C++, Aspseek, avec lequel il a indexé plus de 34 millions de pages Web en quatre ans. En adoptant Nutch, un programme en Java, le moteur redémarre actuellement entièrement son indexation et espère accroître ses capacités de crawling.

Cette technologie de recherche est issue d'un projet communautaire coordonné depuis 2003 par le développeur américain Doug Cutting (un ex-employé du moteur Excite). Elle est déjà exploitée par d'autres moteurs comme l'américain Mozdex ou le belge Illico Presto. Un groupe de développeurs français travaille en outre actuellement sur une déclinaison baptisée Frutch (pour "FRench nUTCH").