Ajouter un commentaire

Par :
Jérôme Besson

mer, 30/04/2014 - 16:05

Tandis que le jeu de données à analyser devient de plus en plus complexe à traiter, il est aisé de constater que même le plus brillant des data-scientists ne sera bientôt plus en mesure de le résoudre.

Partant de ce constat, une approche au premier degré consisterait à dire qu’il y a un manque évident de data-scientists pour combler la lacune entre le nombre de données à analyser et les cerveaux pour le faire. Mais une vision un peu plus poussée nous permet de constater que l’humain ne sera bientôt plus en mesure de résoudre cet état de fait et que les mathématiques d’aujourd’hui semblent désormais inadaptées pour tirer toute la quintessence de l’ensemble de ces données. En effet, si un jeu de données compte 150 variables, comment le questionner en prenant en compte l’ensemble de ces variables, ne sachant pas quelles sont celles qui sont les plus discriminantes pour une question donnée.

Il ne faut donc pas trop s’emballer « dans la course à l’armement » en terme de data-scientist. Des recherches académiques sont engagées, notamment par les mathématiciens pour inventer des mathématiques capables d’adresser les problèmes poser par le Big Data et permettre au machine-learning de pouvoir travailler aussi efficacement sur des données non structurées que structurées. Les premiers résultats de ces recherches sont déjà intégrées dans des packages Big Data Analytics du marché. D’autres au travers de startups comme Ayasdi.

En attendant que ces solutions permettent d’aborder le champ de l’infini, les data-scientists semblent, pour le moment être les seuls recours opérationnels , internes ou externes pour les entreprises, à condition de garder la propriété des algorithmes ou le paramétrage de ces derniers. Il faut également garder à l’esprit que la qualité des résultats dépend de la qualité des données et que les Data-Scientists ne sont qu’un maillon de la chaine de valeur du Big Data.

En attendant donc que la situation se précise et que les outils mis à disposition deviennent plus performants, il faut avant tout que l’entreprise formalise avec précisions les questions auxquelles elle souhaite avoir des réponses pour bien maîtriser sa chaîne d’informations. Trop souvent la complexité des données à analyser est mal appréhendée et résumée de manière simpliste et il y a fort à parier qu’a force de croiser trop de données, le risque de se perdre en cours de route est accru ! Ne vaut-il pas mieux être bon sur une quantité limitée de variables, que médiocre sur une infinité de variables ?  

A propos de l'auteur

Jérôme Besson
Associé chez Sentelis

Filtered HTML

Plain text

CAPTCHA
Cette question permet de vérifier que vous n'êtes pas un robot spammeur :-)
  GGG   N   N  W     W  PPPP    CCC 
G NN N W W P P C
G GG N N N W W W PPPP C
G G N NN W W W P C
GGG N N W W P CCC