Êtes-vous prêt pour le Big Data ?

Par :
Jean-Baptiste Ceccaldi

mar, 26/03/2013 - 15:39

Ou comment transformer les masses de données brutes en stratégies gagnantes ! Par Jean-Baptiste Ceccaldi, Président de Sentelis

Constat

Avec l’explosion des usages internet et mobiles (réseaux sociaux, nouveaux services profilés…), l’arrivée de terminaux et boitiers de communication intelligents dans tous les aspects de la vie quotidienne et du monde industriel, la masse de données brutes s’est considérablement accrue.

Si la croissance exponentielle des informations ne date pas d’hier, les problèmes les plus ardus pour en tirer une réelle valeur ajoutée pour l’entreprise se concentrent autour de la vélocité (ex : leur vitesse de production), les critères de corrélation, la variabilité dans la qualité, l’hétérogénéité des structures, les cycles de vie et fréquences différentes, des contraintes sécurités et des exigences légales spécifiques…

Ce véritable tsunami, appelé « Big Data » remet au premier plan la sempiternelle problématique de gestion et d’exploitation de l’information dans les entreprises.

Le Big Data, c’est quoi ?

Le « Big Data » est un assemblage de technologies, de pratiques, processus et services qui doivent être mis en cohérence et coordonnés, gage de réussite et de rentabilité des investissements à consentir. Il ne se résume donc pas à une technologie, et n’est pas non plus un produit sur une étagère.

L’entreprise doit donc agir avec discipline et prendre la pleine mesure aussi bien en termes de gouvernance, de produits (c’est-à-dire de pratiques, méthodes et outils) que d’offres de services pour en permettre le déploiement efficacement des usages coté métier, c’est-à-dire en tirer des applications concrètes qui créent une performance pour l’entreprise, c’est à dire un avantage concurrentiel.

A ce propos, les premières initiatives « Big Data » exigent d’identifier un premier ensemble d’usages, qui serviront à construire une fondation industrielle transverse à l’entreprise. Une tâche non sans difficulté, qui nécessite une approche spécifique dirigée vers un seul objectif : délivrer la promesse du « Big Data » de transformer les masses de données brutes en stratégies gagnantes. 

Le champ des usages potentiels est immense : nouveaux services basés sur une connaissance fine des comportements, identification de prospects, émergence de tendances, détection d’action illicite, anticipation des problèmes et dérives, fiabilisation des prévisions de ventes, optimisation des chaînes d’approvisionnement, marketing digital temps réel intégrant la géolocalisation, etc.

Quels enjeux pour la direction métier et la DSI ?

Coté métier, l’enjeu clé du « Big Data » consiste donc à gagner la bataille des données en étant meilleur que ses concurrents dans leurs usages (innovation, fidélité et satisfaction client…).

Coté DSI, il s’agit de mettre à disposition les moyens nécessaires à leur capture, leur intégration dans le système d’information, leur analyse en masse et leur exploitation. Le tout, à moindre coût.

Et pour la DSI, l’heure n’est plus à l’attentisme. Pour s’en convaincre, il suffit d’observer l’expansion et la démocratisation sur le marché des solutions « Big Data », dont le marketing cible directement, pour certaines, les acteurs métiers ainsi que les témoignages croissants de premières références probantes dans tous les secteurs d’activité.

La DSI doit commencer à apporter des réponses concrètes aux métiers et impérativement adresser le sujet pro-activement, avec le souci d’enrichir son offre, de services à valeur métier tout en masquant les aspects technologiques.

Les différentes approches : “Data-at-rest” versus “Data-in-motion”

Le « Big Data » promeut, pour les données ne nécessitant pas une analyse temps réel, la constitution d’un « Data Lake », espace de collecte, de stockage des « Data-at-rest » et de mise à disposition massive de données brutes sans organisation ou structuration à priori, matière première des travaux d’analyse pour rendre l’information actionnable.

C’est là une différence majeure avec l’approche décisionnelle classique basée sur le stockage de données structurées à la qualité optimale et qui de fait, ne fait pas sens dans l’univers du « Big Data ». Pour autant, cette approche reste complémentaire, mais en aval de la chaîne de valeur « Big Data » pour le stockage des données à valeur ajoutée qui en sont issues et que l’entreprise souhaite conserver pour une analyse ultérieure par exemple via les outils classiques de « Business intelligence ».

Les solutions de type « Apache Hadoop » sont basées sur cette logique de « Data Lake ». Les algorithmes type « MapReduce » popularisés par Google permettent quant à eux l’analyse en masse des données du « Data Lake ».

Pour les « data-in-motion » (ex : celles continuellement mises à jour comme les positions GPS) et à analyser en temps réel ou pour lesquelles le volume est trop important ou encore pour lesquelles on ne sait quelle valeur ajoutée pourrait bien en être tirée, les technologies de « Stream computing » (ex : Complex Event Processing) visent à permettre l’analyse des « data streams » sans stockage préalable.

« Big Data as a service » : un passage obligé

La complexité et la disparité des composants techniques sous-jacents au « Big Data », ses caractéristiques hors normes, aussi bien sur la volumétrie des données, les capacités de calcul intensif et les exigences de réactivité militent fortement pour la mise en place d’une offre « SaaS » privée ou publique et plus vraisemblablement hybride pour tirer avantage d’un « cloud service » de type « Analytics-as-a-Service ».

Une telle approche sécurise les usages par une qualité de service contrôlée. Elle rend possible une utilisation agile en ‘bac à sable’ pour les analyses exploratoires, combinant simultanément les exigences de fraîcheur de données issues des systèmes de production, d’étanchéité des traitements potentiellement gourmands et de degrés de liberté nécessaires à une analyse itérative. Elle simplifie l’orientation « multi-tenante », multi usages que doit vitalement supporter le socle « Big Data ». Si la sécurité des données doit être adressée, c’est aussi et surtout le résultat de l’analyse qui doit l’être.

Big Data : une fondation transverse du SI au service des métiers

Permettre aux différents métiers de tirer la quintessence des « Big Data » via les justes regroupements et recoupements ne peut être envisagé sans la mutualisation des initiatives à l’échelle de l’entreprise pour constituer un dispositif pérenne, industriel et économiquement viable : un socle transverse « Big Data » au service des usages métiers.

Ce socle doit :

  • porter les principes d’association et corrélation de données hétérogènes fondamentales au « Big Data » et susceptibles de révéler les tendances implicites recherchées par les métiers,
  • mutualiser les investissements technologiques : « appliances Big Data » de stockage et/ou d’analyse telles que celles de Teradata, IBM (Netezza) ou EMC2 (Greenplum) ; solutions de « Stream Computing » comme celles d’IBM (Big Data Analytics) ou d’Oracle (CEP Engine) ; solutions logicielles d’analyse massive type SAS (Business Analytics); solution de base de données en mémoire comme SAP (HANA) ou encore les nœuds des architectures de traitement massivement distribué de type « data grids » et « clusters Hadoop »,
  • garantir la qualité de service aux utilisateurs et coordonner les besoins concurrents de ressources par une gestion globale multi-usages. Une responsabilité qui passe notamment par un pilotage et une régulation fine des capacités d’infrastructure de stockage et d’analyse. Sur ces aspects, les offres du ‘Cloud’ (Amazon Web Services, Opera Solutions, 1010data, IBM SmartCloud Enterprise…) et les distributeurs Open Source (MapR, Cloudera, Hurence, …) sont impérativement à considérer pour garantir le meilleur mix efficacité opérationnelle – efficacité économique.

Le socle « Big Data » doit être construit de façon incrémentale selon une feuille de route qui garantit dans la durée la cohérence du mix gouvernance-services-produits (au sens technologies, méthodes mais aussi modèles de données et d’analyses) en cohérence avec le déploiement des usages, leur maintien en condition opérationnelle notamment lors des montées de version du socle.

Ses évolutions, son exploitation, et plus globalement sa gouvernance long terme doit se faire via la mise en place d’une organisation dédiée intégrant des ressources expertes sur le sujet, et ce, même si les solutions du marché progressent pour rendre le « Big Data » plus accessible et plus simple aux non-spécialistes.

Cette « Big Data Team » en responsabilité du socle « Big Data » et de l’offre de services associée doit être distincte des équipes utilisatrices du socle, de ses usagers : alors qu’elle a pour responsabilité la construction et la gestion de la chaîne analytique, les équipes utilisatrices quant à elles construisent et gèrent les analyses elles-mêmes.

  • Les équipes utilisatrices doivent pouvoir être autonomes tout en étant accompagnées d’un support et d’une expertise de l’équipe socle, nécessairement pluridisciplinaire : des « Data scientists » spécialisés en ingénierie statistique et traitement de l’information, sensibilisés aux enjeux du « Big Data », et capables d’accompagner les interlocuteurs métier,
  • des experts en conception, développement et administration de composants implémentés sur les technologies innovantes : Hadoop et MapReduce, bases de données NoSQL et orientées colonnes, plateforme analytique « R »…
  • des architectes garantissant la cohérence de l’infrastructure applicative et technique et des pratiques d’ingénierie d’une plate-forme fortement hétérogène en rupture avec l’existant (boitiers logiciels et matériels, outils de pilotage spécialisés, stockage et traitement distribués sur « commodity hardware », connectivité à faible latence…)

Big Data = Big Challenge = Big Opportunity

Le « Big Data » recèle un potentiel énorme. Pour autant, si les choses avancent vite en termes de solution, en délivrer la promesse reste complexe. S’engager dans le « Big Data » nécessite d’acquérir une bonne compréhension du sujet, un juste choix des cas d’usage et le bon mix de gouvernance, d’offre de services aux métiers, de méthodes, de compétences et de technologies adaptées à l’ambition. Une condition sine qua non pour s’assurer que le retour sur investissement soit bien au rendez-vous.

Jean-Baptiste Ceccaldi

A propos de l'auteur

Jean-Baptiste Ceccaldi