Talend : une solution de préparation de données pour le Big Data sur Apache Beam

Par:
fredericmazue

mer, 08/03/2017 - 09:49

Talend présente une solution de préparation de données pour le big data en libre-service, sur Apache Beam. Devenu un projet de premier plan de la fondation Apache, Apache Beam est un modèle de programmation unifié qui permet d’exécuter des pipelines de flux de données par lots (batch) ou en flux continu (streaming), avec la possibilité de les exécuter sur une variété de plateformes. Talend Data Preparation est une solution en libre-service permettant à davantage d’employés d’accéder, de nettoyer et d’analyser d’important jeux de données. La combinaison Apache Beam et Talend Data Preparation est conçue pour aider les entreprises à accélérer la prise de décision, en permettant à un plus grand nombre d’utilisateurs de créer des projets de données qui peuvent être exécutés sur l’ensemble des dernières innovations technologiques liées au traitement de données.

« Aujourd’hui, les entreprises doivent pouvoir accéder plus facilement à des données propres et utilisables, afin de générer des informations qualifiées en temps réel au sein de leur organisation », déclare Laurent Bride, directeur technique de Talend. « Cependant, l’innovation technologique étant de plus en plus soutenue, les responsables informatiques doivent souvent faire face au risque que leurs investissements deviennent rapidement obsolètes, voire même qu’ils fassent obstacle à la croissance future de leur entreprise. Nous sommes convaincus qu’Apache Beam représente l’avenir : ce modèle évite d’avoir à réécrire des applications au gré des innovations, de migration de systèmes vers le cloud ou en cas d’alternance de styles d’intégration. L'utilisation de Beam pour Data Preparation permettra à nos clients de créer une seule fois leurs modèles de préparation de données et de les exécuter n’importe où, bénéficiant ainsi d’une agilité sans précédent. »

Les capacités de préparation des données de Talend permettent de :

  • Accéder à n'importe quelle source de données, qu'elle soit hébergée dans Hadoop, sur le cloud ou dans des bases de données traditionnelles, puis de les partager entre utilisateurs et groupes de travail pour encourager la collaboration.
  • Utiliser un dictionnaire de données préconfiguré pour reconnaitre automatiquement la signification de données brutes d’un data lake, ainsi que d’enrichir ce dictionnaire avec son propre vocabulaire, tel que les codes ou noms de produits de l’entreprise.
  • Décrire de nouvelles données de manière participative depuis des données ouvertes (open data) et/ou la communauté Talend.

Plus d'informations : www.talend.com/blog