Seul, le data lake ne dégage aucune valeur, si ce n’est celle de contenir de l’information. En revanche, c’est l’intelligence qu’on lui applique qui permet de créer une valeur nouvelle. Connaître la répartition et le nombre de produits vendus est une première étape; relier ces produits avec d’autres achetés par une même personne en est une deuxième, qui va permettre de construire un modèle de données. L’idée, in fine, est d’améliorer l’expérience d’un client ou lui proposer d’autres produits à sa convenance. On peut ensuite aller plus loin, en incluant par exemple la météo ou encore l’état des transports…

«Aujourd’hui, dans un environnement toujours plus concurrentiel, ces différences comportementales méritent d’être valorisées. C’est vrai dans tous les secteurs. D’autant que, aujourd’hui, 90% des données produites dans le monde l’ont été lors des deux dernières années. Il s’agit donc d’en tirer le plus vite possible de la valeur, donc de travailler à la demande, avec de très grands volumes de données des plus variées, explique Eric De Witte, Specialist, EMC Belux. C’est l’aptitude à combiner, configurer et déployer rapidement les meilleures technologies logicielles et matérielles qui permet de concevoir des applications, dont l’usage ouvre aux entreprises de nouvelles opportunités et leur apporte une agilité propre.»

Le data lake permet de transformer la donnée en une matière dont la valeur est immédiatement exploitable pour générer de nouveaux modèles métier pour l’entreprise ou pour ouvrir de nouvelles voies au sein des modèles existants. Le data lake fait référence au concept de stockage des données opérationnelles générées par les entreprises. Ces données étant généralement regroupées sans tenir compte de leur structure, de façon brute, il est souvent compliqué pour les entreprises de savoir comment bien les utiliser.

   DATA LAKE OU DATA WAREHOUSING ? «Rien à voir avec le data warehousing, trop lourd, précise Eric De Witte. Le data lake est différent en ce sens qu’il permet de charger les données et de les transformer ensuite pour les rendre exploitables. Les initiatives autour de la data sont très souvent limitées par les difficultés inhérentes aux phases de collecte et d’ingestion dans les systèmes. Sur ce point, le fait de pouvoir charger les données sur une plateforme dans un état quasiment brut, et d’itérer rapidement pour les utiliser est un avantage indéniable.»

Schématiquement, une bases de données relationnelle ou un data warehouse sont des structures verticales. La structuration des hiérarchies, des dimensions, leur donne de la verticalité, de la structure. Ils sont donc, ensuite, difficiles à déconstruire si l’on souhaite en modifier l’organisation. A l’inverse, un data lake est totalement plat, sans structure. Les données sont conservées sur le même plan; la structure est créée au moment de l’analyse.

«C’est précisément cette structure qui va permettre de réagir -et donc d’interagir- au plus vite, quitte à n’avoir qu’une vue partielle du sujet, les données pouvant être brutes ou très raffinées», poursuit Eric De Witte. L’une des clés de cette flexibilité est l’absence de schéma strict imposé aux flux entrants. Cette faculté permet d’insérer toutes les données, quelles que soient leur nature et leur origine… et d’accélérer les cycles d’innovation.

La structuration des données dans un data warehouse impose aux analystes d’utiliser les données au travers du formalisme rigide conçu à l’origine de celui-ci. La transformation au chargement des données, si elle est structurante, est aussi destructrice des détails, du fait des agrégations nécessaires. Il ne s’agit pas pour autant de remiser le data warehouse. «On ne basculera pas d’un modèle à un autre, en revanche on évoluera d’un modèle à l’autre, en fonction des besoins, souligne Eric De Witte. Le concept de data lake est à recommander pour de gros volumes de données dont on ne connaît pas a priori les structures analytiques. Il est donc complémentaire du data warehouse qui reste la structure la mieux adaptée à l’analyse répétitive et comparative des données structurées de l’entreprise.» 

   NETFLIX, RECOMMANDATION PREDICTIVE. Les organisations sont motivées par le besoin d’améliorer leur utilisation des données, de centraliser toutes les sources en un seul point et d’accélérer les cycles d’innovation. Les secteurs du marketing et des médias ont été évidement les premiers à saisir cette opportunité, bien avant que le terme de data lake ne popularise cette pratique. Netflix est un bel exemple. C’est aujourd’hui le seul service mettant au cœur de son expérience la recommandation prédictive. Dès le premier contact, le service propose une sélection de films à noter afin que les algorithmes de Netflix puissent générer les premières suggestions personnalisées. Puis, en fonction de la visite de pages de films ou de séries et de la visualisation du programme, partielle ou totale, l’ajustement se fait pour avoir une expérience de plus en plus personnalisée.

Plus généralement, dans une démarche de DMP (Data Management Platform), le Data Lake permet de collecter toutes les données issues des interactions avec les clients, de raffiner celles-ci pour offrir une vision à 360° sur les clients. «Très souvent, ces projets ont vocation à appliquer sur ces données des algorithmes de segmentation ou de prédiction pour anticiper les comportements des consommateurs, conclut Eric De Witte. Avec l’IoT (Internet of Things), nous verrons de nouveaux champs d’application pour ces outils, permettant d’appréhender des masses importantes de données et de systématiser l’utilisation de machine learning à grande échelle.»

 

Le fonctionnement d’un data lake

  • Acquisition : collecte de données à partir d’un nombre illimité de sources (ERP, métier, bases de données, web, réseaux sociaux etc..)
  • Stockage : stockage des données dans leur format brut ou après modification (ETL).Elles sont accessibles simultanément par de nombreux protocoles d’échange de données dont HDFS (Hadoop) (qui est la porte d’accès aux outils big data).
  • Analyse : algorithmes avancés pour l’analytique prévisionnelle.
  • Mise à disposition : présentation des données aux consommateurs (utilisateurs et applications) en fonction des besoins.
  • Action : développement et mise à disposition de nouveau code logiciel à partir des informations nouvellement acquises.
Summary
EMC - Data Lake, toujours plus prédictif
Article Name
EMC - Data Lake, toujours plus prédictif
Description
Le data lake permet de transformer la donnée en une matière dont la valeur est immédiatement exploitable pour générer de nouveaux modèles métier pour l’entreprise ou pour ouvrir de nouvelles voies au sein des modèles existants.
Author