Extension du Data Mining, la Data Science ouvre de nouvelles perspectives. Mais les projets ne se pilotent pas de la même façon. Explications de Tanguy Le Nouvel, Directeur Practice Data Science, Micropole.
«La Data Science étend le principe du Data Mining aux nouvelles plateformes Big Data. Si l’on s’y penche de plus près, on s’aperçoit que la plupart des fondements des algorithmes cités comme relevant de la Data Science ont été définis il y a… très longtemps et cela qu’il s’agisse de traitement d’images, de textes ou encore de machine learning», estime Tanguy Le Nouvel, Directeur Practice Data Science, Micropole.
Ce qui a changé en revanche, c’est le couplage entre une puissance de calcul quasi infinie et la démocratisation de l’accès aux algorithmes de dernière génération, qui permet désormais de traiter tout type d’information et de délivrer plus de prédictions et de recommandations en temps réel, avec une précision parfois chirurgicale. «Or, si le champ des possibles s’est aujourd’hui largement étendu, de nombreux projets lancés dernièrement auraient déjà pu être traités sans aucun problème il y a dix ans sur un PC de bureau ! Tant mieux donc si tout ce buzz autour du Big Data et de la Data Science a permis de réveiller les esprits !»
L’autre avantage des nouvelles plateformes Big Data est qu’elles permettent de rassembler dans un environnement unique toutes les sources de données de l’entreprise (structurées ou non, Data Warehouse, web, capteurs, données externes…) augmentant ainsi significativement la productivité des Data Scientists et rendant possible la vision 360° qui en était restée jusque-là au stade virtuel pour de nombreuses entreprises.
Pas d’improvisation
«Si la réconciliation de toutes ces données dans un environnement unique est simplifiée, il ne faut cependant pas oublier que chaque projet de Data Science nécessite une phase de cadrage et de préparation des données bien spécifique, insiste Tanguy Le Nouvel. La reconstitution d’historiques individuels et de trajectoires clients, comme la montée en puissance, la décroissance, voire l’instabilité des comportements dans un contexte omnicanal en vue de prédire un évènement ne s’improvise pas lorsqu’on ne l’a jamais fait !»
En effet, la plupart des algorithmes ont besoin de travailler sur des tables de données qui ne ressemblent en rien aux données brutes déversées dans les datalakes. Dans la majorité des cas, ces algorithmes ont besoin de travailler sur des tables ou chaque ligne représente un individu distinct et chaque colonne une information spécifique sur cet individu. Or, les données déversées dans les datalakes sont pour la plupart au format transactionnel. Par exemple, pour un projet de connaissance client, il faudra être en mesure de transformer ces données brutes afin de résumer au mieux la situation de chaque client avant l’événement que l’on cherche à modéliser. Ces indicateurs porteront aussi bien sur le profil signalétique client que sur ses comportements passés -achats cumulés, récents, visites online ou offline, parcours d’achats, réactivité aux sollicitations marketing, avis consommateurs, déplacements, préférences affinitaires, utilisation des produits via capteurs sensoriels…
«On a donc beau être le ‘roi de la programmation’, on ne sera pas très avancé si l’on n’a jamais été confronté à la transformation des données brutes en indicateurs potentiellement pertinents pour expliquer ou prédire l’évènement ciblé, assure Tanguy Le Nouvel. Or, jusqu’à présent, la majeure partie des projets de Data Mining était consacrée à la préparation des données. On s’aperçoit donc que rien ne change de ce point de vue-là avec l’arrivée de la Data Science.»
Moutons à douze pattes
Finalement, ce virage technologique est une formidable opportunité pour les entreprises désireuses d’anticiper et de prédire les événements clés de leur activité. Il l’est tout autant pour les Data Miners eux-mêmes qui vont pouvoir découvrir de nouvelles approches (machine learning) et de nouveaux outils (R, Python, H2O…), dont la prise en main est finalement très accessible.
Et même si certains Data Miners ont certainement dû se sentir un peu perdus devant une telle effervescence et l’invraisemblable accumulation de nouveaux environnements, langages, packages et solutions qu’il leur était demandé de maitriser par les entreprises désireuses de recruter, qu’ils se rassurent ! Ces fiches de poste correspondent aux profils des pionniers de la data science : ces fameux ‘moutons à douze pattes’. Elles vont progressivement laisser place à deux types de profils complémentaires.
Un, les architectes Big Data au profil plus informatique que métier : chargés de configurer et d’administrer la plateforme BigData, de gérer les flux de données, de préparer les données et d’automatiser leur transformation pour faciliter le travail du Data Scientist et l’exploitation opérationnelle des prédictions ou recommandations. Deux, les Data Scientists au profil plus statistique et métier : chargés de faire le lien entre les besoins métiers et les données, de les transformer pour les analyser, synthétiser, expliquer et prédire certains évènements ou comportements. En quelque sorte, une extension du profil de data miner avec, en plus, la maîtrise des langages R et Python et une vraie agilité à choisir le bon langage en fonction des besoins spécifiques de chaque étude.
Plus globalement, estime-t-on chez Micropole, les architectures Big Data entraînent une modification de l’approche collaborative des différents acteurs. Là où le Data Miner était cantonné en bout de chaîne et était très rarement sollicité en amont des projets, le Data Scientist va travailler dès l’initialisation du projet avec l’architecte Big Data, en fonction du cas d’usage à traiter, sur la meilleure façon de récupérer les données (API, fichiers de type JSON, traitement en temps réel d’un flux de données, etc). Le Data Scientist donnera ainsi ses inputs en fonction des packages, librairies et algorithmes qu’il compte utiliser, l’usage même de ces algorithmes étant conditionné par la volumétrie des données.
Comprendre, créer, expérimenter
«Il y a donc une dimension de gouvernance qu’implique le travail du Data Scientist, de par sa capacité unique au sein du datalake de croiser l’ensemble des données transverses de l’entreprise, conseille Tanguy Le Nouvel. Se posent alors des questions liées à la sécurité, le respect et la protection des données privées, la manipulation de données sensibles, etc. Le Data Scientist devra donc travailler demain avec des profils tels que le RSSI (Responsable de la sécurité des systèmes d’information), mais aussi le CDO (Chief Data Officer) qui pilote la stratégie et l’ambition des données au sein de l’organisation.»
Du fait des Big Data, de la puissance de calcul des nouvelles plateformes et de la nécessité de délivrer toujours plus de prédictions, prescriptions, recommandations pertinentes, dont certaines en temps réel, l’intensification de l’usage de la Data Science en mode machine learning dans les process opérationnels est inéluctable. Mais qui dit machine learning dit boite noire, et qui dit analyse prédictive dit limitation au spectre des évènements passés pour influencer et orienter le futur. Or, les entreprises auront toujours besoin de comprendre, de créer et d’expérimenter de nouvelles offres, de nouvelles stratégies et de nouveaux dispositifs.
«Il faudra donc que les entreprises soient proactives et qu’elles aient massivement recours à l’approche ‘test and learn’, conclut Tanguy Le Nouvel. C’est de cette façon que l’approche statistique classique et la Data Science leur permettront de mesurer et d’identifier leurs nouveaux leviers de croissance.»