Suivre et tout savoir en temps réel sur les 198 coureurs des 22 équipes du Tour de France 2015. Ce qui veut dire, par exemple, connaître la vitesse de chacun d’entre eux, ainsi que sa position exacte dans la course, par rapport aux autres coureurs, voire la distance entre eux…
Objectif de cet énorme projet digital : aller au-delà de ce qui est compréhensible via les images de la télévision. Pour comprendre quel coureur est dans quel groupe, également pour suivre son coureur favori sur son smartphone ou sa tablette, via un site Web conçu en Responsive Design tout en le regardant à la TV en direct. Mais aussi, près la course, exploiter les statistiques quotidiennes -délivrées deux heures après l’arrivée du dernier coureur.
A la clé, de multiples informations statistiques précises sur chaque concurrent : la pointe de vitesse du coureur gagnant, sa vitesse moyenne et son temps de course, les vitesses des meilleurs grimpeurs, la vitesse du vainqueur sur la ligne d’arrivée, la vitesse moyenne des coureurs, le coureur qui a passé le plus de temps en tête de la course, le délai entre le coureur le plus rapide et le plus lent, la vitesse la plus rapide réalisée par un coureur dans la journée, etc.
75 millions de relevés GPS au cours des trois semaines !
Dimension Data, en charge du projet (partenaire pour quatre ans d’ASO – Amaury Sport Organisation) n’a pas lésiné sur les moyens. Sous la selle de chacun des 198 coureurs, un transmetteur GPS qui capte localement les informations dans le cadre d’un réseau maillé entre les coureurs vers un véhicule de la course, lequel transmet les informations vers un centre technique, pour ensuite être diffusées via @letourdata. Au total, sur les trois semaines de la compétition, on aura dénombré pas moins de 42 000 points géospatiaux et 75 millions de relevés GPS !
L’infrastructure en place est colossale. A lui seul, site Web de suivi en direct peut prendre en charge 17 millions d’utilisateurs et 2000 demandes d’accès à une page par seconde. On frôle les 350 000 000 cycles de traitement par seconde. Le site Web a été dimensionné pour supporter 17 millions de visiteurs par seconde !
Pour préparer le Tour de France, Dimension Data a réalisé des essais durant l’épreuve du Critérium du Dauphiné qui s’est déroulée en France du 7 au 14 juin. «C’est ainsi que nous avons analysé les données d’un cycliste qui roulait à la vitesse stupéfiante de 104 km/h, s’exclame Jeremy Ord, Executive Chairman, Dimension Data. Ce type de données n’était pas disponible par le passé !»
19 gigaoctets pour l’ensemble de la course
Côté sportif, on peut désormais mieux comprendre comment se prépare un sprint dans les derniers kilomètres. «Cette technologie montre le rôle essentiel de chaque coéquipier dans la course», se félicite Christian Prudhomme, directeur du Tour de France. Pour y parvenir, plus de 15 000 données, représentant environ 100 mégaoctets, sont capturées quotidiennement par cycliste ! Soit un total d’environ 19 gigaoctets pour l’ensemble de la course. Un volume important même s’il reste en deçà des niveaux du big data estimé à partir de 10 téraoctet. Injectées dans le cloud de Dimension Data, ces données sont d’abord nettoyées, puis analysées, avant d’être mises à la disposition des organisateurs, commentateurs, diffuseurs et médias -le tout en moins d’une seconde.
Pour la première fois, trois technologies digitales se combinent pour améliorer le suivi de la course : l’IoT (Internet of Things), le big data et le cloud computing. C’est donc une étape majeure pour la vénérable compétition cycliste. D’autres suivront, notamment via l’analyse prédictive prévue pour les éditions suivantes. Outre le cloud de Dimension Data, la solution technique exploite une base de données Open Source MongoDB et la plateforme de corrélation de données InfoSphere Streams d’IBM.
«L’objectif pour 2015 est de fournir des informations de suivi précis de la course et une analyse supplémentaire pour chaque étape, explique Christian Prudhomme. L’utilisation de l’analyse prédictive au Machine Learning figure dans notre feuille de route. Ce sera possible dès que nous aurons une base de données suffisante…»
IBM InfoSphere Streams permet d’exécuter des analyses dynamiques sur une grande variété de types de données relationnelles et non relationnelles, à des niveaux de volume et de vitesse exceptionnels, et à partir de milliers de sources en temps réel. Le logiciel offre une plateforme de développement et un environnement d’exécution permettant aux organisations d’obtenir des applications capables d’intégrer, de filtrer, d’analyser et de mettre en corrélation des volumes considérables de données en continu. Ces flux de données peuvent provenir de sources structurées ou non structurées. Patience ! Ce sera pour l’édition 2016 !