Le paradis sur Terre existe, SAS Analytics l’a identifié : West Perth
180 000 lieux, 5 millions d’enregistrements, un seul gagnant : SAS fait parler les données pour identifier le meilleur endroit sur Terre grâce au machine learning et à l’analytique des big data. West Perth s’impose.
Machine learning et analytique plutôt que statistiques et critères statiques : SAS bouscule les méthodes d’étude conventionnelles et identifie le meilleur endroit sur terre à partir de plus de 1 100 sources de données. Et c’est… West Perth, en Australie. A l’aide de procédures de machine learning, les data scientists du projet Paradise Found ont défini les critères les plus importants à partir des données, contrairement aux classements traditionnels qui reposent sur des cadres d’évaluation prédéterminés. Sur la base des huit principaux critères identifiés par SAS, West Perth arrive au premier rang des quelque 150 000 lieux couverts par l’analyse.
Compte tenu du nombre de lieux pris en compte, la portée de l’étude dépasse largement celle des classements de villes habituels, tout en produisant des caractéristiques bien plus détaillées. Au total, l’analyse a couvert plus de 5 millions d’enregistrements provenant de 1 124 sources uniques de données pour le projet Paradise Found. L’éventail comprenait des données structurées et non structurées (ex : formats textuels fournis par les organismes statistiques), issues de diverses sources ouvertes et open data, telles que des études de villes, des réseaux sociaux (dont TripAdvisor et Twitter), des services de données internationaux fournis par des organisations comme la Banque mondiale, l’UNESCO, l’OMC, Numbeo et l’UE, et des services de géolocalisation tels que Google Places et OpenStreetMap.
Toutes ces informations ont été combinées à l’aide des outils de gestion de données disponibles sur la plate-forme SAS, et analysées avec des techniques de machine learning et de data mining. SAS Visual Data Mining and Machine Learning et SAS Visual Analytics ont également été utilisés. Des algorithmes de machine learning ont alors identifié huit classifications de variables : formation et carrière, famille, culture, Nature, sécurité et infrastructures, coût de la vie, restaurants et commerces… et santé.
West Perth allie écologie, sécurité et culture
West Perth a obtenu un score élevé dans les catégories restaurants et commerces, culture et sécurité et infrastructures. L’analyse a également fait apparaître des points positifs qui n’auraient sans doute jamais figuré dans la liste des critères sans l’analytique, par exemple, le prix des transports publics (gratuits à Perth) et la proportion d’espaces verts (l’équivalent de cinq courts de tennis par habitant à Perth). De plus, la ville accueille également le plus grand nombre de millionnaires par habitant ayant réussi par eux-mêmes.
«Paradise Found n’est pas un simple palmarès des villes, explique Andreas Becks, Manager Business Analytics, SAS. Il s’agit d’une recherche purement analytique, qui a servi à démontrer dans quelle mesure le machine learning peut contribuer à la prise de décisions. Les méthodes d’enquête classiques font appel à une série de critères qui permettent de définir les données à collecter et à analyser, en fonction de l’objectif visé. Dans le projet Paradise Found, en revanche, nous avons traité toutes les données disponibles et laissé les algorithmes de machine learning décider des critères vraiment importants. Ainsi, aucun facteur n’est ignoré parce que personne n’a pensé à l’inclure. Les données parlent d’elles-mêmes et non en fonction d’une hypothèse de modélisation», explique Andreas Becks, Manager Business Analytics chez SAS.
Le projet illustre ainsi parfaitement les possibilités offertes par l’analytique et le machine learning : trouver des modèles dans les données selon une approche totalement impartiale. Il est certes amusant de savoir où se trouve le meilleur endroit au monde. Mais pour une entreprise, cette méthode analytique est d’une efficacité remarquable lorsqu’il s’agit d’identifier de nouvelles opportunités et business models…