Intéressez-vous davantage à vos données
«Avant d’accuser les algorithmes de tous les biais, intéressez-vous aux données», conseille Stephen Brobst, CTO, Teradata. Il a fait l’unanimité au DiSummit 2019.
«Plus que les algorithmes, ce sont les données qui créent des biais !», assure tout de go Stephen Brobst. Au cours du DiSummit 2019, mardi 25 juin, le CTO de Teradata a créé la surprise. Alors qu’il est de bon ton d’accuser les algorithmes de tous les maux, l’ancien conseiller de Barak Obama sur les questions d’intelligence artificielle, entend rétablir un nouvel équilibre.
En 2015, Amazon avait ainsi décidé de recruter de nouveaux talents via un algorithme entraîné sur des centaines de milliers de CV reçus par l’entreprise pendant dix ans, rappelle Stephen Brobst. L’initiative a été rapidement interrompue car l’algorithme sélectionnait majoritairement des hommes. Et cela pour une raison simple : les données entrées étaient complètement déséquilibrées entre hommes et femmes, les hommes constituant l’écrasante majorité des cadres recrutés dans le passé, l’algorithme ne laissant du coup aucune chance aux nouvelles candidates pourtant qualifiées.
«S’agit-il d’une volonté des développeurs, d’une réaction aux données utilisées pour entrainer l’intelligence artificielle ou un peu des deux ? Impossible à dire. Dans tous les cas, ces différents exemples montrent bien l’importance des jeux de data.» La question, maintenant, est de savoir si on peut complètement supprimer ce genre de biais… dans une société qui fonctionne déjà avec des biais -et ils sont nombreux !
Equité
Ces dérapages algorithmiques ne signifient pas pour autant qu’il faille rejeter l’intelligence artificielle dont l’utilité n’est plus à démontrer. Mais son usage exige de corriger au mieux ces biais pour assurer justement l’équité. L’une des voies, bien sûr, est la transparence, en particulier de l’algorithme et de son fonctionnement. «Il est important de comprendre comment il produit un résultat. Il faut donc pouvoir l’examiner. Mais c’est très vite un problème, car cela touche souvent au secret industriel, à la propriété intellectuelle…
Dans d’autres situations, l’algorithme est bien public, mais les données sur lesquelles il opère restent obscures. «“L’algorithme peut être connu, mais quid de la valeur des data quand on n’y a pas accès ?” Difficile, dès lors, de savoir si la machine opère véritablement un traitement équitable.
Sans données, l’algorithme est aveugle
Accéder aux données n’est d’ailleurs qu’une étape. Encore faut-il pouvoir les corriger. Dans le cas du recrutement chez Amazon, il aurait été nécessaire de corriger la sous-représentation des femmes dans les données de départ. «Aussi sophistiqués que soient les algorithmes, ils n’inventeront pas une information dont ils ne disposent pas !», rappelle fort justement Stephen Brobst.
Intéressez-vous davantage à vos données, conseille le CTO de Teradata. «Sans données, l’algorithme est aveugle. Et sans algorithme, les données sont muettes !». De manière générale, «la visibilité accrue des algorithmes aujourd’hui est indissociable des masses de données inédites à disposition dans tous les secteurs, qu’il faut trier pour pouvoir en tirer tout le potentiel.»
Pour apprendre, insiste encore Stephen Brobst, un algorithme doit se baser sur un très grand nombre de data préexistantes ou acquises à travers son entraînement. «Le résultat de l’algorithme dépend donc inéluctablement de la qualité des données sur lesquels se fonde l’apprentissage. Ainsi, si une base de données est représentative des biais des personnes qui l’ont créée, le résultat pourrait l’être.»
Cet article parle de "Artificial Intelligence"
Artificial Intelligence, Deep Learning, Machine Learning