Évaluer les intelligences artificielles

Les systèmes intelligents connaissent depuis 2016 des développements majeurs et trouvent de plus en plus d’applications dans notre économie. Ils représentent un enjeu industriel, commercial, social et sociétal particulièrement novateur et vraisemblablement stratégique. Propulser la France dans cette nouvelle ère repose sur un préalable : avoir confiance en des systèmes d’intelligence artificielle (IA) éthiquement irréprochables et dont les performances sont connues. Cette confiance repose essentiellement sur une évaluation rigoureuse de ces systèmes.

Un contexte en pleine évolution

Véhicules autonomes, agents conversationnels, robots domestiques, agricoles ou industriels… Les systèmes intelligents investissent tous les domaines et occupent une place de premier choix dans de très nombreux secteurs d’activités : l’usine 4.0, la santé, la défense, les transports, l’écologie, l’éducation, la relation client, la finance, l'énergie...

La France souhaite se positionner au plus tôt en vue de préserver un avantage dans la compétition internationale, et éviter d’être dépassé et de s’exposer à de nouvelles dépendances. Elle manque cependant singulièrement de géants du numérique (de type Google, Microsoft, etc.) lui permettant de mobiliser aisément des compétences et des capitaux, ce qui constitue un handicap certain dans la course à l’intelligence artificielle. Ces préoccupations sont notamment partagées par les plus hautes autorités nationales, dont les initiatives se sont multipliées ces derniers mois : point de situation par les acteurs institutionnels autour de la communauté #FranceIA, enquête de l’Office parlementaire d’évaluation des choix scientifiques et techniques (OPECST), mission d’approfondissement et de planification du député de l’Essonne C. Villani, dont le rapport a été publié le 28 mars 2018.

La qualification de ces futurs systèmes intelligents est impérative pour l’utilisateur (sélection, réception, appréciation des fonctionnalités et performances, fiabilité et sécurité) comme pour le concepteur (conception et mise au point, certification). Au-delà de l’efficacité même des systèmes, il est nécessaire de se pencher sur les questions de sécurité, conditions indispensables à une acceptabilité collective. Derrière le fantasme populaire alimenté par les scénaristes de science-fiction ou de spéculations sur les conséquences apocalyptiques d’une « singularité technologique », il convient de veiller à la transparence et d’être continuellement en mesure de prouver l’innocuité et l’éthicité des nouveaux systèmes, ou encore d’en estimer les incidences juridiques.

Rapport Villani sur l'intelligence artificielle
Rapport Villani
Le rapport de la mission Villani

Le positionnement général et historique du LNE, sa vocation d’organisme « tiers de confiance » et l’expérience pratique et ancienne de ce positionnement, sa neutralité statutaire, en font un acteur légitime et approprié pour répondre à cette demande et favoriser le développement de l'IA en France et l’acceptabilité des futurs systèmes. Le rapport de la « mission Villani » propose donc que les responsabilités du LNE soient étendues et que celui-ci soit reconnu comme « l’autorité compétente en matière d’évaluation des intelligences artificielles ». Le LNE aura ainsi vocation à participer aux grands enjeux transverses de l’IA en développant des référentiels pour structurer, garantir, et certifier les systèmes intelligents et permettre l’élaboration de normes et de règlements., contribuant ainsi à la confiance que mettront les entreprises et les citoyens dans ces nouvelles technologies.

Consultez le rapport

Les enjeux de l'évaluation de l'IA

L’évaluation : vecteur d’innovation et outil d’aide à la décision

L’évaluation est un élément indispensable pour les développeurs de systèmes d’IA. Elle permet :

  • d'identifier l’origine des sous-performances et guider les développements futurs,
  • d'estimer la quantité et la nature des efforts à fournir avant le lancement commercial,
  • d'évaluer l’efficacité des investissements consentis pour faire progresser la technologie,
  • de caractériser le périmètre d’utilisation du système.

De plus, devant la multitude de solutions d’intelligence artificielle proposées par des acteurs toujours plus nombreux, une société souhaitant acquérir un système d’intelligence artificielle, que ce soit un chatbot pour sa relation client ou un robot agricole automatisé, doit pouvoir s’appuyer sur des métriques concrètes attestant de l’efficacité et de la robustesse du système. L’évaluation favorise ainsi une prise de décision pragmatique et argumentée lors du choix d’une IA.

Le challenge, une des voies pour l’évaluation

Les challenges sont des projets pluriannuels qui consistent à proposer un cadre commun pour la mise en compétition d’équipes développant des approches concurrentes. Ces campagnes constituent un moyen d’organisation et de motivation essentiel à l’entretien d’échanges entre différents participants, suscitant un effet d’entrainement important et permettant de lever des verrous scientifiques ou technologiques, d’améliorer les performances et d’accompagner la montée en TRL (Technology Readiness Level) des systèmes concernés.

Pour évaluer de manière rigoureuse, comparable et non biaisée la fiabilité des différentes solutions techniques en concurrence, les campagnes d'évaluation doivent être organisées par un tiers de confiance compétent en métrologie appliquée à ces systèmes. Le LNE est un candidat idoine pour jouer ce rôle. Il dispose d’une expertise métier relative à l’évaluation des systèmes intelligents qui comprend la sélection, la qualification et l’annotation des données, la définition de protocoles d’évaluation (assurant des expérimentations reproductibles et des mesures répétables) et de métriques, ainsi que l’analyse des résultats.

ROSE, un challenge pour évaluer les robots agricoles

Challenge ROSEDe 2018 à 2022, le LNE est par exemple responsable, en partenariat avec IRSTEA, de l’organisation du Challenge ROSE financé par l’ANR et l’AFB, dans le cadre du plan Ecophyto II soutenu par les ministères de l’Agriculture et de la Transition écologique et solidaire. L’objectif est d’évaluer les robots agricoles destinés au désherbage intra-rang, afin de supprimer les herbicides dans les cultures à fort écartement (maïs, tournesol) et maraîchères. Le LNE et IRSTEA ont notamment pour missions de définir les modes opératoires des campagnes d’évaluation de ce challenge et de comparer les solutions des participants.

Site web du Challenge ROSE

Exemples d’évaluation de systèmes IA

Transcription automatique de la parole

Les systèmes de transcription permettent de convertir un fichier audio en un fichier texte. Cette tâche peut être plus ou moins complexe en fonction du nombre d’interlocuteurs impliqués. Elle est ainsi plus aisée lorsqu’il s’agit de transcrire un discours qu’une conversation de groupe. L’unité la plus classique pour mesurer les performances d’un système de transcription est le taux d’erreur de mots (WER) qui pénalise les mots incorrectement reconnus, omis ou ajoutés inutilement par rapport à une transcription de référence réalisée par un annotateur humain.

Transcription automatique de la parole
Outil d'évaluation de systèmes de traitement automatique de la parole

Depuis 2008, le LNE mène des projets de recherche en évaluation des systèmes de traitement automatique de l’information et noue des partenariats publics et privés dans ce domaine. Qu’il s’agisse d’applications civiles en compréhension ou transcription de la parole, traduction, diarisation et détection d’entités nommées ou des applications duales en comparaison de voix pour la criminalistique, traduction, reconnaissance d’écriture, reconnaissance de personnes dans des documents télévisuels, le LNE a acquis une expertise pointue qui couvre les différents champs du domaine.
Grâce à cette expertise, il a ainsi développé deux outils complémentaires en 2017 afin d’évaluer les systèmes de transcription automatique de la parole: Datomatic, qui permet d’organiser des données afin de constituer une base de références ; et Evalomatic, qui teste la pertinence des logiciels en comparant leurs résultats aux références de Datomatic. Réunis dans une interface unique, ils ont vocation à être diffusés librement auprès des industriels et des chercheurs.

Evaluation des robots : essais en environnements réels et/ou virtuels

Un robot est un système doté au moins partiellement d’une autonomie d’action pilotée par de l’intelligence artificielle. Ainsi défini, la spécificité du robot par rapport à d’autres systèmes mécatroniques est de faire appel à l’IA. Son évaluation repose donc sur les mêmes principes que pour une intelligence artificielle et son aptitude est à mesurer principalement sur le plan fonctionnel et dans ses facultés d’adaptation, propres à la notion d’intelligence. Il s’agit donc non seulement de quantifier ses fonctions et ses performances mais aussi de valider et de caractériser les environnements de fonctionnement dans lesquels il aura un comportement robuste.

Environnement de test virtuel
Evaluation en environnement virtuel

Pour déterminer les périmètres d’utilisation du robot, il est nécessaire d’avoir recours à des essais en environnements contrôlés. Des essais physiques dans des enceintes climatiques, thermiques, de brouillard salin et sur des bancs d'ensoleillement permettent par exemple d'analyser l’influence des conditions environnementales sur les performances des systèmes intelligents. Il convient également de réaliser des essais de vibration, de choc, et d’accélération constante pour évaluer le comportement des systèmes dans des conditions extrêmes et déterminer précisément les conditions limites de fonctionnement.

Evaluation robot
Evaluation du robot HRP-2 du LAAS dans une enceinte climatique

Dans le cadre du projet européen Robocom++ qui vise à organiser la filière de la robotique de service et à monter un consortium pour répondre au prochain appel Flagship, le LNE a ainsi réalisé des essais sur un robot humanoïde du LAAS, de manière à tester la robustesse de ses performances aux changements des conditions climatiques.

Pour l’évaluation de robots autonomes se déplaçant dans des environnements ouverts et changeants, étant donné le nombre quasi infini de configurations auxquelles pourra être confronté le système, le LNE participe au développement d’environnements de test virtuels permettant une validation par simulation. Dans le cadre de la nouvelle France industrielle (secteur mobilité écologique) , qui a pour principaux objectifs de développer des outils permettant de qualifier les performances et la sécurité des véhicules autonomes grâce à des essais virtuels, le LNE est ainsi impliqué dans le projet SVA (simulation pour la sécurisation du véhicule autonome). Il travaille notamment sur les méthodes et outils de caractérisation de capteurs embarqués et d'évaluation des performances des algorithmes qui sous-tendent la prise de décision des véhicules autonomes. Ces travaux sont de nature à répondre à la volonté politique d'inscrire l'industrie automobile européenne dans un développement durable et sûr, ainsi qu'aux nouveaux besoins des bureaux d'études qui cherchent à développer des systèmes toujours plus robustes et efficients.

 

A consulter aussi...