Le LNE développe des référentiels communs et réalise des évaluations de systèmes intelligents de manière à fournir à ses clients des repères et résultats fiables pour qualifier leurs systèmes et pour rendre possible une prise de décisions pragmatique et argumentée.
Les tests fonctionnels et les mesures de performance des systèmes d’IA réalisés par le LNE permettent aux développeurs d’optimiser le processus de développement jusqu’à atteindre un produit viable.
Pour déterminer le niveau de performance d’une technologie, il est nécessaire de développer des métriques. A celles portant sur la performance globale du système, s’ajoutent des métriques spécifiques associées à ses différentes composantes et permettant de tracer l’origine des sous-performances. Elles permettent alors d’apprécier la pertinence des choix et orientations technologiques effectués pour faire progresser l’efficacité de la solution technologique, en particulier lorsque la progression est mise en rapport avec les investissements consentis pour juger de leur efficacité.
La qualification des systèmes intelligents est ainsi impérative à des fins de mise au point et de certification. Elle permet :
En effet, l’évaluation va permettre au développeur d’identifier les caractéristiques qui différencient sa technologie de celles de ses concurrents. Un développeur ayant réalisé de bonnes performances lors d’une campagne d’évaluation pourra d’une part garantir à ses clients la conformité de leurs systèmes à un ensemble d’exigences de qualité fixées, mais également démontrer, à des fins marketing, que son système s’est démarqué de la concurrence par son efficacité.
Le LNE fournit à ses clients des repères et résultats fiables pour choisir pragmatiquement la solution d’IA à adopter par leurs entreprises parmi les technologies existantes.
La problématique d’évaluation est sensiblement nouvelle et présente une spécificité métrologique : l’aptitude des systèmes intelligents est à mesurer principalement sur le plan fonctionnel et réside surtout dans leurs facultés d’adaptation, propres à la notion d’intelligence. Il s’agit donc non seulement de quantifier des fonctions et des performances mais aussi de valider et de caractériser des environnements de fonctionnement (des périmètres d’utilisation).
Compte tenu de la grande diversité des environnements à soumettre au système, le client ne dispose pas des moyens nécessaires à tous les essais requis pour répondre à ses besoins. Et il ne peut bien sûr pas s’en remettre au seul développeur, qui sera tenté de réduire son champ d’évaluation aux cas qui lui paraîtront les plus probants pour son produit. Le client désireux de s’en remettre à un tiers arbitre, peut trouver avantageux de s’adresser au LNE, qui présente plusieurs atouts distinctifs : il s’agit d’une agence publique, indépendante de tout intérêt particulier et dont la sincérité des avis est donc assurée, de même que la protection de la propriété intellectuelle des éléments qui lui sont confiés (procédés et données à tester) ; cette neutralité est renforcée par sa stricte spécialisation dans le métier de l’évaluation.
Le LNE fournit des critères quantitatifs objectifs pour accompagner ses clients dans le choix, en connaissance de cause, d’une technologie d’intelligence artificielle à acquérir parmi les offres existantes. Il apporte ainsi son expertise pour :
Après acquisition de la solution technologique, le LNE accompagne ses clients dans :
Le LNE, grâce à une mesure rigoureuse des avancées technologiques, permet aux agences de financement d’estimer l’impact des investissements consentis.
Le LNE, en tant qu’évaluateur tiers de confiance, exerce une assistance à la maitrise d’ouvrage auprès des organismes publics, en :
Les campagnes d’évaluation organisées par le LNE sont des projets pluriannuels qui consistent à proposer un cadre commun pour la mise en compétition d’équipes développant des approches concurrentes. Ces campagnes constituent un moyen d’organisation et de motivation essentiel, à l’entretien d’échanges entre différents participants, suscitant un effet d’entrainement important et permettant de lever des verrous scientifiques ou technologiques, d’améliorer les performances et d’accompagner la montée en TRL (Technology Readiness Level) des systèmes concernés.
Les données sont la clé de l’évaluation et du développement de l'IA. Le LNE est familiarisé à la constitution de banques de données vastes, de qualité, structurées et annotées. Elles peuvent être constituées à partir des données du client ou fournies par les partenaires du LNE, des experts métiers dans les différents domaines couverts par ses évaluations. Le LNE, veille au respect de leur confidentialité et de leur propriété.
Le LNE organise des évaluations de systèmes d’IA qui utilisent des données de différentes natures :
En fonction des besoins du client, le LNE est en mesure de réaliser à la fois des essais physiques dans des environnements réels mais contrôlés, des essais virtuels dans des environnements entièrement simulés et des essais mixtes couplant des stimulations réelles et simulées.
Les essais en environnements réels sont réalisés dans des salles anéchoïques et réverbérantes, des enceintes climatiques (température, humidité, pression), de brouillard salin ou d’ensoleillement, de manière à analyser l’influence des conditions environnementales sur les performances des systèmes intelligents. Le LNE est également en mesure de réaliser des essais de vibration, de choc et d’accélération constante pour évaluer le comportement des systèmes dans des conditions extrêmes, afin de déterminer précisément les conditions limites de fonctionnement.
Pour l’évaluation de systèmes autonomes se déplaçant dans des environnements ouverts et changeants, étant donné le nombre quasi infini de configurations auxquelles pourra être confronté le système, le LNE participe au développement d’environnements de test virtuels permettant une validation du système par simulation. Cette virtualisation de la caractérisation des systèmes intelligents permet de s’affranchir des coûts prohibitifs qui seraient engendrés par une réalisation de tous les essais dans des environnements réels.
De manière à réaliser ses moyens d’évaluation et à maintenir ses propres compétences, le LNE mène aussi des projets de recherche, bien contingentés et bien ciblés, seul ou dans le cadre de partenariats publics et privés, et assure le transfert de ses résultats le cas échéant. Les sujets de recherche du LNE portent généralement sur :
Le LNE participe également aux grands enjeux transverses de l’IA en développant des référentiels pour expliquer, garantir et certifier les systèmes intelligents et pour permettre l’élaboration de normes et de règlements. Le LNE participe notamment à la commission AFNOR sur l’intelligence artificielle, au Comité stratégique information et communication numérique d’AFNOR et à la section 81 de l’UNM portant sur la robotique industrielle.
Ces référentiels permettront aux industriels de connaître précisément les attendus réglementaire avant la mise sur le marché d’un système intelligent et de rassurer le consommateur vis-à-vis du produit, notamment par une approche éthique et responsable de l’intelligence artificielle.
Le projet OPEROSE s’inscrit dans le cadre du plan Ecophyto II soutenu par le ministère de l’agriculture et de l’alimentation et le ministère de la transition écologique et solidaire. Porté par le LNE et Irstea, il vise à organiser les campagnes d’évaluation du Challenge ROSE, permettant de mesurer les performances et la maturité technologique de solutions robotisées assurant un désherbage automatique des cultures. L’ensemble de la chaîne de traitement est prise en compte lors de l’évaluation, de la détection des adventices et des plantes d’intérêt à l’action effective désherbage. Les environnements de test sont constitués à la fois de base de données et de parcelles agricoles réelles.
Ce projet européen a pour enjeu d’améliorer les méthodologies d’évaluation des robots compagnons. En complément de ses recherches sur la fiabilité des systèmes décisionnels, le Laboratoire a effectué des essais en environnement (température, hygrométrie, vibrations, etc.) afin de mesurer les impacts de l’environnement sur les performances des robots.
Le projet concerne la comparaison de voix dans le domaine criminalistique, en lien avec des enjeux de sécurité nationale ou d’expertise judiciaire. L’objectif du projet est de développer une méthodologie d’accréditation et d’établir des standards de mesure objective qui faciliteront les traitements de comparaison de voix dans les services de police et renforceront la recevabilité de la preuve auprès des tribunaux.
Le projet ALLIES, financé par l’ANR, vise à développer des métriques et protocoles pour l’évaluation de systèmes de translation et de diarisation capables d’auto-apprendre et de s’auto-évaluer. Certaines métriques développées dans le cadre de ce projet permettront à ces systèmes intelligents de mesurer leur propre progression et amélioration des performances. D’autres métriques permettront de comparer les différents algorithmes existants et de déterminer les approches les plus prometteuses. Le projet a également pour objectif de développer une plateforme européenne dédiée au développement et à l’évaluation de ces systèmes, dans une démarche de recherche reproductible. Les données et protocoles d’évaluation seront ainsi rendu publics.
Le projet SVA, dans le cadre de la nouvelle France industrielle (secteur mobilité écologique), a pour principaux objectifs de développer des outils permettant de qualifier les performances et la sécurité des véhicules autonomes grâce à des essais virtuels. Le LNE travaille notamment sur les méthodes de caractérisation de capteurs embarqués et évalue les algorithmes de prise de décision de conduite en fonction des informations recueillies.
Ce projet porté par l’IRT SystemX concernait le domaine du traitement de l’information multimédia et a permis de développer une plateforme capable de synthétiser l’information issue de données vidéo et textuelles. Dans ce cadre, le LNE a organisé des évaluations selon trois protocoles différents (évaluation sur corpus a priori, sur corpus a posteriori et sur test d’usage) qui permettaient aux développeurs des sept entreprises du projet de mettre en évidence les points forts et les points d’amélioration des systèmes de la plateforme.
Ce projet, financé par l'ANR, concernait le domaine de la comparaison de voix et consistait à exprimer la vraisemblance que deux enregistrements vocaux aient été prononcés par la même personne. Le LNE a organisé en fin de projet une campagne d’évaluation internationale de système réalisant cette tâche non triviale.
Le projet VERA, financé par l'ANR, visait à développer une méthodologie et des outils génériques pour permettre la localisation et le diagnostic précis des erreurs des systèmes de reconnaissance de la parole automatique (ASR) en vue d’améliorer les performances de ces derniers.
Le DEFI-REPERE était une campagne d’évaluation dans le domaine de la reconnaissance de personnes dans des émissions audiovisuelles, financée par la DGA et l’ANR. Les systèmes de reconnaissance évalués utilisaient des informations multimédia telles que :
La performance de ces systèmes était évaluée par le LNE au moyen de campagnes d'évaluation. Les corpus de test employé par le LNE pour l’évaluation contiennent des émissions audiovisuelles, des journaux, des débats et des émissions de divertissement en langue française.
Quaero était un programme fédérateur de recherche et d'innovation industrielle sur les technologies d'analyse automatique, de classification et d'utilisation de documents multimédias et multilingues, financé par Bpifrance (anciennement Oséo). Il regroupait 32 partenaires français et allemands qui collaboraient pour développer des systèmes de traitement automatique de l’information contenue dans des documents multimédias (langage parlé, images, vidéo et musique). Dans ce cadre le LNE organisait des campagnes d’évaluation pour :