
Le LNE développe des référentiels communs et réalise des évaluations de systèmes intelligents de manière à fournir à ses clients des repères et résultats fiables pour qualifier leurs systèmes et pour rendre possible une prise de décisions pragmatique et argumentée.
Les tests fonctionnels et les mesures de performance des systèmes d’IA réalisés par le LNE permettent aux développeurs d’optimiser le processus de développement jusqu’à atteindre un produit viable.
Pour déterminer le niveau de performance d’une technologie, il est nécessaire de développer des métriques. A celles portant sur la performance globale du système, s’ajoutent des métriques spécifiques associées à ses différentes composantes et permettant de tracer l’origine des sous-performances. Elles permettent alors d’apprécier la pertinence des choix et orientations technologiques effectués pour faire progresser l’efficacité de la solution technologique, en particulier lorsque la progression est mise en rapport avec les investissements consentis pour juger de leur efficacité.
La qualification des systèmes intelligents est ainsi impérative à des fins de mise au point et de certification. Elle permet :
En effet, l’évaluation va permettre au développeur d’identifier les caractéristiques qui différencient sa technologie de celles de ses concurrents. Un développeur ayant réalisé de bonnes performances lors d’une campagne d’évaluation pourra d’une part garantir à ses clients la conformité de leurs systèmes à un ensemble d’exigences de qualité fixées, mais également démontrer, à des fins marketing, que son système s’est démarqué de la concurrence par son efficacité.
Le LNE fournit à ses clients des repères et résultats fiables pour choisir pragmatiquement la solution d’IA à adopter par leurs entreprises parmi les technologies existantes.
La problématique d’évaluation est sensiblement nouvelle et présente une spécificité métrologique : l’aptitude des systèmes intelligents est à mesurer principalement sur le plan fonctionnel et réside surtout dans leurs facultés d’adaptation, propres à la notion d’intelligence. Il s’agit donc non seulement de quantifier des fonctions et des performances mais aussi de valider et de caractériser des environnements de fonctionnement (des périmètres d’utilisation).
Compte tenu de la grande diversité des environnements à soumettre au système, le client ne dispose pas des moyens nécessaires à tous les essais requis pour répondre à ses besoins. Et il ne peut bien sûr pas s’en remettre au seul développeur, qui sera tenté de réduire son champ d’évaluation aux cas qui lui paraîtront les plus probants pour son produit. Le client désireux de s’en remettre à un tiers arbitre, peut trouver avantageux de s’adresser au LNE, qui présente plusieurs atouts distinctifs : il s’agit d’une agence publique, indépendante de tout intérêt particulier et dont la sincérité des avis est donc assurée, de même que la protection de la propriété intellectuelle des éléments qui lui sont confiés (procédés et données à tester) ; cette neutralité est renforcée par sa stricte spécialisation dans le métier de l’évaluation.
Le LNE fournit des critères quantitatifs objectifs pour accompagner ses clients dans le choix, en connaissance de cause, d’une technologie d’intelligence artificielle à acquérir parmi les offres existantes. Il apporte ainsi son expertise pour :
Après acquisition de la solution technologique, le LNE accompagne ses clients dans :
Le LNE, grâce à une mesure rigoureuse des avancées technologiques, permet aux agences de financement d’estimer l’impact des investissements consentis.
Le LNE, en tant qu’évaluateur tiers de confiance, exerce une assistance à la maitrise d’ouvrage auprès des organismes publics, en :
Les campagnes d’évaluation organisées par le LNE sont des projets pluriannuels qui consistent à proposer un cadre commun pour la mise en compétition d’équipes développant des approches concurrentes. Ces campagnes constituent un moyen d’organisation et de motivation essentiel, à l’entretien d’échanges entre différents participants, suscitant un effet d’entrainement important et permettant de lever des verrous scientifiques ou technologiques, d’améliorer les performances et d’accompagner la montée en TRL (Technology Readiness Level) des systèmes concernés.
L’évaluation de l’intelligence artificielle au bénéfice des acteurs économiques
Principaux points abordés :
Les données sont la clé de l’évaluation et du développement de l'IA. Le LNE est familiarisé à la constitution de banques de données vastes, de qualité, structurées et annotées. Elles peuvent être constituées à partir des données du client ou fournies par les partenaires du LNE, des experts métiers dans les différents domaines couverts par ses évaluations. Le LNE, veille au respect de leur confidentialité et de leur propriété.
Le LNE organise des évaluations de systèmes d’IA qui utilisent des données de différentes natures :
En fonction des besoins du client, le LNE est en mesure de réaliser à la fois des essais physiques dans des environnements réels mais contrôlés, des essais virtuels dans des environnements entièrement simulés et des essais mixtes couplant des stimulations réelles et simulées.
Les essais en environnements réels sont réalisés dans des salles anéchoïques et réverbérantes, des enceintes climatiques (température, humidité, pression), de brouillard salin ou d’ensoleillement, de manière à analyser l’influence des conditions environnementales sur les performances des systèmes intelligents. Le LNE est également en mesure de réaliser des essais de vibration, de choc et d’accélération constante pour évaluer le comportement des systèmes dans des conditions extrêmes, afin de déterminer précisément les conditions limites de fonctionnement.
Pour l’évaluation de systèmes autonomes se déplaçant dans des environnements ouverts et changeants, étant donné le nombre quasi infini de configurations auxquelles pourra être confronté le système, le LNE participe au développement d’environnements de test virtuels permettant une validation du système par simulation. Cette virtualisation de la caractérisation des systèmes intelligents permet de s’affranchir des coûts prohibitifs qui seraient engendrés par une réalisation de tous les essais dans des environnements réels.
De manière à réaliser ses moyens d’évaluation et à maintenir ses propres compétences, le LNE mène aussi des projets de recherche, bien contingentés et bien ciblés, seul ou dans le cadre de partenariats publics et privés, et assure le transfert de ses résultats le cas échéant. Les sujets de recherche du LNE portent généralement sur :
Le LNE participe également aux grands enjeux transverses de l’IA en développant des référentiels pour expliquer, garantir et certifier les systèmes intelligents et pour permettre l’élaboration de normes et de règlements. Le LNE participe notamment à la commission AFNOR sur l’intelligence artificielle, au Comité stratégique information et communication numérique d’AFNOR et à la section 81 de l’UNM portant sur la robotique industrielle.
Ces référentiels permettront aux industriels de connaître précisément les attendus réglementaire avant la mise sur le marché d’un système intelligent et de rassurer le consommateur vis-à-vis du produit, notamment par une approche éthique et responsable de l’intelligence artificielle.
Organisation de la campagne d’évaluation, mise en place d’une plateforme pérenne et ouverte à tous pour le partage de données et d’outils.
Le projet vise à créer un système de perception visuelle complet à inspiration neuromorphique. Le rôle du LNE sera d’évaluer et de démontrer la pertinence du circuit d’un point de vue performance, par comparaison avec des algorithmes classiques sur benchmarks internationaux ainsi que sur de nouvelles données créées dans le projet. De plus les qualités du circuit seront évaluées d’un point de vue utilisation d’énergie et latence de réponse.
Programme en partenariat avec 13 acteurs industriels et académiques, inscrit dans le Grand Défi et dont le but est d’accélérer l’industrialisation de l’IA, notamment en fournissant des outils et de smétodes pour la réalisation de systèmes d’IA de confiance.
Le projet ESPERANTO, financé par l’UE, vise à rendre la prochaine génération d’algorithmes d’IA utilisés dans les applications de traitement de la parole plus accessibles. Par exemple, ils devraient tenir compte de l’implication humaine et être déchiffrables pour autoriser les applications sensibles et préserver les données personnelles. ESPERANTO envisage de disséminer ces technologies dans les PME européennes, d’étendre et de garantir leur mise en œuvre à des fins de médecine légale, de santé et d’éducation.
Le projet ROBOTICS4EU vise à améliorer l’acceptabilité des robots dans quatre domaines identifiés par la Commission européenne (Priority Areas) : santé, inspection et maintenance des infrastructures, agriculture, production agile. Pour ces quatre domaines, l’objectif est de sensibiliser l’ensemble de la communauté robotique européenne en mettant en place des acons de transfert de connaissances, dans le cadre d’une stratégie de communication globale et concertée.
Dans le cadre d’un contrat financé par la Métropole Européenne de Lille (MEL), le LNE accompagne le déploiement de solutions d’IA susceptibles de répondre aux besoins métier identifiés. En s’appuyant sur différents cas d’usage, le LNE formalise la problématique métier et la façon dont une IA pourrait venir la résoudre. Les études de faisabilité menées dans ce contrat visent l’élaboration d’une méthode d’évaluation pour l’IA adaptée au contexte de l’administration, ainsi qu’un cahier des charges permettant à la MEL d’orienter la suite de leurs expérimentations pour l’IA.
Evaluation d'IA analogique, application aux radars pour la détection de signes vitaux.
Développement d’une méthode de qualification des outils de justice prévisionnelle.
En partenariat avec le LISN. Définition de protocoles d'évaluation des systèmes de dialogue évolutifs.
Ministère de l'intérieur. Développement d'audit/certification pour les radars routiers.
Le projet METRICS a pour mission d’organiser des challenges en robotique dans les quatre domaines suivants : santé, agroalimentaire, inspection & maintenance et production agile. Le LNE aura pour objectif de bâtir pour la première fois une structure pérenne rassemblant l’ensemble des compétences européennes pour apporter conjointement une solution satisfaisante à la question de l’évaluation des systèmes robotisés, condition impérative de leur acceptabilité.
Projet de recherche partenariale avec l’entreprise Craftai, fournisseur de solutions d’IA explicables (modèles capables de fournir et d’expliquer ses décisions à l’utilisateur). La question de recherche explorée est : « Un outil d’IA explicable peut-il fournir des informations pertinentes pour améliorer les protocoles d’évaluation de l’IA ? ». Le projet a donné lieu à la création d’une méthode expérimentale permettant de renforcer l’expertise de l’évaluateur, par la réalisation d’observations ciblées dans le cadre de son évaluation.
Projet sur l'explicabilité de l'IA
Analyse de la réglementation et des pratiques de recherche et industrielles pour une gouvernance européenne des plateformes en ligne.
IRT SystemX. Simulation pour la sécurisation du véhicule autonome.
Financement en cascade du H2020 COVR. Méthode d’essai pour un capteur de sécurité intégrant de l’intelligence artificielle ; partenariat Arcure.
Financement en cascade du H2020 COVR. Méthode d’essai pour la distance d’arrêt d’un bras robotisé industriel intelligent ; partenariat AkeoPlus.
Analyse des enjeux et des attentes du secteur agricole, et méthode pour la rationalisation des risques de sécurité liés à la robotisation.
Pour l’évaluation comparée d’assistants vocaux (Google, Alexa…).
Le projet OPEROSE s’inscrit dans le cadre du plan Ecophyto II soutenu par le ministère de l’agriculture et de l’alimentation et le ministère de la transition écologique et solidaire. Porté par le LNE et Irstea, il vise à organiser les campagnes d’évaluation du Challenge ROSE, permettant de mesurer les performances et la maturité technologique de solutions robotisées assurant un désherbage automatique des cultures. L’ensemble de la chaîne de traitement est prise en compte lors de l’évaluation, de la détection des adventices et des plantes d’intérêt à l’action effective désherbage. Les environnements de test sont constitués à la fois de base de données et de parcelles agricoles réelles.
Ce projet européen a pour enjeu d’améliorer les méthodologies d’évaluation des robots compagnons. En complément de ses recherches sur la fiabilité des systèmes décisionnels, le Laboratoire a effectué des essais en environnement (température, hygrométrie, vibrations, etc.) afin de mesurer les impacts de l’environnement sur les performances des robots.
Le projet concerne la comparaison de voix dans le domaine criminalistique, en lien avec des enjeux de sécurité nationale ou d’expertise judiciaire. L’objectif du projet est de développer une méthodologie d’accréditation et d’établir des standards de mesure objective qui faciliteront les traitements de comparaison de voix dans les services de police et renforceront la recevabilité de la preuve auprès des tribunaux.
Le projet ALLIES, financé par l’ANR, vise à développer des métriques et protocoles pour l’évaluation de systèmes de translation et de diarisation capables d’auto-apprendre et de s’auto-évaluer. Certaines métriques développées dans le cadre de ce projet permettront à ces systèmes intelligents de mesurer leur propre progression et amélioration des performances. D’autres métriques permettront de comparer les différents algorithmes existants et de déterminer les approches les plus prometteuses. Le projet a également pour objectif de développer une plateforme européenne dédiée au développement et à l’évaluation de ces systèmes, dans une démarche de recherche reproductible. Les données et protocoles d’évaluation seront ainsi rendu publics.
Le projet SVA, dans le cadre de la nouvelle France industrielle (secteur mobilité écologique), a pour principaux objectifs de développer des outils permettant de qualifier les performances et la sécurité des véhicules autonomes grâce à des essais virtuels. Le LNE travaille notamment sur les méthodes de caractérisation de capteurs embarqués et évalue les algorithmes de prise de décision de conduite en fonction des informations recueillies.
Ce projet porté par l’IRT SystemX concernait le domaine du traitement de l’information multimédia et a permis de développer une plateforme capable de synthétiser l’information issue de données vidéo et textuelles. Dans ce cadre, le LNE a organisé des évaluations selon trois protocoles différents (évaluation sur corpus a priori, sur corpus a posteriori et sur test d’usage) qui permettaient aux développeurs des sept entreprises du projet de mettre en évidence les points forts et les points d’amélioration des systèmes de la plateforme.
Ce projet, financé par l'ANR, concernait le domaine de la comparaison de voix et consistait à exprimer la vraisemblance que deux enregistrements vocaux aient été prononcés par la même personne. Le LNE a organisé en fin de projet une campagne d’évaluation internationale de système réalisant cette tâche non triviale.
Le projet VERA, financé par l'ANR, visait à développer une méthodologie et des outils génériques pour permettre la localisation et le diagnostic précis des erreurs des systèmes de reconnaissance de la parole automatique (ASR) en vue d’améliorer les performances de ces derniers.
Le DEFI-REPERE était une campagne d’évaluation dans le domaine de la reconnaissance de personnes dans des émissions audiovisuelles, financée par la DGA et l’ANR. Les systèmes de reconnaissance évalués utilisaient des informations multimédia telles que :
La performance de ces systèmes était évaluée par le LNE au moyen de campagnes d'évaluation. Les corpus de test employé par le LNE pour l’évaluation contiennent des émissions audiovisuelles, des journaux, des débats et des émissions de divertissement en langue française.
Challenge sur la traduction arabe-francais.
Challenge sur la reconnaissance automatique de caractères (OCR) de documents administratifs et assimilés.
Challenge ASR.
Expertise sur le choix des métriques et évaluation de composants dans une plate-forme d'intégration de traitement de données.
Quaero était un programme fédérateur de recherche et d'innovation industrielle sur les technologies d'analyse automatique, de classification et d'utilisation de documents multimédias et multilingues, financé par Bpifrance (anciennement Oséo). Il regroupait 32 partenaires français et allemands qui collaboraient pour développer des systèmes de traitement automatique de l’information contenue dans des documents multimédias (langage parlé, images, vidéo et musique). Dans ce cadre le LNE organisait des campagnes d’évaluation pour :