Comment construire une évaluation d’intelligence artificielle

Lettre d'information - Juillet 2018

L’évaluation des dispositifs médicaux intelligents doit être fonctionnelle et quantitative, et pour cela s’appuyer sur un protocole d’évaluation associant des expérimentations reproductibles et des mesures répétables des performances.

Protocoles d’évaluation et métriques

Bras robotL’évaluation des dispositifs médicaux intelligents doit être fonctionnelle et quantitative. Elle doit s’appuyer sur un protocole d’évaluation associant des expérimentations reproductibles (résultats homogènes lors d’expériences réalisées dans des conditions différentes) et des mesures répétables (résultats homogènes lors d’évaluations répétitives dans des conditions similaires) des performances. Pour ce faire, il faut partir de cas d’usage qui traduisent l’utilisation qui sera faite du système, et les décomposer en tâches sur lesquelles ce dernier sera évalué. La variabilité intrinsèque des conditions réelles d’opération du système doit être retranscrite sous forme de scénarios de test.

En termes quantitatifs, pour apprécier le niveau de performance d’un système lors de la réalisation d’une tâche, il faut développer des métriques qui peuvent être de différentes natures :

  • binaire en matière de réussite ou non d’une épreuve (ex : franchissement d’un obstacle)
  • des taux d’erreur (ex : nombre d’éléments mal reconnus dans une radiographie par un système d’aide au diagnostic),
  • des « notes », dont la forme dépend de l’application, pour caractériser le domaine environnemental de fonctionnement (périmètre) et le comportement en différents points de ce domaine (robustesse, sensibilité).

Données de test

Les données sont la clé de l’évaluation et du développement de l'intelligence artificielle. Le LNE est familiarisé à la constitution de banques de données vastes, de qualité, structurées et annotées. Elles peuvent être constituées à partir des données du client ou fournies par les partenaires du LNE, des experts métiers dans les différents domaines couverts par ses évaluations. Le LNE, veille au respect de leur confidentialité et de leur propriété.

Le LNE organise des évaluations de systèmes d’intelligence artificielle qui utilisent des données de différentes natures :

  • La vidéo et l'image : reconnaissance de formes à partir d’images médicales, détection de tête, suivi de patients, etc.
  • Des données structurées issues des mesures de capteurs.
  • Le texte : classification, structuration et résumé de documents, reconnaissance d'entités nommées, systèmes de question-réponse, etc.
  • La parole : reconnaissance automatique de la parole, identification de la langue et du locuteur, détection de termes parlés, traduction, etc.

Environnements de test

L’évaluation des dispositifs médicaux intelligents doit être réalisée dans des environnements réels ou représentatifs. En fonction des besoins du client, le LNE est en mesure de réaliser à la fois des essais physiques dans des environnements réels mais contrôlés, des essais virtuels dans des environnements entièrement simulés et des essais mixtes couplant des stimulations réelles et simulées.

Afin  d’analyser l’influence des conditions environnementales sur les performances des dispositifs médicaux intelligents, le LNE dispose d’un ensemble complet de moyens techniques tels que des salles anéchoïques et réverbérantes, des enceintes climatiques (température, humidité, pression) et d’ensoleillement. Le LNE  est également en mesure de réaliser des essais de vibration, de choc et d’accélération constante pour évaluer le comportement des systèmes dans des conditions extrêmes, afin de déterminer précisément les conditions limites de fonctionnement.

Par ailleurs, le LNE participe au développement d’environnements de test virtuels permettant une validation du système par simulation. Cette virtualisation de la caractérisation des systèmes intelligents permet de trouver une alternative aux essais en environnement réel dont la mise en œuvre peut s’avérer dans certains cas techniquement délicat et couteux.

L’ensemble des scénarios à prendre en compte intègre les cas où des défaillances mécaniques ou logiciels se superposent aux performances fonctionnelles des dispositifs médicaux intelligents et où des incertitudes sur le processus de perception se superposent aux indéterminations de l’algorithme de décision. L’évaluation, qui doit ainsi porter sur le dispositif médical dans son ensemble et sur ses algorithmes critiques de prise de décision, est tenue d’être modulaire et de se faire dans un environnement qui simule non seulement le milieu extérieur au système auquel il participe mais aussi les interfaces en amont et en aval de la chaîne fonctionnelle de ce système.

Il est également important de s’appuyer sur des bancs d’essai fortement paramétrables pour borner le domaine de fonctionnement du dispositif médical à l’environnement particulier auquel le client entend réserver son produit (ex : détection d’un type d’élément spécifique sur une radiographie, comme des fractures osseuses ou des tumeurs, par des systèmes informatisés d’aide au diagnostic en imagerie médicale).

Contact

Pour toute question supplémentaire, contactez-nous via notre formulaire

S'abonner

Restez informé sur le marché, l'offre LNE et bénéficiez d'avis d'experts reconnus : 

>>Abonnez-vous

×
En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies conformément à notre politique de données personnelles. En savoir plus.