Direction des Essais
Réf : PA/THE/LANG
Contexte :
Les systèmes de traitement automatique du langage (TAL) ont progressé très rapidement ces dernières années. L'évaluation des systèmes TAL est essentielle à leur développement. Pour réaliser les évaluations, le LNE utilise des Kits d’évaluations. Ces Kits sont constitués d’un corpus et de métriques qui mesurent la distance existante entre une référence (corpus) et une hypothèse système. La métrique est utilisée depuis de très nombreuses années et a permis d'avoir une idée relativement précise de la qualité des systèmes. Cependant les progrès, dus aux nouvelles approches utilisées par les systèmes récents, sont mal valorisés par la métrique actuelle.
La thèse concerne l’amélioration de la méthode d’évaluation des systèmes de traitement automatique du langage (TAL). Son objectif est de proposer une nouvelle métrique proche du jugement humain pour l’évaluation des systèmes de traitement automatique de la parole et des langues (traduction automatique). Afin de palier aux insuffisances de la métrique actuelle, le contexte mais également l’importance du mot qui a pu être substitué, inséré ou supprimé devront être pris en compte dans le calcul de la distance, entre une référence et une hypothèse. La nouvelle méthode d’évaluation sera définie dans un premier temps pour les systèmes de transcription automatique de la parole, car l’évaluation de ces derniers est bien définie et dispose déjà de protocoles reconnus. Cela permettra d’avoir une comparaison précise des méthodes. L'apport sera validé en profitant des différentes campagnes d’évaluation (QUAERO, Etape et QAST) menées par le LNE. La métrique sera à implémenter dans la plate-forme d’évaluation. La dernière étape consistera à trouver des applications pour l’évaluation des systèmes de traduction automatique.
Missions :
L'étude portera dans un premier temps sur les systèmes de transcription automatique de la parole. Le doctorant fera l'état des connaissances en faisant une étude bibliographique et en s'initiant aux différentes technologies de transcription en collaboration avec les chercheurs du LIMSI. Enfin il utilisera les kits d'évaluations et des sorties de système fournis par le LNE.
Il devra ensuite faire une analyse linguistique du problème. Elle devra aboutir à la définition d'une nouvelle méthode.
La troisième étape sera la conception et l'implémentation de la nouvelle métrique. La métrique sera validée dans le cadre de campagnes d'évaluation menées par le LNE. Une fois corrigée, cette métrique sera adaptée aux systèmes de traduction automatique avec une nouvelle étape de validation.
Profil :
Titulaire d’un Master en Traitement automatique du langage, vous disposez de capacités rédactionnelles et savez faire preuve d’autonomie et de rigueur.
Durée : 3 ans.
Lieu : Trappes (78)