RelIAble

Titre du projet

Exploitation de l’information linguistique et sémantique pour l’extraction de relations à partir de textes en domaine spécialisé

Nom de l'appel d'offre

Labex DigiCosme

Coordinateur.trice

Claire Nédellec

Participants de MaIAGE

Anfu Tang, Louise Deléger, Robert Bossy, Claire Nédellec

Partenaires (hors MaIAGE)

LIMSI/LISN (Univ. Paris-Saclay)

Année de démarrage - Année de fin de projet

2021-2024

Date de fin du projet

ven 01/10/2021 - 12:00

Résumé

Il a pour objet l'extraction d'informations relationnelles à partir de documents scientifiques biomédicaux, c'est-à-dire la transformation de texte non structuré en information structurée exploitable par une machine. En tant que tâche dans le domaine du traitement automatique des langues (TAL), l'extraction de relations sémantiques spécialisées entre entités textuelles rend explicite et formalise les structures sous-jacentes. Les méthodes actuelles à l'état de l'art s'appuient sur de l'apprentissage supervisé, plus spécifiquement l’ajustement de modèles de langue pré-entraînés comme BERT. L'apprentissage supervisé a besoin de beaucoup d'exemples d'apprentissages qui sont coûteux à produire, d'autant plus dans les domaines spécialisés comme le domaine biomédical. Les variants de BERT, comme par exemple PubMedBERT, ont obtenu du succès sur les tâches de TAL dans des textes biomédicaux. Nous faisons l'hypothèse que l’injection d’informations externes telles que l’information syntaxique ou la connaissance factuelle dans ces variants de BERT peut pallier le nombre réduit de données d'entraînement annotées. Dans ce but, cette thèse concevra plusieurs architectures neuronales basés sur PubMedBERT qui exploitent des informations linguistiques obtenues par analyse syntaxique ou des connaissances du domaine issues de bases de connaissance.

Année de soumission

2021

Mathématiques et Informatique Appliquéesdu Génome à l'Environnement

Mathématiques et Informatique Appliquées
du Génome à l'Environnement