Épaulés par le CHU de Nantes et l’entreprise Zenidoc, des chercheurs développent le premier modèle ouvert de traitement automatique des langues dédié au domaine biomédical et clinique français. Baptisé DrBERT, il servira par exemple à la structuration automatique et à la traduction de documents médicaux.

Obtenez les documents officiels de TIPDOC en 2 minutes

SASPLAN-DE-CUQUESCréée en 2013Commerce de gros (commerce interentreprises) d'ordinateurs, d'équipements informatiques périphériques et de logiciels

KBIS, bilans, diagnostics... Plus de 500 000 documents téléchargés par nos clients chaque mois.

Voir les documents disponibles

Un modèle pré-entraîné grâce au supercalculateur Jean Zay

Des scientifiques du laboratoire informatique d’Avignon (LIA) et du laboratoire des sciences du numérique de Nantes (LS2N) collaborent avec le Centre hospitalier universitaire de Nantes et la société Zenidoc, éditrice de logiciels à destination des établissements de santé. Ensemble, ils développent DrBERT, un modèle de langue ouvert dédié au domaine biomédical et clinique français. Ce modèle se base sur les travaux de thèse de Yanis Labrak, doctorant à Avignon Université, membre du LIA et alternant chez Zenidoc, et d’Adrien Bazoge, doctorant à Nantes Université et membre du LS2N. Il a d’abord été entraîné à apprendre le français médical sur “le plus grand corpus de données médicales sous licence libre” grâce au supercalculateur Jean Zay, opéré par l’Institut du Développement et des Ressources en Informatique Scientifique (IDRIS – CNRS). Ce corpus est composé du corpus biomédical open source NACHOS et de 1,7 million de comptes-rendus désidentifiés du CHU de Nantes. Il respecte le RGPD et ne permet aucune fuite d’informations personnelles.

Aider à la structuration, à la traduction et au classement des documents médicaux

Les scientifiques et Zenidoc ont décidé de mettre DrBERT à disposition du public, accompagné d’une partie du corpus sur lequel il a été entraîné. Cette publication en open source va "faciliter l’adoption de ce type d’outils par les professionnels de santé et la reproduction de nos recherches par la communauté", a expliqué Richard Dufour, professeur en informatique à Nantes Université, dans une publication datant du 8 septembre 2023. DrBERT pourra être adapté “au traitement de tâches qui les intéressent pour un coût de calcul largement inférieur au pré-entraînement complet du modèle”, a-t-il précisé. Plus concrètement, ce modèle pourra servir à la structuration automatique de documents à l’aide de la catégorisation de mots, à la traduction de documents médicaux ou encore au classement de documents par spécialité médicale.

Obtenez les documents officiels de TIPDOC en 2 minutes

SASPLAN-DE-CUQUESCréée en 2013Commerce de gros (commerce interentreprises) d'ordinateurs, d'équipements informatiques périphériques et de logiciels

KBIS, bilans, diagnostics... Plus de 500 000 documents téléchargés par nos clients chaque mois.

Voir les documents disponibles

Un modèle de langue prometteur mais encore perfectible

Pour le moment, DrBERT n’est pas encore performant sur toutes ses applications potentielles. C’est pourquoi les membres du LIA, du LS2N et de Zenidoc développent “un jeu de données de référence pour une vingtaine de tâches qui permettront de mieux évaluer les capacités des modèles produits par la recherche et ainsi de comparer de façon plus large leurs performances”, a relevé Richard Dufour. Dans la continuité de ces travaux, le scientifique pilotera à partir d’octobre 2023 le projet MALADES, financé par l’Agence nationale de la recherche (ANR). Il servira à mettre au point un modèle génératif de langue fiable, dynamique et adaptable, destiné aux acteurs de la santé “dans un contexte de ressources contraintes”.

DrBERT : des scientifiques et Zenidoc créent le premier modèle de langue ouvert dédié au secteur biomédical français

Obtenez les documents officiels de TIPDOC en 2 minutes

Un modèle pré-entraîné grâce au supercalculateur Jean Zay

Aider à la structuration, à la traduction et au classement des documents médicaux

Obtenez les documents officiels de TIPDOC en 2 minutes

Un modèle de langue prometteur mais encore perfectible

Abivax conclut deux financements pour un montant de 150 millions d’euros

FunCell annonce une levée de fonds de 4,8 millions d’euros pour remplacer les emballages à usage unique pétrosourcés

BioMAdvanced Diagnostics lève 1,4 M€ pour éviter les rejets de greffes

Aviwell lève 9 millions d’euros pour développer des solutions durables et naturelles pour l’élevage

La Biotech Exeliom Biosciences finalise une levée de fonds de 24M€

Astraveus lève 16,5 millions d'euros pour accélérer ses avancées scientifiques