用户工具

站点工具


20191120-p39-lingua

Les machines maîtrisent la lingua franca

D. L.

Numérique Des spécialistes de l’IA ont créé CamemBERT, un modèle contextuel de langue

Les informaticiens français ont de l’humour. Certains d’entre eux, à l’Inria, viennent de baptiser CamemBERT leur dernière création en intelligence artificielle (IA). Cette pièce « goûteuse », comme ils l’ont eux-mêmes qualifiée dans leur article mis en ligne le 10 novembre, est un maillon essentiel pour que des machines écrivent correctement et en donnant l’impression qu’elles comprennent ce qu’elles font. Cet algorithme appartient à la catégorie des « modèles contextuels de langue », capables de maîtriser grammaire, syntaxe ou vocabulaire. De quoi alimenter ensuite les applications de traduction, de simplification de texte, de synthèse de grands corpus, d’analyse sémantique, de recommandation, de réponses sensées à des questions… Google utilise de tels modèles pour mieux répondre aux requêtes adressées à son moteur de recherche. Facebook pour repérer les messages haineux.

Depuis deux ans, c’est la course aux meilleurs modèles. Ont ainsi été annoncés successivement ELMo, BERT, RoBERTa, GPT-2 par, respectivement, l’Institut Allen, Google, Facebook, OpenAI. Cette dernière entreprise avait même dit en février qu’elle ne rendait pas publique son outil de génération de textes afin de ne pas libérer le diable des fausses informations. Avant de s’y résoudre, le 5 novembre, pour permettre « de détecter des mésusages » de sa technologie, dont les résultats n’étaient néanmoins pas toujours concluants.

CamemBERT, dont la dernière syllabe fait référence à BERT, dont il s’inspire, ne se risque pas à écrire des textes à partir de « graines » données au départ. Il repère dans les textes, seulement en français, les noms propres et leur type, en distinguant par exemple la ville d’Orange de l’entreprise. Il comprend aussi quel mot est un verbe, un adjectif ou un nom. « Avec plus de 99 % de réussite. Si bien que j’ai demandé une double vérification !, s’enthousiasme Benoît Sagot, de l’équipe ALMAnaCH à l’Inria, qui a mis en ligne gratuitement ce programme. Notre algorithme améliore l’état de l’art sur quatre tâches de façon significative. »

110 millions de paramètres

Le secret repose sur l’apprentissage automatique : on lui a fait ingurgiter plus de 130 Go de textes en français, extraits dans des données mises à disposition par l’association Common Crawl, qui collecte en permanence des pages du Web. Plus précisément, les chercheurs donnent des textes à trous au système, qui ajuste ses 110 millions de paramètres pour apprendre à deviner le mot manquant. Le tout a mobilisé 256 cartes graphiques pendant deux jours. A la fin de l’apprentissage, chaque mot est représenté par une suite unique de 768 nombres, appelés vecteurs. Contrairement aux méthodes employées avant ELMo, les vecteurs d’un même mot sont différents d’une phrase et d’un document à l’autre ; d’où le qualificatif de « contextuel ». Ces vecteurs permettent ensuite de réaliser diverses tâches d’analyse. Tout se passe comme si le système avait appris la grammaire ou la syntaxe, sans jamais avoir lu aucune règle.

En même temps que CamemBERT, Facebook, qui en est par ailleurs partenaire en tant que coencadrant d’une thèse et comme fournisseur de la puissance de calcul, a mis en ligne un autre modèle, XLM-R, qui, à partir d’un corpus plus gros, bat aussi des records mais pour plusieurs langues. Cependant le camembert français reste, en termes de calcul, plus léger.

20191120-p39-lingua.txt · 最后更改: 2019/11/19 12:21 由 80.15.59.65