Avant-propos

Les publications scientifiques étant exclusivement en anglais, je fais en sorte de laisser les mots clés en anglais et de donner des explications en français (je ne sais même pas si certains mots ont une traduction en français). Le but étant que vous puissiez après lire de vous-même n’importe quelle publication ou article de vulgarisation en anglais sur le sujet et les comprendre.
Le domaine du NLP évoluant actuellement très rapidement il m’est impossible de présenter tous les nouveaux modèles par manque de temps. D’où là encore la nécessité que vous alliez consulter certaines sources anglophones par vous-même.
Un élément qui me semble important pour pouvoir comprendre n’importe quelle publication est de connaître les tâches qui servent à comparer les performances des différents modèles ainsi que les jeux de données test en lien avec ces tâches.
La présentation des jeux de données anglophones se base sur l’article de Lilian Weng (travaillant chez OpenAI). Merci à elle de m’avoir autorisé à effectuer cette traduction.
Celle des jeux de données francophones se base sur la publication de l’équipe ayant développé le modèle CamemBERT, sur la publication de l’équipe ayant développé le modèle FlauBERT, sur la publication de l’équipe ayant développé FQuAD et mes propres recherches.


La librairie Dataset

En 2020, l’entreprise Hugging Face a dévoilé sa librairie Dataset (anciennement nlp).

Grâce à celle-ci vous pouvez charger en une ligne de code l’un des 900 jeux de données (français et autres langues) actuellement disponible sur la librairie (chiffre datant de mai 2021). Vous trouverez sur cette librairie, la plupart des jeux de données présentés dans les paragraphes qui suivent. Pour connaître les jeux de données disponibles, vous pouvez consulter leur application Streamlit, et pour un tutoriel d’utilisation, vous pouvez consulter le Collab suivant.

Question-Answering (Questions/Réponses)

Le modèle doit répondre à une série de questions en lien avec un jeu de données test. Certaines questions peuvent ne pas avoir de réponses. Exemple :

Exemple de questions provenant de la base de données SquAD. Cet exemple est en lien avec les Normands mais de nombreux autres thèmes sont disponibles. De plus, seul le premier paragraphe est montré ici. Le texte intégral en comprend 38 autres.

Les jeux de données anglophones communs :

  • SQuAD (Stanford Question Answering Dataset) de Rajpurkar et al. pour la version 1 et Rajpurkar et al. pour la version 2. Il s’agit d’un jeu de données sur la compréhension de la lecture, composé de questions posées sur un ensemble d’articles de Wikipédia, où la réponse à chaque question est un intervalle de texte.
  • RACE (ReAding Comprehension from Examinations) de Lai, Xie et al.. Il s’agit d’un jeu de données sur la compréhension de la lecture comprenant plus de 28 000 passages et près de 100 000 questions. Le dataset provient d’examens d’anglais en Chine, qui sont conçus pour les élèves du collège et du lycée.

Pour le français :

  • FQuAD de l’entreprise Illuin Technology (plus particulièrement Hoffschmidt et al.) qui se base sur la méthodologie de SQUAD 1.0. Elle contient plus de 25.000 questions/réponses basées sur des articles de qualité de Wikipédia. Pour plus d’informations concernant la répartition des types de questions (qui ? quoi ? où ? quand ?, etc…), la répartion des entités (noms communs, personnes, lieu, etc…) et les résultats des premiers benchmarks basés sur CamemBERT et FlauBERT, je vous invite à lire la publication de l’équipe d’Illuin Technology.
  • le projet PIAF (Pour une IA Francophone) porté par Etalab et plus particulièrement Keraron et al.. Les données de PIAF sont accessibles librement ici.

A l’exception de FQUADv2 de Heinrich et al, les jeux de données en français se basent sur la méthodologie de SQUAD 1.0. Ainsi la base de données a été conçue de telle sorte qu’à chaque question posée, la réponse est trouvable dans le texte. SQUAD 2.0 introduit des questions dont la réponse ne se trouve pas dans le texte. Cela permet au modèle d’apprendre également la possibilité : « la réponse n’est pas dans le texte » ou bien « je ne sais pas » au lieu de vouloir coute que coute répondre quelque chose.

  • Mkqa est un jeu de données multilingues avec une partie en français. Il est proposé par Longpre et al.

Jeu de données de questions/anwsering où la réponse peut être à choix multiples :

  • Base à cheval entre les questions/réponses et le raisonnement : disaster_response_messages. Dans cette base multilingue ayant une partie en français, un texte est fourni avec des questions associées. Les réponses à ces questions étant exclusivement « oui » ou « non ».
  • La base Exams de Hardalov et al. est une base multilingue ayant une partie en français, un texte est fourni avec des questions associées. Cinq réponses sont proposées à ces questions. Les textes étant des QCM pour des lycéens.


Commonsense Reasoning (Raisonnement)

Parmi un choix de propositions (souvent entre 2 et 4), le modèle doit choisir laquelle est la plus vraisemblable étant donné le texte fournit en entrée. Exemple :

Texte Proposition 1 (la plus vraisemblable) Proposition 2
Gina a égaré son téléphone chez ses grands-parents. Il n’était nulle part dans le salon. Elle a réalisé qu’elle était dans la voiture avant. Elle a pris les clés de son père et est sortie en courant. Elle a trouvé son téléphone dans la voiture. Elle ne voulait plus son téléphone.


Les jeux de données anglophones communs :

  • Story Cloze Test de Mostafazadeh et al. : sert à évaluer le raisonnement au niveau de la compréhension et la génération des histoires. Le test exige qu’à partir de deux options, un système choisisse la fin correcte à des histoires développées sur plusieurs phrases.
  • SWAG (Situations With Adversarial Generations) de Zellers et al. : choix multiples ; contient 113 000 exemples de paires de phrases qui évaluent les inférences fondées sur le bon sens.

Pour le français :

  • Possibilité d’utiliser la partie en français de la base multilingues Conceptnet5 de Speers et al. (fait peu commun, la base en français est plus grande que l’anglaise).


Natural Language Inference (NLI)

Peut être également rencontré dans la littérature sous le nom de Text Entailment. Il s’agit d’un exercice pour discerner en logique si une phrase peut être déduite d’une autre.
Les jeux de données anglophones communs :

  • RTE (Recognizing Textual Entailment) : un ensemble de jeux de données initiés par des défis de Text Entailment.
  • SNLI (Stanford Natural Language Inference) de Young et al. : une collection de 570 000 de phrases en anglais écrites par l’homme à la main. Elles sont étiquetées à la main pour une classification équilibrée des labels entailment, contradiction, et neutral.
  • MNLI (Multi-Genre NLI) de Williams et al. : semblable à SNLI, mais avec une plus grande variété de styles de texte et de sujets, recueillis à partir de transcriptions de discours, de fictions populaires et de rapports gouvernementaux.
  • QNLI (Question NLI) : convertion de SQuAD en une tâche de classification binaire des paires de la forme (question, phrase).
  • SciTail de Khot et al : un jeu de données créé à partir d’examens scientifiques à choix multiples et de phrases sur le Web.

Pour le français :

  • vous pouvez utiliser la partie francophone du jeu de données XNLI (même auteurs que SNLI),
  • ou bien, utiliser FLUE (French Language Understand-ing Evaluation). FLUE est l’équivalent francophone de GLUE (cf. Benchmark multi-tâches de l’article). Il a été crée par Le et al. les auteurs de FlauBERT. En pratique, la partie NLI de FLUE est la partie francophone du jeu de données XNLI évoqué au point précédent. Utiliser l’un ou l’autre revient donc au même. L’intérêt de FLUE est qu’il regroupe plusieurs tâches.


Named Entity Recognition (NER) (Reconnaissance d’entités nommées)

Etiquette les séquences de mots d’un texte qui sont des noms de choses (personnes, sociétés, gènes, protéines, etc.).
Les jeux de données anglophones communs :

  • CoNLL 2003 NER task : consiste en un flux d’informations émanant de Reuters, se concentrant sur quatre types d’entités nommées : les personnes, les lieux, les organisations et les noms d’entités diverses.
  • OntoNotes 5.0 de Weischedel et al. : ce corpus contient des textes en anglais, arabe et chinois, avec quatre types d’entités différents (personne, lieux, organisation, noms d’entités diverses).
  • Reuters Corpus de Lewis et al. : une grande collection d’articles de Reuters.

Pour le français :

  • le FTB (French Treebank) crée par les équipes de l’Université Paris-Diderot (laboratoire LLF et notamment Abeillé et al) contenant plus de 21 550 phrases provenant d’articles du journal Le Monde publiés entre 1989 et 1995. L’accès à cette base de données est cependant restreint. Pour y avoir accès, il faut en effectuer la demande.
  • la partie en français de la base Wikiner disponible ici de Nothman et al..
  • Wikiann de Rahimi et al. basé sur Pan, Xiaoman, et al. qui permet de faire du transfert de NER entre plusieurs langues.


Sentiment Analysis (Analyse de sentiments)

Le modèle doit classer correctement un texte (positif, négatif, etc…).
Les jeux de données anglophones communs :

  • SST (Stanford Sentiment Treebank) de Socher et al. : contient 215 154 phrases labellisées basées sur 11 855 phrases de critiques de films.
  • IMDb de Maas et al. : un grand jeu de données de critiques de films avec des étiquettes binaires de classification des sentiments.

Pour le français :

  • FLUE met à disposition le jeu de données CLS-FR. Celui-ci est composé d’avis d’utilisateurs de trois types de produits proposés sur Amazon : livres, musiques et DVD (4000 avis pour chacun des types de produits). Il permet de faire de la classification multi-classes.
  • dans la même logique que le point précédent, le corpus The Multilingual Amazon Reviews Corpus de Keung et al. propose des avis de client issue d’Amazon. Cependant ce corpus multilingue propose beaucoup plus d’avis pour le français (environ 200 000) et sur des données plus récentes que celles de FLUE.
  • Google propose une base multilingue binaire intégrant du français (il faut dire si une phrase est négative ou positive) : Senti_lex
  • WiLI_2018 de Martin Thoma propose 1000 phrases à classer pour les 235 langues proposées.
  • Aspect-Based Sentiment Analysis in French de Apidianaki et al. contient 457 avis de restaurants (2365 phrases) et 162 de musées (655 phrases).
  • Un jeu de données binaire scrapé sur AlloCiné par Blard propose plus de 200.000 critiques de films à classer en « positive » ou « négative ».


Semantic Role Labeling (SRL)

Modélise la structure prévisible d’un argument d’une phrase. Peut être vu comme une réponse à la question « Qui a fait quoi à qui ».
En anglais :

En français :
Pas d’équivalent en français à l’heure actuelle à ma connaissance.


Sentence similarity

Cette tâche consiste à déterminer dans quelle mesure deux textes sont similaires. Cela peut se faire en attribuant une note de 1 à 5. Les tâches connexes sont la paraphrase ou l’identification des doublons.
En anglais :

Pour le français :

  • FLUE met à disposition la partie en français de PAWS-X de Zhang et al., soit environ 49 000 données d’apprentissage et 2 000 de test.
  • TaPaCo de Scherrer est une base de paraphrases portant sur 73 langues incluant une partie en français.
  • La base de données REFreSD de Briakou et Carpuat est de la sentence similarity mais entre deux langues : l’anglais et le français. Une phrase est donnée en anglais puis une autre en français. Le modèle doit dire si la phrase en français est liée à l’anglais ou pas.


Sentence Acceptability

Annotation des phrases pour qu’elles soient grammaticalement acceptables. Les jeux de données anglophones communs :

En anglais :

  • CoLA (Corpus of Linguistic Acceptability) de Warstadt et al. : classification binaire de phrases.

En français : Pas d’équivalent en français à l’heure actuelle à ma connaissance


Part-of-Speech (POS) Tagging

Consiste à attribuer à chaque mot sa catégorie grammaticale correspondante. L’analyse des dépendances consiste à prédire l’arbre syntaxique capturant les relations syntaxiques entre les mots.
En anglais :

En français :
Huit banques d’arbres sont disponibles gratuitement dans UD v2.2 :

  • GSD (données provenant de blogs, d’articles de presse, de critiques et de Wikipedia) de De Marneffe et al.,
  • Sequoia de Candito et al. (contient plus de 3000 phrases provenant du journal régional L’Est Républicain, Wikipédia et des documents de l’agence européenne de la médecine),
  • Spoken de Lacheret et al.,
  • ParTUT (conversion de données multilingues émanant de l’Université de Turin) de Bosco et Sanguinetti.


La simplification de textes

Les modèles de simplification de texte permettent de conserver le sens de la phrase mais avec une syntaxe différente et souvent plus courte. Deux approches sont envisageables. La première où le texte original est paraphrasé. La deuxième consiste à faire un résumé du texte original.

Simplification par paraphrase

En anglais :

En français :

  • Le jeu de données ALECTOR de Gala et al. contient des extraits de sites proposant du matériel pédagogique pour les niveaux CE1, CE2 et CM1 de l’école primaire. Chaque texte original a été adapté (simplifié) au niveau du lexique (vocabulaire), de la morpho-syntaxe (catégories grammaticales, structures de phrase) et du discours (co-référence).
  • MUSS de Martin et al. porte sur un outil permettant une simplification de phrases multilingues.

Simplification par résumé

Dans cette approche, nous avons le texte original en entrée et un résumé de ce texte en sortie.

En anglais :

En français :

  • Orange_sum de Eddine et al. introduite avec leur modèle BARThez, consistant en des résumés d’articles du site orange news.
  • la partie en français de la base de données multilingues MLSUM de Scialom et al..
  • WikiLingua de Ladhak et al. propose une base multilingue contenant une partie en français consistant à faire des résumés d’articles de WikiHow.
  • Cette base des résumés d’articles de journaux français


Machine Translation (Traduction automatique)

Tâche qui consiste à traduire une phrase dans une langue donnée dans une autre langue.

Le site Manythings contient plus de 80 paires de langues de la forme anglais/seconde_langue. Le couple Anglais/Français contient pour plus de 175 623 paires de phrases.
Il existe d’autres corpus Anglais/Français. On peut par exemple citer : le WMT14, le WMT20, les données de Pytorch ou encore celles de ParaPat de Soares et al.

Pour des corpus français/Seconde_langue avec Seconde_langue différente de l’Anglais, il y a énormément (+ de 50) de jeux de données européens disponibles à l’adresse suivante : http://opus.nlpl.eu/index.php. On accède aux différents jeux de données en cliquant sur les liens tout en haut de la page. Quelques exemples de textes trouvables :

  • Ecb : textes traduits en plusieurs langues de rapports de la banque centrale européenne
  • Emea : textes traduits en plusieurs langues de rapports de l’agence européenne du médicament
  • Euronews : textes traduits en plusieurs langues de la chaine d’information Euronews Et pleins d’autres choses comme des traductions de livres, de la constitution, de la déclaration des droits de l’homme, des sous-titres de TED, etc.

    Microsoft propose également un jeu de données de textes techniques pouvant être utilisée pour développer des versions localisées d’applications qui s’intègrent aux produits Microsoft. Elle peut également être utilisée pour intégrer la terminologie Microsoft dans d’autres collections terminologiques ou servir de glossaire informatique de base pour le développement linguistique dans les quelque 100 langues disponibles.


Coreference Resolution

Associe les parties d’un texte qui se réfèrent aux mêmes notions. Exemple :

En anglais :

En français :

Long-range Dependency

Les jeux de données anglophones communs :

  • LAMBADA (LAnguage Modeling Broadened to Account for Discourse Aspects) de Paperno et al.. C’est une collection de passages narratifs extraits de BookCorpus (voir section suivante). La tâche est de prédire le dernier mot (ce qui nécessite au moins 50 tokens de contexte pour qu’un humain puisse prédire avec succès).
  • Children’s Book Test de Wetson et al. est construit à partir de livres qui sont librement disponibles dans le Projet Gutenberg. La tâche consiste à prédire le mot manquant parmi 10 candidats.

En français : Pas d’équivalent en français à l’heure actuelle à ma connaissance.


Jeux de données pour l’entraînement

Les jeux de données anglophones communs :

Les jeux de données utilisés par CamemBERT et FlauBERT :

Benchmark multi-tâches

Les benchmarks anglophones :

Références




Citation

@inproceedings{tasks_and_datasets_nlp_blog_post,
author = {Loïck BOURDOIS},
title = {Tâches et jeux de données fréquemment utilisés dans les publications de NLP},
year = {2020},
url = {https://lbourdois.github.io/blog/nlp/Taches-et-jeux-de-donnees-en-NLP/}
}