Avant-propos
Ci-dessous, vous trouverez plusieurs listes de jeux de données afin de pouvoir entraîner vos modèles d’audio.
Seuls ceux ayant un nombre d’heures conséquents sont listés (volume disponible supérieur à la dizaine d’heures). Les « petits » jeux de données non listés sont trouvables sur Ortholang.
A noter que tous les jeux de données n’étant pas forcément du même format audio et textuel, un nettoyage devra être effectué afin d’uniformiser les formats.
Apprentissage autosupervisé
Nom du jeu de données | Heures | Lien pour y accéder | Informations | Licence |
---|---|---|---|---|
VoxpopuliV2 | 22 800 H | Cliquer-ici | Enregistrements récoltés au Parlement Européen entre 2009 et 2020. | CC0 |
Librivox | 2 158 H | Cliquer-ici | 996 livres de grands auteurs français tombés dans le domaine public. Librivox étant un projet en constante évolution, le nombre d’heures disponibles augmentent donc au cours du temps. Le nombre d’heures renseigné ici correspond à un décompte effectué au 26 septembre 2023. Note : le jeu de données M-AILABS French-v0.9 est basé en partie sur Librivox. De même pour Multilingual LibriSpeech (seulement 1 300 H de Librivox dans ce jeu de données). | Domaine public |
Ce sont ainsi environ 25 000 heures d’audio qui sont disponibles pour l’apprentissage autosupervisé.
Finetuning
Automatic Speech Recognition (ASR)
Données en libre accès
Nom du jeu de données | Heures | Lien pour y accéder | Informations | Licence |
---|---|---|---|---|
Common Voice | 1 113 H | Cliquer-ici | Chiffres indiqués pour la version 16, 981H sur les 1 113 ont été validées | CC-0 |
Corpus d’Etude pour le Français Contemporain (CEFC) | 450 H | Cliquer-ici ou Cliquer-ici | Regroupe 10 corpus sources (CFPP2000, CLAPI, C-ORAL-ROM, CRFP, FLEURON, FRENCH ORAL NARRATIVE, OFROM, TUFS, Valibel). Possibilité de trier ce que l’on souhaite (tv, radio, téléphone, face à face, etc.) | CC-BY 4.0 |
ESLO | 300 H pour ESLO1 400 H pour ESLO2 | Cliquer-ici ou Cliquer-ici | ESLO1 contient des entretiens (formels ou informels de type conversation dans une rue) enregistrés entre 1968 et 1974. Les données ne sont pas forcément de bonnes qualités (grésillements). ESLO2 reprend le même principe que ESLO1 mais porte sur des entretiens datant de 2008 à 2020. | CC-BY 4.0 |
Conférences Pierre Mendès France | 300 H | Cliquer-ici | Audios au format MP3 et transcriptions au format XML des conférences du centre de conférences Pierre Mendès France du MEFR (2012-2020). | Open Licence version 2.0 |
VoxpopuliV2 | 211 H | Cliquer-ici | Parti annoté du corpus. Enregistrements annotés récoltés au Parlement Européen entre 2009 et 2020. | CC0 |
TCOF | 146 H | Cliquer-ici | Des enregistrements d’interactions adultes-enfants (enfants jusque 7 ans) et des enregistrements d’interactions entre adultes. | CC BY-NC-SA 2.0 |
PFC | 131 H | Cliquer-ici | Le corpus complet contient plus de 50 enquêtes (soit plus de 400 locuteurs). Nous avons ici accès qu’à une sous-partie de ce corpus (16 enquêtes, soit 164 locuteurs) qui a été anonymisée. | CC BY-NC 4.0 |
SynPaFlex | 87 H | Cliquer-ici | Annotation de 87h de corpus de livres-audios. | CC-BY 2.0 |
MPF | 78 H | Cliquer-ici | Ce corpus vise à documenter des évolutions en cours dans le français, l’émergence d’un vernaculaire urbain contemporain, ainsi que les effets sur le français du contact avec les langues de l’immigration. Nécessite un compte (gratuit) sur Ortholang pour télécharger le corpus. | CC-BY 4.0 |
Lingua Libre | 44 H | Cliquer-ici | Prononciation de mots | CC BY-SA 4.0 |
African Accented French | 22 H | Cliquer-ici | Interviews réalisées par l’armée américaine | Apache 2.0 |
ALIPE | 15 H | Cliquer-ici | Ce corpus contient la transcription d’environ 15H de conversations informelles entre enfant et parents. | CC-BY-SA 4.0 |
Fleurs | 13 H | Cliquer-ici | Lecture de phrases issues du jeu de données FLoRes | CC-BY 4.0 |
SUMM-RE ASRU | 12,5 H | Cliquer-ici | Réunions de 3 à 4 personnes transcrites avec Whisper puis corrigée manuellement | CC-BY-SA 4.0 |
SIWIS | ~ 10 H | Cliquer-ici | Au total, 9750 énoncés provenant de sources diverses telles que des débats parlementaires et des romans. | CC-BY 4.0 |
Ce sont ainsi environ 3 300 heures d’audio qui sont disponibles librement pour l’apprentissage supervisé de la tâche d’ASR.
Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)
Nom du jeu de données | Heures | Lien pour y accéder | Informations | Licence |
---|---|---|---|---|
INA | 1200H sont disponibles et 3000H sont indiqués comme “à venir” | Cliquer-ici | Données de l’INA disponibles dans différents sous jeux de données. Pour pouvoir avoir accès aux données il faut remplir un formulaire (cf. le lien). Il est précisé que “seuls sont autorisés à s’inscrire les laboratoires de recherche, les PME innovantes ainsi que toutes autres personnes morales disposant d’un service ou d’une activité de recherche scientifique.” | Licence non précisée mais les CGU sont assez restrictives concernant leur utilisation à des fins non universitaires. |
Decoda-RATP | 74H | Cliquer-ici | Appels téléphoniques à la RATP enregistrés et annotés (transcription, NER, etc.) | Non précisé, il faut contacter les auteurs |
NCCFr | 35H | Cliquer-ici | Conversations entre amis annotées par des professionnels | Non précisé, il faut contacter les auteurs |
Ce sont ainsi environ 1 300 heures d’audio qui sont disponibles sous condition d’accès aux données pour l’apprentissage supervisé de la tâche d’ASR.
Données payantes
Nom du jeu de données | Heures | Lien pour y accéder | Informations | Licence |
---|---|---|---|---|
ESTER | 100 H annotées + 1700 H non annotées | Cliquer-ici | Corpus d’enregistrements d’émissions radiophoniques. | 3 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations. |
ESTER 2 | ~200 H | Cliquer-ici | Inclus les 100H annotées d’ESTER1 + 100 nouvelles heures annotées. Corpus de transcriptions manuelles d’émissions radiophoniques et de transcriptions manuelles rapides de radios africaines. | 2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations. |
EPAC | ~100 H | Cliquer-ici | 100H de transcriptions manuelles réalisées à partir des 1 700 heures d’enregistrements non transcrits du jeu de données ESTER. | 2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations. |
MEDIA | 70 H | Cliquer-ici | 1 258 dialogues transcrits pour 250 locuteurs adultes sur le domaine du tourisme et de la réservation d’hôtel. | 2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations. |
ETAPE | 30 H | Cliquer-ici | Environ 30H de radio et TV françaises incluant de la parole non planifiée et une proportion raisonnable de données multi-locuteurs. Des données transcrites soigneusement en incluant l’annotation des entités nommées. | 3 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations. |
Ce sont ainsi environ 400 heures d’audio qui sont disponibles pour l’apprentissage supervisé et 1300 heures qui sont disponibles pour l’apprentissage autosupervisé en achetant ces corpus.
Audio Classification
Données en libre accès
Nom du jeu de données | Heures | Lien pour y accéder | Qualité / Source | Licence |
---|---|---|---|---|
Voxlingua107 | 67 H | Cliquer-ici | Audios issues de YouTube | CC-BY 4.0 |
FLEURS-LangID | 13H pour le français et ~1400H au total pour les 102 langues | Cliquer-ici | Identifier à quelle langue appartient un audio parmi une liste de 102 langues | CC BY-NC 4.0 |
Minds14 | 1h15 | Cliquer-ici | Audios à classer parmi 14 classes différentes | CC BY-NC 4.0 |
Ce sont ainsi environ 80 heures d’audio qui sont disponibles pour la tâche d’identification d’une langue (en pratique nettement plus si on inclus les jeux de données pour la traduction de la section suivante) et 1h15 pour la classification d’intentions.
Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)
Nom du jeu de données | Heures | Lien pour y accéder | Qualité / Source | Licence |
---|---|---|---|---|
Allosat | ~37H | Cliquer-ici | Appels enregistrés à un centre d’appel dont les conversations portent sur des thèmes de type : énergie, agence de voyage, agence immobilière et assurances. Les données ont aussi été retranscrites mais automatiquement à l’aide de Kaldi | Non précisé, il faut contacter les auteurs |
Cemo | 20H | Cliquer-ici | Appels aux urgences annotées. Il semble également que les données ont aussi été retranscrites d’après la conclusion du papier. | Non précisé, il faut contacter les auteurs |
RECOLA | 9,5H | Cliquer-ici | Enregistrements audio, visuels et physiologiques (électrocardiogramme et activité électrodermale) d’interactions dyadiques en ligne entre 46 participants francophones, qui résolvaient une tâche en collaboration. | EULA |
mGEMEP | 0,9H | Cliquer-ici | Données provenant d’acteurs | Non précisé, il faut contacter les auteurs |
Ce sont ainsi environ 120 heures d’audio qui sont disponibles sous condition d’accès aux données afin d’entraîner un modèle de classification d’audio de type reconnaissance d’émotions.
Automatic Speech Translation (AST)
Données en libre accès
Nom du jeu de données | Heures | Lien pour y accéder | Qualité / Source | Licence |
---|---|---|---|---|
Europarl-ST (fr->x) et (x->fr) | 176H de fr->x et 179H de x->fr soit 355H au total | Cliquer-ici | Corpus multilingue (français, anglais, allemand, italien, espagnol, portugais, polonais, roumain, néerlandais) construits à partir des débats menés au Parlement européen entre 2008 et 2012. | CC BY-NC 4.0 |
MuST-C (en->fr) | 236H | Cliquer-ici | Provient de TEDs en anglais | CC BY-NC-ND 4.0 |
Covost2 (fr->en) | 225H | Cliquer-ici | Données basées sur Common Voice 4.0 | CC0 |
mTEDx (fr->x) | 25H à 50H en fonction de la langue cible, 189H au total | Cliquer-ici | Données issues des conférences TED. Les langues disponibles étant le français, l’espagnol, l’allemand, l’italien, le russe, le portugais, le grec, l’arabe et l’anglais | CC BY-NC-ND 4.0 |
Ce sont ainsi environ 1000 heures d’audio qui sont disponibles afin d’entraîner un modèle de traduction d’audio incluant à partir ou à destination du français.
Références
- VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation de Wang et al. (2021)
- Common Voice: A Massively-Multilingual Speech Corpus d’ Ardila et al. (2020)
- Le projet ORFÉO : un corpus d’études pour le français contemporain. de Benzitoun et al. (2016).
- Discours sur la ville. Corpus de Français Parlé Parisien des années 2000 (CFPP2000) de Branca-Rosoff et al. (2020)
- CLAPI, une base de données multimodale pour la parole en interaction : apports et dilemmes de Baldauf-Quilliatre et al. (2016)
- The C-ORAL-ROM CORPUS. A Multilingual Resource of Spontaneous Speech for Romance Languages de Cresti et al. (2004)
- Corpus de référence du français parlé de Delic et al. (2004)
- De l’archive de parole au corpus de référence : la base de données orales du français de Suisse romande d’Avanzi et al. (2016)
- Disfluences et vieillissement langagier. De la base de données VALIBEL aux corpus outillés en français parlé de Bolly et al. (2016)
- Un grand corpus oral disponible : le Corpus d’Orléans 1968-2012 [A Large available oral corpus: Orleans corpus 1968-2012] d’Eshkol-Taravella et al. (2012)
- Traitement de Corpus Oraux en Français d’André et Canut (2010)
- Le projet PFC: une source de données primaires structurées de Durand et al. (2009)
- SynPaFlex-Corpus: An Expressive French Audiobooks Corpus dedicated to expressive speech synthesis. de Sini et al (2018)
- Les parlers jeunes dans l’Île-de-France multiculturelle de Gadet et al. (2017)
- ALIPE (Acquisition de la Liaison et Interactions Parents Enfants) de Chabanal et al. (2013)
- [Transcribing And Aligning Conversational Speech: A Hybrid Pipeline Applied To French Conversations] de Yamasaki et al. (2023)
- The SIWIS French Speech Synthesis Database de Yamagishi et al. (2017)
- Enhancing The RATP-DECODA Corpus With Linguistic Annotations For Performing A Large Range Of NLP Tasks de Lailler et al. (2016)
- Nijmegen Corpus of Casual French de Torreira et al. (2010)
- Multilingual and Cross-Lingual Intent Detection from Spoken Data de Gerz, Su et al. (2021)
- FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech de Conneau et al. (2022)
- On the use of Self-supervised Pre-trained Acoustic and Linguistic Features for Continuous Speech Emotion Recognition de Macary et al. (2020)
- End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency Call Centers Data Recordings de Deschamps-Berger et al. (2021)
- Introducing the RECOLA Multimodal Corpus of Remote Collaborative and Affective Interactions de Ringeval et al. (2013)
- Introducing the Geneva Multimodal expression corpus for experimental research on emotion perception de Bänziger et al. (2012)
- Europarl-ST: A Multilingual Corpus For Speech Translation Of Parliamentary Debates d’Iranzo-Sánchez et al. (2019)
- MuST-C: a Multilingual Speech Translation Corpus de Di Gangi et al. (2019)
- CoVoST 2: A Massively Multilingual Speech-to-Text Translation Corpus de Wang, Wu et Pino (2020)
- The Multilingual TEDx Corpus for Speech Recognition and Translation de Salesky et al. (2021)
- VoxLingua107: a Dataset for Spoken Language Recognition de Valk et Alumäe (2020)
@inproceedings{french_audio_datasets_blog_post,
author = {Loïck BOURDOIS},
title = {Jeux de données audio pour le français},
year = {2023},
url = {https://lbourdois.github.io/blog/audio/dataset_audio_fr}
}