Avant-propos

Ci-dessous, vous trouverez plusieurs listes de jeux de données afin de pouvoir entraîner vos modèles d’audio. Seuls ceux ayant un nombre d’heures conséquents sont listés (volume disponible supérieur à la dizaine d’heures). Les « petits » jeux de données non listés sont trouvables sur Ortholang.
A noter que tous les jeux de données n’étant pas forcément du même format audio et textuel, un nettoyage devra être effectué afin d’uniformiser les formats.


Apprentissage autosupervisé


Nom du jeu de données Heures Lien pour y accéder Informations Licence
VoxpopuliV2 22 800 H Cliquer-ici Enregistrements récoltés au Parlement Européen entre 2009 et 2020. CC0
Librivox 2 158 H Cliquer-ici 996 livres de grands auteurs français tombés dans le domaine public. Librivox étant un projet en constante évolution, le nombre d’heures disponibles augmentent donc au cours du temps. Le nombre d’heures renseigné ici correspond à un décompte effectué au 26 septembre 2023. Note : le jeu de données M-AILABS French-v0.9 est basé en partie sur Librivox. De même pour Multilingual LibriSpeech (seulement 1 300 H de Librivox dans ce jeu de données). Domaine public


Ce sont ainsi environ 25 000 heures d’audio qui sont disponibles pour l’apprentissage autosupervisé.


Finetuning

Automatic Speech Recognition (ASR)

Données en libre accès


Nom du jeu de données Heures Lien pour y accéder Informations Licence
Common Voice 1 113 H Cliquer-ici Chiffres indiqués pour la version 16, 981H sur les 1 113 ont été validées CC-0
Corpus d’Etude pour le Français Contemporain (CEFC) 450 H Cliquer-ici ou Cliquer-ici Regroupe 10 corpus sources (CFPP2000, CLAPI, C-ORAL-ROM, CRFP, FLEURON, FRENCH ORAL NARRATIVE, OFROM, TUFS, Valibel). Possibilité de trier ce que l’on souhaite (tv, radio, téléphone, face à face, etc.) CC-BY 4.0
ESLO 300 H pour ESLO1 400 H pour ESLO2 Cliquer-ici ou Cliquer-ici ESLO1 contient des entretiens (formels ou informels de type conversation dans une rue) enregistrés entre 1968 et 1974. Les données ne sont pas forcément de bonnes qualités (grésillements). ESLO2 reprend le même principe que ESLO1 mais porte sur des entretiens datant de 2008 à 2020. CC-BY 4.0
Conférences Pierre Mendès France 300 H Cliquer-ici Audios au format MP3 et transcriptions au format XML des conférences du centre de conférences Pierre Mendès France du MEFR (2012-2020). Open Licence version 2.0
VoxpopuliV2 211 H Cliquer-ici Parti annoté du corpus. Enregistrements annotés récoltés au Parlement Européen entre 2009 et 2020. CC0
TCOF 146 H Cliquer-ici Des enregistrements d’interactions adultes-enfants (enfants jusque 7 ans) et des enregistrements d’interactions entre adultes. CC BY-NC-SA 2.0
PFC 131 H Cliquer-ici Le corpus complet contient plus de 50 enquêtes (soit plus de 400 locuteurs). Nous avons ici accès qu’à une sous-partie de ce corpus (16 enquêtes, soit 164 locuteurs) qui a été anonymisée. CC BY-NC 4.0
SynPaFlex 87 H Cliquer-ici Annotation de 87h de corpus de livres-audios. CC-BY 2.0
MPF 78 H Cliquer-ici Ce corpus vise à documenter des évolutions en cours dans le français, l’émergence d’un vernaculaire urbain contemporain, ainsi que les effets sur le français du contact avec les langues de l’immigration. Nécessite un compte (gratuit) sur Ortholang pour télécharger le corpus. CC-BY 4.0
Lingua Libre 44 H Cliquer-ici Prononciation de mots CC BY-SA 4.0
African Accented French 22 H Cliquer-ici Interviews réalisées par l’armée américaine Apache 2.0
ALIPE 15 H Cliquer-ici Ce corpus contient la transcription d’environ 15H de conversations informelles entre enfant et parents. CC-BY-SA 4.0
Fleurs 13 H Cliquer-ici Lecture de phrases issues du jeu de données FLoRes CC-BY 4.0
SUMM-RE ASRU 12,5 H Cliquer-ici Réunions de 3 à 4 personnes transcrites avec Whisper puis corrigée manuellement CC-BY-SA 4.0
SIWIS ~ 10 H Cliquer-ici Au total, 9750 énoncés provenant de sources diverses telles que des débats parlementaires et des romans. CC-BY 4.0


Ce sont ainsi environ 3 300 heures d’audio qui sont disponibles librement pour l’apprentissage supervisé de la tâche d’ASR.


Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)


Nom du jeu de données Heures Lien pour y accéder Informations Licence
INA 1200H sont disponibles et 3000H sont indiqués comme “à venir” Cliquer-ici Données de l’INA disponibles dans différents sous jeux de données. Pour pouvoir avoir accès aux données il faut remplir un formulaire (cf. le lien). Il est précisé que “seuls sont autorisés à s’inscrire les laboratoires de recherche, les PME innovantes ainsi que toutes autres personnes morales disposant d’un service ou d’une activité de recherche scientifique.” Licence non précisée mais les CGU sont assez restrictives concernant leur utilisation à des fins non universitaires.
Decoda-RATP 74H Cliquer-ici Appels téléphoniques à la RATP enregistrés et annotés (transcription, NER, etc.) Non précisé, il faut contacter les auteurs
NCCFr 35H Cliquer-ici Conversations entre amis annotées par des professionnels Non précisé, il faut contacter les auteurs


Ce sont ainsi environ 1 300 heures d’audio qui sont disponibles sous condition d’accès aux données pour l’apprentissage supervisé de la tâche d’ASR.


Données payantes


Nom du jeu de données Heures Lien pour y accéder Informations Licence
ESTER 100 H annotées + 1700 H non annotées Cliquer-ici Corpus d’enregistrements d’émissions radiophoniques. 3 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
ESTER 2 ~200 H Cliquer-ici Inclus les 100H annotées d’ESTER1 + 100 nouvelles heures annotées. Corpus de transcriptions manuelles d’émissions radiophoniques et de transcriptions manuelles rapides de radios africaines. 2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
EPAC ~100 H Cliquer-ici 100H de transcriptions manuelles réalisées à partir des 1 700 heures d’enregistrements non transcrits du jeu de données ESTER. 2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
MEDIA 70 H Cliquer-ici 1 258 dialogues transcrits pour 250 locuteurs adultes sur le domaine du tourisme et de la réservation d’hôtel. 2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
ETAPE 30 H Cliquer-ici Environ 30H de radio et TV françaises incluant de la parole non planifiée et une proportion raisonnable de données multi-locuteurs. Des données transcrites soigneusement en incluant l’annotation des entités nommées. 3 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.


Ce sont ainsi environ 400 heures d’audio qui sont disponibles pour l’apprentissage supervisé et 1300 heures qui sont disponibles pour l’apprentissage autosupervisé en achetant ces corpus.



Audio Classification

Données en libre accès


Nom du jeu de données Heures Lien pour y accéder Qualité / Source Licence
Voxlingua107 67 H Cliquer-ici Audios issues de YouTube CC-BY 4.0
FLEURS-LangID 13H pour le français et ~1400H au total pour les 102 langues Cliquer-ici Identifier à quelle langue appartient un audio parmi une liste de 102 langues CC BY-NC 4.0
Minds14 1h15 Cliquer-ici Audios à classer parmi 14 classes différentes CC BY-NC 4.0


Ce sont ainsi environ 80 heures d’audio qui sont disponibles pour la tâche d’identification d’une langue (en pratique nettement plus si on inclus les jeux de données pour la traduction de la section suivante) et 1h15 pour la classification d’intentions.

Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)


Nom du jeu de données Heures Lien pour y accéder Qualité / Source Licence
Allosat ~37H Cliquer-ici Appels enregistrés à un centre d’appel dont les conversations portent sur des thèmes de type : énergie, agence de voyage, agence immobilière et assurances. Les données ont aussi été retranscrites mais automatiquement à l’aide de Kaldi Non précisé, il faut contacter les auteurs
Cemo 20H Cliquer-ici Appels aux urgences annotées. Il semble également que les données ont aussi été retranscrites d’après la conclusion du papier. Non précisé, il faut contacter les auteurs
RECOLA 9,5H Cliquer-ici Enregistrements audio, visuels et physiologiques (électrocardiogramme et activité électrodermale) d’interactions dyadiques en ligne entre 46 participants francophones, qui résolvaient une tâche en collaboration. EULA
mGEMEP 0,9H Cliquer-ici Données provenant d’acteurs Non précisé, il faut contacter les auteurs


Ce sont ainsi environ 120 heures d’audio qui sont disponibles sous condition d’accès aux données afin d’entraîner un modèle de classification d’audio de type reconnaissance d’émotions.



Automatic Speech Translation (AST)

Données en libre accès


Nom du jeu de données Heures Lien pour y accéder Qualité / Source Licence
Europarl-ST (fr->x) et (x->fr) 176H de fr->x et 179H de x->fr soit 355H au total Cliquer-ici Corpus multilingue (français, anglais, allemand, italien, espagnol, portugais, polonais, roumain, néerlandais) construits à partir des débats menés au Parlement européen entre 2008 et 2012. CC BY-NC 4.0
MuST-C (en->fr) 236H Cliquer-ici Provient de TEDs en anglais CC BY-NC-ND 4.0
Covost2 (fr->en) 225H Cliquer-ici Données basées sur Common Voice 4.0 CC0
mTEDx (fr->x) 25H à 50H en fonction de la langue cible, 189H au total Cliquer-ici Données issues des conférences TED. Les langues disponibles étant le français, l’espagnol, l’allemand, l’italien, le russe, le portugais, le grec, l’arabe et l’anglais CC BY-NC-ND 4.0


Ce sont ainsi environ 1000 heures d’audio qui sont disponibles afin d’entraîner un modèle de traduction d’audio incluant à partir ou à destination du français.




Références




@inproceedings{french_audio_datasets_blog_post,
author = {Loïck BOURDOIS},
title = {Jeux de données audio pour le français},
year = {2023},
url = {https://lbourdois.github.io/blog/audio/dataset_audio_fr}
}