Avant-propos

Ci-dessous, vous trouverez plusieurs listes de jeux de données afin de pouvoir entraîner vos modèles d’audio. Seuls ceux ayant un nombre d’heures conséquents sont listés (volume disponible supérieur à la dizaine d’heures). Les « petits » jeux de données non listés sont trouvables sur Ortholang.
A noter que tous les jeux de données n’étant pas forcément du même format audio et textuel, un nettoyage devra être effectué afin d’uniformiser les formats.

Apprentissage autosupervisé

Nom du jeu de données	Heures	Lien pour y accéder	Informations	Licence
VoxpopuliV2	22 800 H	Cliquer-ici	Enregistrements récoltés au Parlement Européen entre 2009 et 2020.	CC0
Librivox	2 158 H	Cliquer-ici	996 livres de grands auteurs français tombés dans le domaine public. Librivox étant un projet en constante évolution, le nombre d’heures disponibles augmentent donc au cours du temps. Le nombre d’heures renseigné ici correspond à un décompte effectué au 26 septembre 2023. Note : le jeu de données M-AILABS French-v0.9 est basé en partie sur Librivox. De même pour Multilingual LibriSpeech (seulement 1 300 H de Librivox dans ce jeu de données).	Domaine public

Ce sont ainsi environ 25 000 heures d’audio qui sont disponibles pour l’apprentissage autosupervisé.

Finetuning

Automatic Speech Recognition (ASR)

Données en libre accès

Nom du jeu de données	Heures	Lien pour y accéder	Informations	Licence
Common Voice	1 113 H	Cliquer-ici	Chiffres indiqués pour la version 16, 981H sur les 1 113 ont été validées	CC-0
Corpus d’Etude pour le Français Contemporain (CEFC)	450 H	Cliquer-ici ou Cliquer-ici	Regroupe 10 corpus sources (CFPP2000, CLAPI, C-ORAL-ROM, CRFP, FLEURON, FRENCH ORAL NARRATIVE, OFROM, TUFS, Valibel). Possibilité de trier ce que l’on souhaite (tv, radio, téléphone, face à face, etc.)	CC-BY 4.0
ESLO	300 H pour ESLO1 400 H pour ESLO2	Cliquer-ici ou Cliquer-ici	ESLO1 contient des entretiens (formels ou informels de type conversation dans une rue) enregistrés entre 1968 et 1974. Les données ne sont pas forcément de bonnes qualités (grésillements). ESLO2 reprend le même principe que ESLO1 mais porte sur des entretiens datant de 2008 à 2020.	CC-BY 4.0
Conférences Pierre Mendès France	300 H	Cliquer-ici	Audios au format MP3 et transcriptions au format XML des conférences du centre de conférences Pierre Mendès France du MEFR (2012-2020).	Open Licence version 2.0
VoxpopuliV2	211 H	Cliquer-ici	Parti annoté du corpus. Enregistrements annotés récoltés au Parlement Européen entre 2009 et 2020.	CC0
TCOF	146 H	Cliquer-ici	Des enregistrements d’interactions adultes-enfants (enfants jusque 7 ans) et des enregistrements d’interactions entre adultes.	CC BY-NC-SA 2.0
PFC	131 H	Cliquer-ici	Le corpus complet contient plus de 50 enquêtes (soit plus de 400 locuteurs). Nous avons ici accès qu’à une sous-partie de ce corpus (16 enquêtes, soit 164 locuteurs) qui a été anonymisée.	CC BY-NC 4.0
SynPaFlex	87 H	Cliquer-ici	Annotation de 87h de corpus de livres-audios.	CC-BY 2.0
MPF	78 H	Cliquer-ici	Ce corpus vise à documenter des évolutions en cours dans le français, l’émergence d’un vernaculaire urbain contemporain, ainsi que les effets sur le français du contact avec les langues de l’immigration. Nécessite un compte (gratuit) sur Ortholang pour télécharger le corpus.	CC-BY 4.0
Lingua Libre	44 H	Cliquer-ici	Prononciation de mots	CC BY-SA 4.0
African Accented French	22 H	Cliquer-ici	Interviews réalisées par l’armée américaine	Apache 2.0
ALIPE	15 H	Cliquer-ici	Ce corpus contient la transcription d’environ 15H de conversations informelles entre enfant et parents.	CC-BY-SA 4.0
Fleurs	13 H	Cliquer-ici	Lecture de phrases issues du jeu de données FLoRes	CC-BY 4.0
SUMM-RE ASRU	12,5 H	Cliquer-ici	Réunions de 3 à 4 personnes transcrites avec Whisper puis corrigée manuellement	CC-BY-SA 4.0
SIWIS	~ 10 H	Cliquer-ici	Au total, 9750 énoncés provenant de sources diverses telles que des débats parlementaires et des romans.	CC-BY 4.0

Ce sont ainsi environ 3 300 heures d’audio qui sont disponibles librement pour l’apprentissage supervisé de la tâche d’ASR.

Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)

Nom du jeu de données	Heures	Lien pour y accéder	Informations	Licence
INA	1200H sont disponibles et 3000H sont indiqués comme “à venir”	Cliquer-ici	Données de l’INA disponibles dans différents sous jeux de données. Pour pouvoir avoir accès aux données il faut remplir un formulaire (cf. le lien). Il est précisé que “seuls sont autorisés à s’inscrire les laboratoires de recherche, les PME innovantes ainsi que toutes autres personnes morales disposant d’un service ou d’une activité de recherche scientifique.”	Licence non précisée mais les CGU sont assez restrictives concernant leur utilisation à des fins non universitaires.
Decoda-RATP	74H	Cliquer-ici	Appels téléphoniques à la RATP enregistrés et annotés (transcription, NER, etc.)	Non précisé, il faut contacter les auteurs
NCCFr	35H	Cliquer-ici	Conversations entre amis annotées par des professionnels	Non précisé, il faut contacter les auteurs

Ce sont ainsi environ 1 300 heures d’audio qui sont disponibles sous condition d’accès aux données pour l’apprentissage supervisé de la tâche d’ASR.

Données payantes

Nom du jeu de données	Heures	Lien pour y accéder	Informations	Licence
ESTER	100 H annotées + 1700 H non annotées	Cliquer-ici	Corpus d’enregistrements d’émissions radiophoniques.	3 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
ESTER 2	~200 H	Cliquer-ici	Inclus les 100H annotées d’ESTER1 + 100 nouvelles heures annotées. Corpus de transcriptions manuelles d’émissions radiophoniques et de transcriptions manuelles rapides de radios africaines.	2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
EPAC	~100 H	Cliquer-ici	100H de transcriptions manuelles réalisées à partir des 1 700 heures d’enregistrements non transcrits du jeu de données ESTER.	2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
MEDIA	70 H	Cliquer-ici	1 258 dialogues transcrits pour 250 locuteurs adultes sur le domaine du tourisme et de la réservation d’hôtel.	2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
ETAPE	30 H	Cliquer-ici	Environ 30H de radio et TV françaises incluant de la parole non planifiée et une proportion raisonnable de données multi-locuteurs. Des données transcrites soigneusement en incluant l’annotation des entités nommées.	3 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.

Ce sont ainsi environ 400 heures d’audio qui sont disponibles pour l’apprentissage supervisé et 1300 heures qui sont disponibles pour l’apprentissage autosupervisé en achetant ces corpus.

Audio Classification

Données en libre accès

Nom du jeu de données	Heures	Lien pour y accéder	Qualité / Source	Licence
Voxlingua107	67 H	Cliquer-ici	Audios issues de YouTube	CC-BY 4.0
FLEURS-LangID	13H pour le français et ~1400H au total pour les 102 langues	Cliquer-ici	Identifier à quelle langue appartient un audio parmi une liste de 102 langues	CC BY-NC 4.0
Minds14	1h15	Cliquer-ici	Audios à classer parmi 14 classes différentes	CC BY-NC 4.0

Ce sont ainsi environ 80 heures d’audio qui sont disponibles pour la tâche d’identification d’une langue (en pratique nettement plus si on inclus les jeux de données pour la traduction de la section suivante) et 1h15 pour la classification d’intentions.

Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)

Nom du jeu de données	Heures	Lien pour y accéder	Qualité / Source	Licence
Allosat	~37H	Cliquer-ici	Appels enregistrés à un centre d’appel dont les conversations portent sur des thèmes de type : énergie, agence de voyage, agence immobilière et assurances. Les données ont aussi été retranscrites mais automatiquement à l’aide de Kaldi	Non précisé, il faut contacter les auteurs
Cemo	20H	Cliquer-ici	Appels aux urgences annotées. Il semble également que les données ont aussi été retranscrites d’après la conclusion du papier.	Non précisé, il faut contacter les auteurs
RECOLA	9,5H	Cliquer-ici	Enregistrements audio, visuels et physiologiques (électrocardiogramme et activité électrodermale) d’interactions dyadiques en ligne entre 46 participants francophones, qui résolvaient une tâche en collaboration.	EULA
mGEMEP	0,9H	Cliquer-ici	Données provenant d’acteurs	Non précisé, il faut contacter les auteurs

Ce sont ainsi environ 120 heures d’audio qui sont disponibles sous condition d’accès aux données afin d’entraîner un modèle de classification d’audio de type reconnaissance d’émotions.

Automatic Speech Translation (AST)

Données en libre accès

Nom du jeu de données	Heures	Lien pour y accéder	Qualité / Source	Licence
Europarl-ST (fr->x) et (x->fr)	176H de fr->x et 179H de x->fr soit 355H au total	Cliquer-ici	Corpus multilingue (français, anglais, allemand, italien, espagnol, portugais, polonais, roumain, néerlandais) construits à partir des débats menés au Parlement européen entre 2008 et 2012.	CC BY-NC 4.0
MuST-C (en->fr)	236H	Cliquer-ici	Provient de TEDs en anglais	CC BY-NC-ND 4.0
Covost2 (fr->en)	225H	Cliquer-ici	Données basées sur Common Voice 4.0	CC0
mTEDx (fr->x)	25H à 50H en fonction de la langue cible, 189H au total	Cliquer-ici	Données issues des conférences TED. Les langues disponibles étant le français, l’espagnol, l’allemand, l’italien, le russe, le portugais, le grec, l’arabe et l’anglais	CC BY-NC-ND 4.0

Ce sont ainsi environ 1000 heures d’audio qui sont disponibles afin d’entraîner un modèle de traduction d’audio incluant à partir ou à destination du français.

Références

VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation de Wang et al. (2021)
Common Voice: A Massively-Multilingual Speech Corpus d’ Ardila et al. (2020)
Le projet ORFÉO : un corpus d’études pour le français contemporain. de Benzitoun et al. (2016).
Discours sur la ville. Corpus de Français Parlé Parisien des années 2000 (CFPP2000) de Branca-Rosoff et al. (2020)
CLAPI, une base de données multimodale pour la parole en interaction : apports et dilemmes de Baldauf-Quilliatre et al. (2016)
The C-ORAL-ROM CORPUS. A Multilingual Resource of Spontaneous Speech for Romance Languages de Cresti et al. (2004)
Corpus de référence du français parlé de Delic et al. (2004)
De l’archive de parole au corpus de référence : la base de données orales du français de Suisse romande d’Avanzi et al. (2016)
Disfluences et vieillissement langagier. De la base de données VALIBEL aux corpus outillés en français parlé de Bolly et al. (2016)
Un grand corpus oral disponible : le Corpus d’Orléans 1968-2012 [A Large available oral corpus: Orleans corpus 1968-2012] d’Eshkol-Taravella et al. (2012)
Traitement de Corpus Oraux en Français d’André et Canut (2010)
Le projet PFC: une source de données primaires structurées de Durand et al. (2009)
SynPaFlex-Corpus: An Expressive French Audiobooks Corpus dedicated to expressive speech synthesis. de Sini et al (2018)
Les parlers jeunes dans l’Île-de-France multiculturelle de Gadet et al. (2017)
ALIPE (Acquisition de la Liaison et Interactions Parents Enfants) de Chabanal et al. (2013)
[Transcribing And Aligning Conversational Speech: A Hybrid Pipeline Applied To French Conversations] de Yamasaki et al. (2023)
The SIWIS French Speech Synthesis Database de Yamagishi et al. (2017)
Enhancing The RATP-DECODA Corpus With Linguistic Annotations For Performing A Large Range Of NLP Tasks de Lailler et al. (2016)
Nijmegen Corpus of Casual French de Torreira et al. (2010)
Multilingual and Cross-Lingual Intent Detection from Spoken Data de Gerz, Su et al. (2021)
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech de Conneau et al. (2022)
On the use of Self-supervised Pre-trained Acoustic and Linguistic Features for Continuous Speech Emotion Recognition de Macary et al. (2020)
End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency Call Centers Data Recordings de Deschamps-Berger et al. (2021)
Introducing the RECOLA Multimodal Corpus of Remote Collaborative and Affective Interactions de Ringeval et al. (2013)
Introducing the Geneva Multimodal expression corpus for experimental research on emotion perception de Bänziger et al. (2012)
Europarl-ST: A Multilingual Corpus For Speech Translation Of Parliamentary Debates d’Iranzo-Sánchez et al. (2019)
MuST-C: a Multilingual Speech Translation Corpus de Di Gangi et al. (2019)
CoVoST 2: A Massively Multilingual Speech-to-Text Translation Corpus de Wang, Wu et Pino (2020)
The Multilingual TEDx Corpus for Speech Recognition and Translation de Salesky et al. (2021)
VoxLingua107: a Dataset for Spoken Language Recognition de Valk et Alumäe (2020)

@inproceedings{french_audio_datasets_blog_post,  
  author    = {Loïck BOURDOIS},  
  title     = {Jeux de données audio pour le français},  
  year      = {2023},  
  url = {https://lbourdois.github.io/blog/audio/dataset_audio_fr}  
}

Partager sur

X Facebook LinkedIn Bluesky

JEUX DE DONNÉES AUDIO POUR LE FRANÇAIS

Avant-propos

Apprentissage autosupervisé

Finetuning

Automatic Speech Recognition (ASR)

Données en libre accès

Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)

Données payantes

Audio Classification

Données en libre accès

Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)

Automatic Speech Translation (AST)

Données en libre accès

Références

Partager sur

Vous pourriez aimer aussi

INTRODUCTION AU TRIMMING

STATISTIQUES DES MODELES DES 50 ENTITES LES PLUS TELECHARGEES SUR HUGGING FACE

UN GUIDE VISUEL SUR LES AGENTS

UN GUIDE VISUEL SUR LES LLM AVEC RAISONNEMENT