Autre

Sur cette page vous pouvez trouver les contenus sur lesquels j’ai travaillé (à titre personnel ou professionnel) mais qui sont référencés sur d’autres sites que mon blog personnel. Il s’agit principalement de traductions de cours, et des créations de jeux de données et de modèles.

Traductions

Cours de Yann Le Cun et Alfredo Canziani de la NYU

Cette traduction a été la plus longue à effectuer s’étalant de 2020 à 2022.
Le contenu est structuré en 19 unités réparties sur 33 vidéos 🎥 de cours (cours magistraux et travaux dirigés) d’une durée totale d’environ 45H, 74 pages web 🌐 résumant les vidéos via les notes prises par les étudiants pendant le cours, et 16 notebooks Jupyter 📓 (en PyTorch) utilisés lors des TD. Enfin un jeu de données de plus de 3000 données parallèles vérifiées manuellement a été créé pour entraîner un modèle de traduction.
Vous pouvez retrouver toutes ces ressources sur le site internet dédié qui a été conçu à l’occasion : https://lbourdois.github.io/cours-dl-nyu/.

Cours de Hugging Face 🤗

Cours de NLP

En 2022, j’ai traduit le cours de traitement automatique du langage de Hugging Face.
Le contenu est structuré en 10 chapitres comprenant un total de 76 vidéos 🎥 d’une durée totale d’environ 5H, de 78 pages web 🌐 et 61 notebooks Jupyter 📓 (en PyTorch et Tensorflow).
Vous pouvez retrouver toutes ces ressources sur le site de Hugging Face.

Cours d’audio

En 2023, j’ai traduit le cours de traitement automatique du langage de Hugging Face.
Le contenu est structuré en 8 unités réparties sur 46 pages web 🌐.
Vous pouvez retrouver toutes ces ressources sur le site de Hugging Face.

Cours sur les modèles de diffusion

En 2023, j’ai traduit le cours sur les modèles de diffusion de Hugging Face.
Le contenu est structuré en 4 chapitres portant sur 17 pages web 🌐 et 8 notebooks Jupyter 📓 (en PyTorch).
Vous pouvez retrouver toutes ces ressources sur le GitHub de Hugging Face (le contenu n’ayant pas encore été propagé sur le site officiel).

Modèles et jeux de données

FAT5

Le FAT5 est une implémentation du T5 en PyTorch avec un objectif UL2 optimisé pour GPGPU développé avec Boris ALBAR.
Elle utilise des noyaux CUDA et Triton personnalisés ainsi que des optimisations spécifiques pour augmenter le débit et réduire l’utilisation de la mémoire pour l’entraînement et l’inférence d’un facteur 2 par rapport à l’implémentation originale disponible dans Hugging Face.
Nous l’avons appliquée en pré-entraînant un modèle en français de 147M paramètres en utilisant uniquement une A100. Nous estimons ainsi pouvoir ramener le prix de pré-entraînement d’un tel modèle à seulement 2200€ (estimation faite sur une instance OVH).
Le code de pré-entrainement est disponible sur GitHub sous licence Apache-2.0 et les poids du modèle entraîné sur le compte Hugging Face du CATIE. Un article de blog détaillant notre méthodologie est disponible ici.

NER

Les NERmemBERT constituent une famille de modèles de Reconnaissance d’Entités Nommées en français capable d’étiqueter jusqu’à 4 entités (Personnalités, Lieux, Organisations, Divers tel que des noms d’œuvre, de maladies, etc.). Ils sont disponibles en taille base (110M ou 136M de paramètres) et large (336M), gérant des contextes allant de 512 à 8192 tokens. Les poids sont disponibles gratuitement en open-source, tout comme les jeux de données ayant servis à l’entraînement. Le tout est disponible sur le compte Hugging Face du CATIE. Un article de blog détaillant la méthodologie adoptée est disponible ici.
Ils ont été téléchargés plus de 170 000 fois depuis leur mise en ligne.

Question Answering

Les QAmemBERT constituent une famille de réponse aux questions en français capable d’indiquer si la réponse à une question est présente ou pas dans un texte de contexte associé. Ils sont disponibles en taille base (110M ou 136M de paramètres) et large (335M), gérant des contextes allant de 512 à 8192 tokens. Les poids sont disponibles gratuitement en open-source, tout comme le jeu de données ayant servis à l’entraînement. Le tout est disponible sur le compte Hugging Face du CATIE. Un article de blog détaillant la méthodologie adoptée est disponible ici.
Ils ont été téléchargés plus de 150 000 fois depuis leur mise en ligne.

DFP

Dataset of French Prompts (DFP) contient 113 129 978 lignes portant sur 30 tâches de NLP différentes.
724 prompts ont été écrits sous forme impérative, de tutoiement et de vouvoiement afin de couvrir autant que possible les données de pré-entraînement utilisées par le modèle qui utilisera ces données et qui nous sont inconnues. Les colonnes inputs et targets suivent le même format que l’ensemble de données xP3 de Muennighoff et al.
L’ensemble des détails est disponible sur Hugging Face.
Il a été téléchargé plus de 30 000 fois depuis sa mise en ligne.

Loïck BOURDOIS