NER

Jeux de données et modèles de NER en français

Dans le cadre de mon travail au CATIE j’ai participé, en 2023, à la conception de deux jeux de données de Reconnaissance d’Entités Nommées en français d’environ 425 000 lignes pour la version 3 entités (PER, ORG, LOC) et d’environ 385 000 lignes pour la version 4 entités (PER, ORG, LOC, MISC).
Ces jeux de données ont permis d’affiner quatre modèles CamemBERT (en version base et en version large pour chacun des deux jeux) sur la tâche de NER. Un démonstrateur Streamlit a été conçu pour utiliser ces modèles.
Enfin, un article de blog a été écrit afin de détailler la démarche suivie.
L’ensemble des ressources produites sont disponibles dans la collection suivante : https://huggingface.co/collections/CATIE-AQ/catie-french-ner-pack-658aefafe3f7a2dcf0e4dbb4