QA

Jeu de données et modèles de QA en français

Dans le cadre de mon travail au CATIE j’ai participé, en 2023, à la conception d’un jeu de données de Question Answering en français au format SQuAD 2.0 (i.e. la réponse à une question peut ne pas être présente dans le contexte fourni) d’environ 220 000 lignes.
Celui-ci a ensuite permis d’affiner deux modèles CamemBERT (en version base et en version large) sur la tâche QA. Un démonstrateur Streamlit a été conçu pour utiliser ces modèles.
Enfin, un article de blog a été écrit afin de détailler la démarche suivie.
L’ensemble des ressources produites sont disponibles dans la collection suivante : https://huggingface.co/collections/CATIE-AQ/catie-french-qa-pack-650821750f44c341cdb8ec91