Qu’est-ce que le NLP ?

Le Natural Language Processing (NLP) ou Traitement Automatique du Langage Naturel (TALN) en français, est un domaine à l’intersection de l’informatique, de l’intelligence artificielle et de la linguistique. L’objectif de cette discipline est de permettre à des ordinateurs de traiter le langage naturel produit par des humains.

Quelles sont les applications concrètes du NLP ?

Voici une liste non exhaustive d’exemples d’applications :

  • la traduction automatique
  • la classification de texte
  • la génération de texte
  • la synthèse de document
  • la génération de réponses à des questions (chatbox)

Quelles sont les méthodes employées pour mettre en place ces applications ?

J’ai réalisé une série d’articles dédiée aux modèles statistiques utilisés en NLP.

Dans un premier temps, vous trouverez les articles de présentation des modèles. Ils sont classés dans l’ordre chronologique de leur popularité d’utilisation.
Dans un second temps, vous trouverez les articles concernant les sujets utiles à connaître en NLP : les tokenizers, les bases de données, etc.


  • Optimisations du transformer
    L’architecture transformer est très performante mais possède quelques lacunes (nombres importants de paramètres, calculs pas forcément les plus efficients, etc.).
    Différents travaux cherchent à résoudre ces problèmes. On peut par exemple évoquer :
    • les versions distillées de modèles,
    • les optimisations sur les matrices d’attention comme : ALBERT, le Reformer, Big Bird, Performer, etc.


  • Enfin des articles concernant des sujets utiles à connaître en NLP :
    • Le prétraitement et les tokenizers : l’article
    • Les tâches et jeux de données test fréquemment utilisés : l’article
    • L’augmentation de données en NLP : l’article