Le NLP : Natural Language Processing
Qu’est-ce que le NLP ?
Le Natural Language Processing (NLP) ou Traitement Automatique du Langage Naturel (TALN) en français, est un domaine à l’intersection de l’informatique, de l’intelligence artificielle et de la linguistique.
L’objectif de cette discipline est de permettre à des ordinateurs de traiter le langage naturel produit par des humains.
Quelles sont les applications concrètes du NLP ?
Voici une liste non exhaustive d’exemples d’applications :
- la traduction automatique
- la classification de texte
- la génération de texte
- la synthèse de document
- la génération de réponses à des questions (chatbox)
Quelles sont les méthodes employées pour mettre en place ces applications ?
J’ai réalisé une série d’articles dédiée aux modèles statistiques utilisés en NLP.
Dans un premier temps, vous trouverez les articles de présentation des modèles. Ils sont classés dans l’ordre chronologique de leur popularité d’utilisation.
Dans un second temps, vous trouverez les articles concernant les sujets utiles à connaître en NLP : les tokenizers, les bases de données, etc.
-
Le bag-of-word : l’article de présentation
-
Le word embedding : l’article de présentation
-
Les RNNs, les LSTMs et ELMo : l’article de présentation
-
Le Seq2seq et le processus d’attention : l’article de présentation
-
Le transformer : l’article de présentation
-
Les architectures issues du transformer
Il en existe ENORMEMENT (plus de 10 000 modèles dans l’API d’Hugging Face en novembre 2021). Une liste non exhaustive est disponible dans le dernier article de la série consacrée au NLP : lire l’article en question
Je présente plus en détails les architectures que j’ai eu l’occasion d’utiliser professionnellement :- BERT : l’article de présentation
- le GPT-2 : l’article de présentation
- BERT : l’article de présentation
- Optimisations du transformer
L’architecture transformer est très performante mais possède quelques lacunes (nombres importants de paramètres, calculs pas forcément les plus efficients, etc.).
Différents travaux cherchent à résoudre ces problèmes. On peut par exemple évoquer :