Les SSM : State Space Models
7 octobre 2021, alors que je me demandais si AK était un bot ou un humain, je vis passer l’un de ses tweets. Un lien vers une publication sur open-review.net accompagné de l’image suivante :
Intrigué par les résultats annoncés, je suis allé lire en quoi consistait ce modèle S3 qui sera renommé moins d’un mois plus tard en S4 (lien de la version de quand il s’appelait encore S3 pour les intéressés).
Cet article brillant m’avait impressionné. A l’époque, j’étais persuadé que les State Space Models (SSM) allaient être une révolution et remplacer les transformers dans les prochains mois. Deux ans plus tard, force est de constater que je me suis complètement trompé devant le raz-de-marée de LLM qui font l’actualité en NLP.
Néanmoins ce lundi 4 décembre 2023, l’annonce de Mamba par Albert Gu et Tri Dao a ressuscité leur intérêt. Phénomène accentué 4 jours plus tard avec l’annonce de StripedHyena par Together AI.
Une bonne occasion pour moi d’écrire quelques mots sur les développements des SSM au cours de ces deux années.
Je prévois d’écrire trois articles d’abord où le but est d’illustrer les bases des SSM avec le S4 (le “Attention is all you need” du domaine) avant d’effectuer une revue de littérature de l’évolution des SSM depuis ce premier papier :
J’espère également dans un second temps entrer dans les détails des architectures de certains SSM spécifiques avec des animations ✨