Loïck BOURDOIS

ÉVOLUTION DES STATE SPACE MODELS (SSM) EN 2023

2023-12-30T00:00:00+00:00

SSM - Revue de littérature des SSM parus lors de l'année 2023

HISTORIQUE DES STATE SPACE MODELS (SSM) EN 2022

2023-12-29T00:00:00+00:00

An English version is available on Hugging Face.

Introduction

Dans l’article précédent, nous avons défini ce qu’est un State Space Model (SSM) à l’aide d’un système en temps continu. Nous l’avons discrétisé pour faire apparaître sa vue récurrente puis convolutive. L’intérêt ici est de pouvoir entraîner le modèle de manière convolutive puis de réaliser l’inférence de manière récurrente sur de très longues séquences.


Figure 1 : Image provenant de l’article de blog « Structured State Spaces: Combining Continuous-Time, Recurrent, and Convolutional Models » d’Albert GU et al. (2022)

Cette vision a été introduite par Albert GU dans ses papiers LSSL et S4 parus en 2021. Le S4 étant l’équivalent du « Attention is all you need » pour les transformers.
Dans le présent article, nous allons passer en revue la littérature des SSM parus durant l’année 2022. Ceux apparus en 2023 seront listés dans le prochain article. L’objectif est de montrer les différentes évolutions de ces types de modèles au cours des mois, tout en restant synthétique (i.e. je ne vais pas rentrer dans tous les détails des papiers listés). Lors de cette année 2022, les différentes avancées se sont focalisées à appliquer des algorithmes de discrétisations différents, tout en remplaçant la matrice HiPPO par une plus simple.

Modèles théoriques

Dans cette section, nous allons passer en revue les travaux théoriques des propositions d’amélioration de l’architecture du S4 vont être passés en revue. Nous aborderons ensuite dans une section différente, des applications concrètes sur différentes tâches (audio, vision, etc.).

S4 V2

Le 4 mars 2022, les auteurs du S4 ont actualisé leur papier afin d’y intégrer une section sur l’importance de la matrice HiPPO (cf. la section 4.4 de la version la plus récente du papier).
Pour résumer, elle consiste à rapporter les résultats observés à la suite de la réalisation d’ablations sur le jeu de données séquentielles CIFAR-10. Au lieu d’utiliser un SSM avec la matrice HiPPO, les auteurs ont essayé d’utiliser diverses paramétrisations comme une matrice dense aléatoire et une matrice diagonale aléatoire.


Figure 2 : Accuracy sur l’échantillon de validation de CIFAR-10, tirée de la figure 3 du papier du S4

L’utilisation d’HiPPO se révèle donc importante, les performances obtenues sont-elles dues à ses qualités intrinsèques spécifiques ou bien n’importe quelle matrice normale à faible rang (NPLR pour Normal Plus Low-Rank) pourrait suffire ?


Figure 3 : Accuracy sur l’échantillon de validation de CIFAR-10 avec différentes initialisations et parameterisations, tirée de la figure 4 du papier du S4

Initialiser une matrice NPLR avec HiPPO augmente considérablement les performances. Ainsi, d’après ces expériences, la matrice HiPPO est primordiale afin d’obtenir un modèle performant.

Les auteurs du S4 ont approfondi leurs travaux qu’ils ont exposés le 24 juin 2022 dans l’article How to Train Your HiPPO. Il s’agit d’un papier extrêmement détaillé de plus de 39 pages.
Dans cet article, les auteurs se concentrent sur une interprétation plus intuitive des SSM en tant que modèle convolutif où le noyau de convolution est une combinaison linéaire de fonctions de base particulières, ce qui conduit à plusieurs généralisations et à de nouvelles méthodes.
Ainsi, ils prouvent que la matrice $\mathbf{A}$ du S4 produit des polynômes de Legendre à échelle exponentielle (LegS). Cela confère au système une meilleure capacité à modéliser les dépendances à long terme via des noyaux très lisses.
Les auteurs dérivent également un nouveau SSM qui produit des approximations de fonctions de Fourier tronquées (FouT). Cette méthode généralise les transformées de Fourier à court terme et les convolutions locales (c’est-à-dire un ConvNet standard). Ce SSM peut également coder des fonctions de pointe pour résoudre des tâches de mémorisation classiques.
A noter que c’est surtout HiPPO-FouT qui est introduit dans ce papier, HiPPO-LegS ayant été introduit dans le papier original d’HiPPO deux ans plus tôt. De même qu’HiPPO-LegT (polynômes de Legendre tronqués).


Figure 4 : Les différentes variantes d’HiPPO

Les couleurs représentent les 4 premières fonctions de base $K_n(t)$ (le noyau de convolution) pour chacune des méthodes (nous invitons le lecteur à regarder le tableau 1 du papier pour savoir à quoi équivaut $K_n(t)$ pour chacune des méthodes).

De plus, les auteurs travaillent également sur le pas de temps $∆$, qui indépendamment d’une notion de discrétisation peut être interprété simplement comme contrôlant la longueur des dépendances ou la largeur des noyaux du SSM. Les auteurs détaillent aussi comment choisir une bonne valeur de $∆$ pour une tâche donnée.

Les travaux menés permettent d’améliorer les résultats du S4 de plus de 5,5 points sur le benchmark LRA de TAY, DEHGHANI et al. (2020) :


Figure 5 : Résultats du S4 v2 sur le benchmark

Le modèle résultant de ce papier est généralement appelé « S4 V2 » ou « S4 updated » dans la littérature à opposer au « S4 original » ou « S4 V1 ».

Le DSS : Diagonal State Spaces

Le 27 mars 2022, Ankit GUPTA introduit dans son papier Diagonal State Spaces are as Effective as Structured State Spaces les Diagonal State Spaces (DSS).
Il semble que suite à ce papier, Albert GU et lui se soient mis à travailler ensemble d’une part sur une version actualisée de ce papier (GU apparaissant par la suite comme co-auteur dans les v2 et v3 de l’article) et d’autre part dans le cadre du S4D (voir section suivante).
La principale chose à retenir est que cette approche est sensiblement plus simple que le S4. En effet, le DSS repose sur des matrices d’état diagonales (donc sans la correction de rang faible du S4, i.e. sans la matrice HiPPO) qui, si sont initialisées de manière appropriée, fonctionnent mieux que le S4 original. L’usage d’une matrice diagonale à la place de la matrice HiPPO pour $\mathbf{A}$ est depuis devenu une norme.

Arrêtons-nous néanmoins sur les quelques complexités/limites que contiennent ce papier. En les listant nous pourrons comprendre les apports des méthodes suivantes qui visent à simplifier davantage les choses.

1. La discrétisation
Le DSS utilise le même système d’équations différentielles que le S4 :

\[\begin{aligned} x' &= \mathbf{A}x + \mathbf{B}u \\ y &= \mathbf{C}x \end{aligned}\]

Cependant il utilise une discrétisation différente afin d’aboutir aux vues convolutives et récurrentes, à savoir la discrétisation zero-order hold (ZOH) ou bloqueur d’ordre zéro en français, au lieu de la discrétisation bilinéaire, qui suppose que le signal échantilloné est constant entre chaque point d’échantillonnage.
Ci-dessous un tableau comparatif des valeurs de $\mathbf{A}$, $\mathbf{B}$ et $\mathbf{C}$ pour chacune des deux discrétisations dans la vue récurrente, ainsi que l’expression du noyau de convolution dans la vue convolutive :

Discrétisation	Bilinéaire	ZOH
Récurrence	$\mathbf{\bar{A}} = (\mathbf {I} - \frac{\Delta}{2} \mathbf{A})^{-1}(\mathbf {I} + \frac{\Delta}{2} \mathbf{A})$ $\mathbf {\bar{B}} = (\mathbf{I} - \frac{\Delta}{2} \mathbf{A})^{-1} \Delta \mathbf{B}$ $\mathbf{\bar{C}} = \mathbf{C}$	$\mathbf{\bar{A}} = e^{\mathbf{A}\Delta}$ $\mathbf{\bar{B}} = (\mathbf{\bar{A}} - I)\mathbf{A}^{-1}\mathbf{B}$ $\mathbf{\bar{C}} = \mathbf{C}$
Convolution	$\mathbf{\bar{K}}_k = (\mathbf{\bar{C}} \mathbf{\bar{B}}, \mathbf{\bar{C}} \mathbf{\bar{A}} \mathbf{\bar{B}}, …, \mathbf{\bar{C}} \mathbf{\bar{A}}^{k} \mathbf{\bar{B}})$	$\mathbf{\bar{K}} = (\ \mathbf{C} e^{\mathbf{A}\cdot k\Delta} (e^{\mathbf{A}\Delta} - I)\mathbf{A}^{-1}\mathbf{B}\ )_{0 \leq k < L}$

Pour la ZOH, après avoir déroulé les calculs, on obtient en fin de compte $y_k = \sum_{j=0}^k \bar{C}\bar{A}^j\bar{B}\cdot u_{k-j} = \sum_{j=0}^k \bar{K}_j\cdot u_{k-j}$.

Calculer $y$ à partir de $u$ et $\bar{K}$ s’effectue alors par Transformation de Fourier rapide (FFT) en $O(L~log(L))$ avec $L$ la longueur de la séquence en calculant simultanément la multiplication de deux polynômes de degrés $L-1$.

2. DSSsoftmax et DSSexp

Version courte

GUPTA formule une proposition pour obtenir des DSS qui soient aussi expressifs que le S4, aboutissant à la formulation de deux DSS différents : le DSSexp et le DSSsoftmax. Les informations à retenir les concernant peuvent se résumer au tableau suivant :

Approche	DSSexp	DSSsoftmax
Vue convolutive	$K = \bar{K}_{\Delta, L}(\Lambda,\mathbb{I}_{1 \leq i \leq N},\ \widetilde{w})\\ = \widetilde{w} \cdot \Lambda^{-1} (e^{\Lambda\Delta} - I) \cdot \text{elementwise-exp}(P)$	$K = \bar{K}_{\Delta, L}(\Lambda,\ ((e^{L\lambda_i\Delta} - 1)^{-1})_{1\leq i \leq N},\ w)\\ = w \cdot \Lambda^{-1} \cdot \text{row-softmax}(P)$
Vue récurrente	$\bar{A} = \mathrm{diag}(e^{\lambda_1\Delta}, \ldots, e^{\lambda_N\Delta})$ $\bar{B} = \left(\lambda_i^{-1} (e^{\lambda_i\Delta} - 1) \right)_{1\leq i \leq N}$	$\bar{A} = \mathrm{diag}(e^{\lambda_1\Delta}, \ldots, e^{\lambda_N\Delta})$ $\bar{B} = \left( {e^{\lambda_i\Delta} - 1 \over \lambda_i (e^{\lambda_i\Delta L} - 1)} \right)_{1\leq i \leq N}$
Interprétation	Agit comme la porte d’oubli d’une LSTM	Si $\Re(\lambda)<<0$ : conserve l’information locale, si $\Re(\lambda)>>0$ : peut capturer des informations à très longues distances

Nous travaillons donc ici sur $ℂ$ et non pas $ℝ$.

Version longue

GUPTA formule la proposition suivante pour obtenir des DSS qui sont aussi expressifs que le S4 :

Soit $K \in \mathbb{R}^{1\times L}$ le noyau de longueur $L$ d’un espace d’état donné $(A, B, C)$ et d’un temps d’échantillonnage $\Delta > 0$, où $A \in \mathbb{C}^{N \times N}$ est diagonalisable sur $\mathbb{C}$ avec des valeurs propres $\lambda_1,\ldots,\lambda_N$ et $\forall i$, $\lambda_i \neq 0$ et $e^{L\lambda_i\Delta} \neq 1$. Soit $P \in \mathbb{C}^{N \times L} P_{i,k} = \lambda_i k\Delta$ et $\Lambda$ la matrice diagonale avec $\lambda_1,\ldots,\lambda_N$. Alors il existe $\widetilde{w}, w \in \mathbb{C}^{1\times N}$ tel que :

(a) : $K\ \ =\ \ \bar{K}_{\Delta, L}(\Lambda,\ (1)_{1 \leq i \leq N},\ \widetilde{w})\ \ =\ \ \widetilde{w} \cdot \Lambda^{-1} (e^{\Lambda\Delta} - I) \cdot \text{elementwise-exp}(P)$
(b) : $K\ \ =\ \ \bar{K}_{\Delta, L}(\Lambda,\ ((e^{L\lambda_i\Delta} - 1)^{-1})_{1\leq i \leq N},\ w)\ \ =\ \ w \cdot \Lambda^{-1} \cdot \text{row-softmax}(P)$

(a) suggère que nous pouvons paramétrer les espaces d’état via $\Lambda, \widetilde{w} \in \mathbb{C}^N$ et calculer le noyau comme indiqué. Malheureusement, dans la pratique, la partie réelle des éléments de $Λ$ peut devenir positive pendant l’apprentissage, le rendant instable pour les entrées longues. Pour résoudre ce problème, les auteurs proposent deux méthodes : DSSexp et DSSsoftmax.

2.1 Vue convolutive
Dans DSSexp, les parties réelles de $Λ$ doivent être négatives. On a alors $\Lambda = - \text{elementwise-exp}(\Lambda_\mathrm{re}) + i\cdot \Lambda_\mathrm{im}$ et $\Delta = \mathrm{exp}(\Delta_{\log}) \in \mathbb{R}_{> 0}$. $K$ se calcule alors comme dans la formule indiquée dans la partie (a) de la proposition.
Dans DSSsoftmax, chaque ligne de $Λ$ est normalisée par la somme de ces éléments. On a $\Lambda = \Lambda_\mathrm{re} + i\cdot \Lambda_\mathrm{im}$ et $\Delta = \mathrm{exp}(\Delta_{\log}) \in \mathbb{R}_{> 0}$.
$K$ se calcule alors comme dans la formule indiquée dans la partie (b) de la proposition.
A noter que softmax sur $\mathbb{C}$ n’est pas forcément défini lors de sofmax $(0, i \pi)$, les auteurs utilisant une version corrigée du softmax pour prévenir ce problème (cf. annexe A.2. du papier).

2.2 Vue récurrente
Dans DSSexp, en utilisant la formule de la récurrence dans le tableau ci-dessus, on obtient $\bar{A} = \mathrm{diag}(e^{\lambda_1\Delta}, \ldots, e^{\lambda_N\Delta})$ et $\bar{B} = \left(\lambda_i^{-1} (e^{\lambda_i\Delta} - 1) \right)_{1\leq i \leq N}$, où dans les deux égalités, $\lambda_i$ est la ième valeur propre de Lambda.
Etant donné que $\bar{A}$ est diagonale, il est possible de calculer les $x_k$ indépendamment de la manière suivante : $x_{i,k} = e^{\lambda_i\Delta} x_{i,k-1} + \lambda_i^{-1} (e^{\lambda_i\Delta} - 1)u_k$.
Il est alors possible de déduire que, si $|\lambda_i|\Delta \approx 0$, nous avons $x_{i,k} \approx x_{i,k-1}$ permettant de copier l’histoire sur de nombreux pas de temps. En revanche, si $\mathrm{Re}(\lambda_i)\Delta \ll 0$, alors $_{i,k} \approx -\lambda_i^{-1}u_k$ et l’information des pas de temps précédents est oubliée, similaire à une porte « forget » dans les LSTMs.

Dans DSSsoftmax, en utilisant la formule de la récurrence du tableau ci-dessus, on obtient : $\bar{A} = \mathrm{diag}(e^{\lambda_1\Delta}, \ldots, e^{\lambda_N\Delta})$ et $\bar{B} = \left( {e^{\lambda_i\Delta} - 1 \over \lambda_i (e^{\lambda_i\Delta L} - 1)} \right)_{1\leq i \leq N}$.
D’où $x_{i,k} = e^{\lambda_i\Delta} x_{i,k-1} + {u_k(e^{\lambda_i\Delta} - 1) \over \lambda_i (e^{\lambda_i\Delta L} - 1)}$.
A noter que $e^{\lambda_i\Delta}$ peut être instable. Il faut alors calculer deux cas différents en fonction du signe de $\mathrm{Re}(\lambda)$ en introduisant un état intermédiaire $\widetilde{x}_{k}$.
• Si $\mathrm{Re}(\lambda) \leq 0$ : $\widetilde{x}_{k} = e^{\lambda\Delta}\cdot \widetilde{x}_{k-1} + u_k \ \ \ \ ,\ \ \ \ x_k = \widetilde{x}_k \cdot {(e^{\lambda\Delta} - 1) \over \lambda (e^{\lambda\Delta L} - 1) }$

Et notamment si $\mathrm{Re}(\lambda) \ll 0$ alors $\widetilde{x}_k \approx u_k$ et $x_k \approx u_k / \lambda$, entraînant une focalisation sur une information locale (les pas précédents sont ignorés).

• Si $\mathrm{Re}(\lambda) > 0$ : $\widetilde{x}_{k} = \widetilde{x}_{k-1} + e^{-k\lambda\Delta} \cdot u_k \ \ \ \ ,\ \ \ \ x_k = \widetilde{x}_k \cdot {e^{\lambda\Delta (k-(L-1))} \over \lambda}\cdot {e^{-\lambda\Delta}-1 \over e^{-\lambda\Delta L} - 1 }$

De même si $\mathrm{Re}(\lambda) \gg 0$ alors $\widetilde{x}_0 \approx u_0$ et $\widetilde{x}_k \approx \widetilde{x}_{k-1} \approx u_0$, $x_{k < L-1} \approx 0$ et $x_{L-1} \approx u_0 / \lambda$, le modèle peut ainsi capturer des informations à très longues distances. En pratique, les auteurs du S4D indiquant que $\mathrm{Re}(\lambda) \gg 0$ ne fonctionne pas si $L$ est très grande (explosion quand $t \rightarrow \infty$ dans $K(t) = C \exp(A^\intercal).B)$.

3. Initialisation
Les parties réelles et imaginaires de $w$ sont initialisées à partir de $\mathcal{N}(0,1)$, les éléments de $\Delta_{\log}$ à partir de $\exp(\mathcal{U}~(log(0.001), log(0.1)))$, et $\Delta$ via les valeurs propres de la matrice HiPPO. Les auteurs se demandent s’il ne serait pas possible de trouver une initialisation plus simple pour $\Delta$. Ils notent néanmoins qu’une aléatoire conduit à de moins bons résultats.

Concernant les résultats, DSS a été testé sur LRA et Speech Commands de WARDEN (2018) :


Figure 6 : Résultats du DSS sur LRA

Le DSS (en version softmax ou en version exp) obtient de meilleurs résultats moyens que ceux du S4 original pour ce benchmark. Le DSSsoftmax semble performer légèrement mieux que le DSSexp. Un intérêt également de ce papier est qu’il est le premier à reproduire les résultats du S4 et donc confirmer que les SSM passent ce benchmark.


Figure 7 : Résultats du DSS sur Speech Commands

Sur Speech Commands, le S4 garde l’avantage sur les DSS.

Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.
Ce papier a fait l’objet d’un spotlight talk à NeurIPS 2022.

Le S4D : le S4 diagonal

Le 23 juin 2022, GU, GUPTA et al. introduisent le S4D dans leur article On the Parameterization and Initialization of Diagonal State Space Models.
L’initialisation de la matrice d’état $\mathbf{A}$ du DSS repose sur une approximation particulière de la matrice HiPPO du S4. Si la matrice du S4 possède une interprétation mathématique pour traiter les dépendances à longue portée, l’efficacité de l’approximation diagonale reste théoriquement inexpliquée.
Avec le S4D, les auteurs introduisent un SSM diagonal combinant le meilleur du calcul et de la paramétrisation de S4 et de l’initialisation de DSS. Au final, cela donne une méthode très simple, théoriquement fondée et empiriquement efficace.

Une comparaison des trois méthodes est donnée dans le tableau 1 du papier :


Figure 8 : Comparaison du S4, du DSS et du S4D

Le S4D peut utiliser la discrétisation bilinéaire du S4 ou bien la discrétisation ZOH du DSS.

Dans le S4D, le noyau de convolution discrétisé de l’équation $y = u \ast \mathbf{\overline{K}}$ se calcule de la façon suivante : $\mathbf{\overline{K}}_\ell = \sum_{n = 0}^{N-1} \mathbf{C}_n \mathbf{\overline{A}}_n^\ell \mathbf{\overline{B}}_n \implies \mathbf{\overline{K}} = (\mathbf{\overline{B}}^\top \circ \mathbf{C}) \cdot \mathcal{V}_L(\mathbf{\overline{A}})$
où :
• $\circ$ représente le produit matriciel d’Hadamard,
• $\cdot$ un produit matriciel classique,
• $\mathcal{V}_L$ est la matrice de Vandermonde c’est-à-dire : $\mathcal{V} = \begin{bmatrix} 1&\alpha _{1}&{\alpha _{1}}^{2}&\dots &{\alpha _{1}}^{n-1}\\ 1&\alpha _{2}&{\alpha _{2}}^{2}&\dots &{\alpha _{2}}^{n-1}\\ 1&\alpha _{3}&{\alpha _{3}}^{2}&\dots &{\alpha _{3}}^{n-1}\\ \vdots &\vdots &\vdots & \vdots \\ 1&\alpha _{m}&{\alpha _{m}}^{2}&\dots &{\alpha _{m}}^{n-1} \end{bmatrix}$.

Autrement dit, pour tout $i$ et $j$, le coefficient en ligne $i$ et colonne $j$ est $\displaystyle V_{i,j}={\alpha _{i}}^{j-1}$.

Au final, dans le S4D,

$\mathbf{\overline{K}} = \begin{bmatrix} \mathbf{\overline{B}}_0 \mathbf{C}_0 & \dots & \mathbf{\overline{B}}_{N-1} \mathbf{C}_{N-1} \end{bmatrix} \begin{bmatrix} 1 & \mathbf{\overline{A}}_0 & \mathbf{\overline{A}}_0^2 & \dots & \mathbf{\overline{A}}_0^{L-1} \\ 1 & \mathbf{\overline{A}}_1 & \mathbf{\overline{A}}_1^2 & \dots & \mathbf{\overline{A}}_1^{L-1} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & \mathbf{\overline{A}}_{N-1} & \mathbf{\overline{A}}_{N-1}^2 & \dots & \mathbf{\overline{A}}_{N-1}^{L-1} \\ \end{bmatrix} \qquad \text{où } \mathcal{V}_L(\mathbf{\overline{A}})_{n, \ell} = \mathbf{\overline{A}}_n^\ell$.
Le tout est calculable en $O(N+L)$ opérations et espace.

La paramétrisation des différentes matrices est la suivante :

$\mathbf{A} = -\exp(\Re(\mathbf{A})) + i \cdot \Im(\mathbf{A})$.
Les auteurs indiquent qu’il est possible de remplacer l’exponentielle par n’importe quelle fonction positive.
$\mathbf{B} = 1$ puis est entraîné
$\mathbf{C}$ aléatoire avec un écart-type de 1 puis entraîné.

Notons que le S4 prend en compte des réels alors que S4D des complexes en paramétrant avec une taille d’état de $N/2$ et en ajoutant implicitement les paires conjuguées aux paramètres. On a alors l’équivalent de $N$ paramètres réels assurant que la sortie est réelle.

Concernant l’initialisation, les auteurs en introduisent deux :
• S4D-Inv qui est une approximation de S4-LegS : $\quad \mathbf{A}_n = -\frac{1}{2} + i \frac{N}{\pi} \left( \frac{N}{2n+1}-1 \right)$
• S4D-Lin qui est une approximation de S4-FouT : $\quad \mathbf{A}_n = -\frac{1}{2}\mathbf{1} + i \pi n$

Nous invitons le lecteur à consulter la partie 4 du papier pour plus de détails concernant ces équations.
D’un point de vue interprétabilité, la partie réelle de $\mathbf{A}_n$ contrôle le taux de décroissance des poids. La partie imaginaire de $\mathbf{A}_n$ contrôle quant à elle les fréquences d’oscillations de la fonction de base $K_n(t) = e^{t\mathbf{A}}\mathbf{B}$.

Enfin les auteurs avancent quelques résultats :
1) Calculer le modèle avec une softmax au lieu de Vandermonde ne fait pas de grande différence 2) Entraîner B donne toujours de meilleurs résultats.
3) Il n’existe pas de différences notables entres les deux discrétisations possibles.
4) Restreindre la partie réelle de A conduit à de meilleurs résultats (pas de façon significative néanmoins)
5) Toutes les modifications testées pour l’initialisation ont dégradé les résultats. A savoir appliquer un coefficient sur la partie imaginaire ou utiliser une partie imaginaire aléatoire / utiliser une partie réelle aléatoire / utiliser une partie imaginaire et une partie réelle aléatoire.

Cette méthode étant très facile à implémenter par rapport aux autres (Vandermade se limitant à deux lignes de code), le S4D a remplacé le S4 dans les usages (on peut d’ailleurs observer des abus de langage où dans la table 6 du papier du Mamba par exemple, les auteurs utilisent le terme S4 pour désigner le S4D).

Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.
Le 1er décembre 2022, GUPTA et al. présentent une suite au DSS avec Simplifying and Understanding State Space Models with Diagonal Linear RNNs qui introduit le DLR. Ils se débarrassent de l’étape de discrétisation et proposent un modèle basé sur des RNN linéaires diagonaux (DLR) pouvant opérer sur environ 1 million de positions (contrairement aux RNN classiques). Le code de ce modèle est disponible sur GitHub.

Le GSS : Gated State Space

Cinq jours après le S4D, le 27 juin 2022, MEHTA, GUPTA et al. introduisent le GSS dans leur papier Long Range Language Modeling via Gated State Spaces.
Dans ce travail, ils se concentrent sur la modélisation de séquences autorégressives (là où les travaux précédents sur les SSM se concentraient particulièrement sur les tâches de classification de séquences) à partir de livres en anglais, de code source Github et d’articles de mathématiques ArXiv. Ils montrent que leur couche appelée Gated State Space (GSS) s’entraîne significativement plus vite que le DSS (2 à 3 fois plus vite). Ils attestent également que l’exploitation de l’auto-attention pour modéliser les dépendances locales améliore encore les performances du GSS.


Figure 9 : Comparaison du DSS vs GSS. Les modèles sont entraînés sur des séquences de longueurs 4K puis évalués sur des séquences pouvant aller jusqu’à 65K tokens.

Partant du constat que les SSM (S4/DSS) s’entraînent plus lentement que prévu sur TPU, les auteurs ont modifié l’architecture afin de réduire la dimensionnalité d’opérations spécifiques qui se sont révélées être des goulots d’étranglement. Ces modifications s’inspirent d’une observation empirique bien étayée concernant l’efficacité des unités de gating (Language Modeling with Gated Convolutional Networks de DAUPHIN et al. (2016), GLU Variants Improve Transformer de SHAZEER (2020), etc.). Plus précisément, les auteurs s’inspirent du papier Transformer Quality in Linear Time de HUA et al. (2022). Ces derniers ont montré qu’avec leur modèle FLASH, le remplacement de la couche feed-forward dans le Transformer par des unités de gating permet d’utiliser une attention unitête plus faible avec une perte de qualité minimale. Ils ont appelé cette composante la Gated Attention Unit (GAU).


Figure 10 : La Gated Attention Unit. Ce n’est pas exactement la même figure que celle du papier : j’ai effectué une translation horizontale afin d’avoir l’entrée en bas et non en haut pour faciliter le parallèle avec la figure du Mega visible plus bas.

Les auteurs du GSS ont donc étendu l’utilisation des gating units aux SSM et observent alors une réduction de la dimensionnalité lors de l’exécution d’opérations FFT.


Figure 11 : Adaptation de la GAU aux SSM.

A noter que contrairement à HUA et al., les auteurs n’observent pas beaucoup d’avantages à utiliser les activations RELU² ou Swish au lieu de la GELU d’où sa conservation.
De plus, le DSS utilise un pas de temps $∆$ fixé à 1 (les auteurs observant que cela permet de réduire le temps de calcul nécessaire à la création des noyaux et de simplifier leur calcul).
Un point particulièrement intéressant est que contrairement aux observations réalisées dans le S4 et le DSS, la performance du modèle sur les tâches de modélisation du langage s’est retrouvée beaucoup moins sensible à l’initialisation permettant alors d’entraîner le modèle avec succès en initialisant les variables de l’espace d’état de manière aléatoire. Cela constitue un résultat très important puisqu’il montre que ni la matrice HiPPO (S4), ni l’initialisation HiPPO (DSS) ne sont nécessaires.

Concernant l’hybride GSS-Transformer, il consiste simplement à intercaler avec parcimonie des blocs Transformer traditionnels avec des couches GSS. Le modèle hybride obtient une perplexité plus faible que le modèle purement SSM :


Figure 12 : Performances du modèle hybride GSS-Transformer.

Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.

Mega

Le 21 septembre 2022, MA, ZHOU et al., ont publié le Mega: Moving Average Equipped Gated Attention.
Le Mega est un transformer avec un mécanisme d’attention à une seule tête, utilisant le système de portes du GAU, et est équipé d’une moyenne mobile exponentielle (EMA) amortie pour incorporer le biais inductif positionnel.


Figure 13 : Vue d’ensemble du Mega, figure conçue à partir de ma compréhension du papier. Les auteurs remplacent la RELU² du GAU par une fonction de Laplace qui est plus stable (cf. la figure 4 dans le papier).

Les auteurs proposent aussi une variante, Mega-chunk, qui divise efficacement l’ensemble de la séquence en plusieurs morceaux de longueur fixe. Ils reprennent ici le principe déjà présent et expliqué dans le modèle FLASH (cf. la figure 4 du papier de ce modèle). Cela offre une complexité linéaire en termes de temps et d’espace avec une perte de qualité minimale.


Figure 14 : Le Mega chunk

Cela offre une complexité linéaire appliquant simplement l’attention localement à chaque morceau de longueur fixe.
Plus précisément, on divise les séquences de requêtes, de clés et de valeurs en morceaux de longueur $c$. Par exemple, $\mathbf{Q} = {\mathbf{Q}_1, ... , \mathbf{Q}_k}$, où $k = -\frac{n}{c}$ est le nombre de morceaux. L’opération d’attention est appliquée individuellement à chaque bloc, ce qui donne une complexité linéaire $\mathcal{O}(kc^2) = \mathcal{O}(nc)$ par rapport à $n$.
Cette méthode souffre néanmoins d’une limitation critique, à savoir la perte d’informations contextuelles provenant d’autres blocs. Mais la sous-couche EMA atténue ce problème en capturant les informations contextuelles locales à proximité de chaque token dont les résultats sont utilisés comme entrées dans la sous-couche d’attention. Ainsi, le contexte effectif exploité par l’attention au niveau du bloc peut aller au-delà de la limite du bloc.

Le Mega est extrêmement compétitif puisqu’il devient alors le meilleur modèle sur le LRA :


Figure 15 : Les résultats du Mega sur le benchmark LRA

Que fait donc un transformer dans un article de blog sur les SSM ? Intéressons-nous à l’EMA amortie pour comprendre le lien entre le Mega et le S4D.

• Rappel sur l’EMA « classique » :
L’équation d’une EMA « classique » est $𝐲_t = 𝜶 ⊙ 𝐱_t + (1−𝜶) ⊙ 𝐲_{t−1}$ avec $𝜶$ in $[0,1]^d$ le coefficient de l’EMA représentant le degré de diminution de la pondération et ⊙ le produit matriciel de Hadamard.
Un 𝜶 plus élevé décote plus rapidement les observations les plus anciennes.
On impose donc ici un biais inductif : le poids de la dépendance entre deux tokens diminue de manière exponentielle au fil du temps avec un facteur 𝜶 agnostique à l’entrée. Cette propriété favorise les dépendances locales et limite les dépendances à long terme.
Le calcul de l’EMA peut être représenté comme n convolutions individuelles pouvant être calculées efficacement par FFT.

• EMA utilisée dans le Mega :
Le Mega utilise une EMA « amortie » multidimensionnelle. C’est-à-dire que dans l’équation de l’EMA « amortie », $𝐲_t = 𝜶 ⊙ 𝐱_t + (1−𝜶 ⊙ 𝜹) ⊙ 𝐲_{t−1}$ où un paramètre $𝜹$ in $[0,1]^d$ est introduit qui représente le facteur d’amortissement, $x$ est étendue à $h$ dimensions via une matrice d’expansion $𝜷$ in $R^{d \times h}$.
L’équation devient alors $𝐲_{t,j} = 𝜼_j^{\intercal} 𝐡_t^{(j)}$ avec $𝐡_t^{(j)} = 𝜶_j ⊙ 𝐮_t^{(j)}+ (1−𝜶_j ⊙ 𝜹_j) ⊙ 𝐡_{t−1}^{(j)}$ et $𝜼 \in R^{d \times h}$ est la matrice de projection qui renvoie l’état caché en $h$ dimension à la sortie unidimensionnelle $𝐲_{t,j} \in \mathbb{R}$.

Preuve que l’ EMA « amortie » multidimensionnelle peut être calculée comme une convolution et donc par FTT (en fixant $d = 1$ pour $𝜶$ et $𝜹$) :
On a $𝐲_t = 𝜼^{\intercal} 𝐡_t$ avec $𝐡_t = 𝜶_j ⊙ 𝐮_t + (1−𝜶 ⊙ 𝜹) ⊙ 𝐡_{t−1}$. Notons $ϕ = 1−𝜶 ⊙ 𝜹$.
Alors : $𝐡_t = 𝜶 ⊙ 𝐮_t + (1−𝜶 ⊙ 𝜹) ⊙ 𝐡_{t−1} = 𝜶 ⊙ 𝜷 𝐱_t + ϕ ⊙ 𝐡_{t−1}$
et $𝐲_t = 𝜼^{\intercal} 𝐡_t = 𝜼^{\intercal} (𝜶 ⊙ 𝜷 𝐱_t + ϕ ⊙ 𝐡_{t−1})$
Ensuite, en déroulant les deux équations ci-dessus, on obtient explicitement :
Etape 0 : $𝐡_1 = 𝜶 ⊙ 𝜷𝐱_1 + ϕ ⊙ 𝐡_0$
Etape 1 : $𝐡_2 = 𝜶 ⊙ 𝜷𝐱_2 + ϕ ⊙ 𝐡_1$ $= 𝜶 ⊙ 𝜷 𝐱_2 + ϕ ⊙ (ϕ ⊙ 𝐡_0 + 𝜶 ⊙ 𝜷 𝐱_1) = 𝜶 ⊙ 𝜷 𝐱_2 + ϕ^2 ⊙ 𝐡_0 + ϕ ⊙ 𝜶 ⊙ 𝜷 𝐱_1$
…

Et de même :
Etape 0 : $𝐲_1 = 𝜼^{\intercal} 𝜶 ⊙ 𝜷 𝐱_1 + ϕ ⊙𝐡0) = 𝜼^{\intercal} 𝜶 ⊙ 𝜷 𝐱_1 + 𝜼^{\intercal} ϕ ⊙ 𝐡_0$
Etape 1 : $𝐲_2 = 𝜼^{\intercal} 𝜶 ⊙ 𝜷 𝐱_2 + 𝜼^{\intercal} ϕ ⊙ 𝐡_1$ $= 𝜼^{\intercal} 𝜶 ⊙ 𝜷 𝐱_2 + 𝜼^{\intercal} ϕ ⊙ (𝜶 ⊙ 𝜷 𝐱_1 + ϕ ⊙ 𝐡_0) = 𝜼^{\intercal} 𝜶 ⊙ 𝜷 𝐱_2 + 𝜼^{\intercal} ϕ ⊙ 𝜶 ⊙ 𝜷 𝐱_1 + 𝜼^{\intercal} ϕ^2 ⊙ 𝐡_0$
…
Etape $t$ : $𝐲_t = 𝜼^{\intercal} 𝜶 ⊙ 𝜷 𝐱_t + … + 𝜼^{\intercal} ϕ_{t−1} ⊙ 𝜶 ⊙ 𝜷 𝐱_{t−1} + 𝜼^{\intercal} ϕ^t ⊙ 𝐡_0$.

Et donc $𝐲 = \mathbf{K} * 𝐱 + 𝜼^{\intercal} ϕ^t ⊙ 𝐡_0$ avec $𝒦 = (𝜼^{\intercal} (𝜶 ⊙ 𝜷), 𝜼^{\intercal} (ϕ ⊙ 𝜶 ⊙ 𝜷), …, 𝜼^{\intercal}(ϕ^t ⊙ 𝜶 ⊙ 𝜷) \in \mathbb{R}^n$.
$\mathbf{K}$ est calculé dans le Mega via le produit de Vandermonde, ce qui nous rappelle la méthode utilisée dans le S4D.

Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.
Le modèle est également disponible sur Transformers.
Pour plus de détails sur les liens entre le Mega et le S4, le lecteur est invité à consulter les messages échangés entre Albert GU et les auteurs du Mega trouvables en commentaires de la soumission du Mega sur Open Review. En résumé, en établissant un lien entre l’étape de discrétisation des SSM et l’EMA amortie, il est possible de voir le Mega vue comme un hybride SSM/Attention simplifiant le S4 pour qu’il soit à valeur réelle plutôt que complexe.

Liquid-S4 : Liquid Structural State-Space Models

Le 26 septembre 2022, HASANI, LECHNER et al. mettent en ligne Liquid Structural State-Space Models introduisant le Liquid-S4. Dans ce papier, les auteurs utilisent la formulation des SSM structurels (S4) pour obtenir des instances de réseaux liquides linéaires possédant les capacités d’approximation du S4 et des LTC (liquid time-constant).
Les réseaux neuronaux LTC sont des réseaux neuronaux causaux à temps continu dotés d’un module de transition d’état dépendant des entrées, leur permettant d’apprendre à s’adapter aux entrées lors de l’inférence. Il est possible de voir cela comme une sorte de mécanisme de sélection.
Pour en savoir plus sur les réseaux liquides, vous pouvez consulter un papier précédent par les mêmes auteurs : Liquid Time-constant Networks (2021).
Dans le cadre du Liquid-S4, il faut simplement savoir que l’état d’un LTC à chaque pas de temps est donné par : \begin{equation} \frac{d\textbf{x}(t)}{dt} = - \underbrace{\Big[\mathbf{A} + \mathbf{B} \odot f(\textbf{x}(t),\textbf{u}(t), t, \theta)\Big]}_\text{Liquid time-constant} \odot \textbf{x}(t) + \mathbf{B} \odot f(\textbf{x}(t), \textbf{u}(t), t, \theta). \end{equation} Avec :

$\textbf{x}^{(N \times 1)}(t)$ est le vecteur de l’état caché de taille $N$,
$\textbf{u}^{(m \times 1)}(t)$ est un signal d’entrée avec $m$ caractéristiques,
$\mathbf{A}^{(N \times 1)}$ est un mécanisme de transition d’état constant dans le temps,
$\mathbf{B}^{(N \times 1)}$ est un vecteur de biais
$\odot$ représente le produit d’Hadamard
$f(.)$ est une non-linéarité bornée paramétrée par $\theta$.

En pratique, un SSM utilisant un réseau liquide se formule via le système d’équations différentielles suivant :

\[\begin{aligned} x' &= (\mathbf{A} + \mathbf{B} u) x + \mathbf{B}u\\ y &= \mathbf{C}x \end{aligned}\]

Ce système dynamique peut être résolu efficacement via la même paramétrisation que le S4, en donnant lieu à un noyau convolutif supplémentaire qui prend en compte les similitudes des signaux décalés. Le modèle obtenu est le Liquid-S4. Explicitons ceci avec un peu de maths.

La vue récurrente du Liquid-S4 est obtenue en discrétisant le système avec la règle des trapèzes (forme bilinéaire). On obtient alors : \begin{align} x_k = \big( \overline{\textbf{A}} + \overline{\textbf{B}}~u_k\big)~x_{k-1} + \overline{\textbf{B}}~u_k,~~~~~~y_k = \overline{\textbf{C}}~x_k \end{align}

Comme pour le S4, la vue convolutive est obtenue en déroulant la vue récurrente dans le temps (en supposant $x_{-1} = 0$) :


Figure 16 : La partie en violet ne s’affichant pas sur mon blog, je dois passer par une image :/

Vous pouvez voir deux couleurs dans les formules. Elles correspondent à deux types de configurations de poids :

En noir, les poids des entrées temporelles individuelles indépendantes, i.e le noyau convolutif du S4.
En violet, les poids associés à tous les ordres d’auto-corrélation du signal d’entrée. Il s’agit d’un noyau de corrélation d’entrée supplémentaire, appelé noyau liquide par les auteurs.

Finalement le noyau de convolution s’exprime de la façon suivante : $\overline{\textbf{K}}_{\text{liquid}} \in \mathbb{R}^{\tilde{L}} := \mathcal{K}_L(\overline{\textbf{C}},\overline{\textbf{A}},\overline{\textbf{B}}) := \big(\overline{\textbf{C}}\overline{\textbf{A}}^{(\tilde{L}-i-p)}\overline{\textbf{B}}^p\big)_{i \in [\tilde{L}],~ p \in [\mathcal{P}]} = \big( \overline{\textbf{C}}\overline{\textbf{A}}^{\tilde{L}-2}\overline{\textbf{B}}^2, \dots, \overline{\textbf{C}}\overline{\textbf{B}}^p \big)$

Les auteurs montrent ensuite que ceci est calculable efficacement via un processus semblable à ce qui a été appliqué dans le S4 (HiPPO, Woodbury, Transformée de Fourier inverse, etc.). Nous invitons le lecteur à consulter l’algorithme 1 dans le papier pour plus de détails.

Testée sur le LRA, cette approche apparaît comme la meilleure. Seul Mega, publié sept jours plus tôt et donc non présent dans le papier, fait mieux :


Figure 17 : Les résultats du Liquid-S4 sur le benchmark LRA

HASANI, LECHNER et al. appliquent leur modèle également sur les jeux de données Speech Commands, sCIFAR et BIDMC Vital Signs de PIMENTEL et al., et y établissent le nouvel état de l’art.

Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.
Les échanges sur Open Review.
L’implémentation officielle des LTC sur GitHub.

Le S5 : Simplified State Space Layers for Sequence Modeling

Chronologiquement, le Simplified State Space Layers for Sequence Modeling de SMITH, WARRINGTON et LINDERMAN introduisant le modèle S5 a été dévoilé le 9 août 2022, donc avant le Mega et le Liquid-S5. Cependant j’aborde ce papier après ces derniers car le 6 octobre 2022, les auteurs du S5 ont procédé à une actualisation de leur publication améliorant leur modèle de plus de 5 points sur le LRA par rapport à la V1. De plus, ils proposent une comparaison portant sur l’ensemble des SSM sortis en 2022. Cela me paraissait plus pertinent d’aborder le S5 à partir de sa V2.

Dans le S5, les auteurs proposent de remplacer la formulation du S4 utilisant une banque de SSM indépendants entrée unique/sortie unique (SISO pour single-input, single-output) par un SSM à entrée multiple/sortie multiple (MIMO pour multi-input, multi-output) qui a une dimension latente réduite.


Figure 18 : Le comportement interne du S4 vs celui du S5

La dimension latente réduite du système MIMO permet l’utilisation de l’algorithme parallel scan qui simplifie les calculs nécessaires pour appliquer la couche S5 en tant que transformation séquence à séquence. Le modèle résultant perd ainsi la vue convolutive du SSM pour se focaliser uniquement sur la vue récurrente (obtenue par discrétisation ZOH). Le parti pris des auteurs est donc d’opérer sur le domaine temporel plutôt que celui fréquentiel. Ils utilisent une approximation diagonale de la matrice HiPPO leur permettant d’avoir une initialisation et une paramétrisation efficaces adaptées à leur système MIMO.


Figure 19 : Comparaison complète du fonctionnement du S4 vs celui du S5

L’utilisation du parallel scan étant un composant repris dans d’autres SSM par la suite (le Mamba notamment), détaillons un peu son fonctionnent dans le cadre du S5 afin de se familiariser avec cet algorithme dès cet article. Pour cela le plus simple est de reprendre l’exemple donné dans l’appendix H du papier où les auteurs l’appliquent sur une séquence de longeur $L = 4$.

Pour calculer un parallel scan deux choses sont nécessaires :

Les éléments initiaux sur lesquels l’analyse va opérer.
Nous définissons les éléments initiaux d’une séquence de longueur $L$ comme, $c_{1:L}$, de sorte que chaque élément $c_k$ soit le tuple $c_k = (c_{k,a}, c_{k,b}) := (\overline{\mathbf{A}},\enspace \overline{\mathbf{B}}u_k)$. Dans le cas de $L = 4$, nous avons donc $(\overline{\mathbf{A}},\enspace \overline{\mathbf{B}}u_1), (\overline{\mathbf{A}},\enspace \overline{\mathbf{B}}u_2),(\overline{\mathbf{A}},\enspace \overline{\mathbf{B}}u_3)$ et $(\overline{\mathbf{A}},\enspace \overline{\mathbf{B}}u_4)$.
Un opérateur associatif binaire $\bullet$ utilisé pour combiner les éléments. Mathématiquement, un opérateur associatif binaire étant $I \bullet J \bullet K = (I \bullet J)\bullet K = I \bullet (J \bullet J)$.

Si nous devions procéder de manière séquentielle avec le scan, en posant $s_0:=(\mathbf{I},0)$, nous devrions effectuer 4 calculs pour obtenir les 4 sorties $s_i$ :
$s_1 = s_0 \bullet c_1 = (\mathbf{I},\enspace 0) \bullet (\overline{\mathbf{A}},\enspace \overline{\mathbf{B}}u_1) = (\overline{\mathbf{A}}\mathbf{I},\enspace \overline{\mathbf{A}}0+\overline{\mathbf{B}}u_1) = (\overline{\mathbf{A}},\enspace \overline{\mathbf{B}}u_1)$
$s_2 = s_1 \bullet c_2 =(\overline{\mathbf{A}},\enspace \overline{\mathbf{B}}u_1) \bullet (\overline{\mathbf{A}},\enspace \overline{\mathbf{B}}u_2) = (\overline{\mathbf{A}}^2,\enspace \overline{\mathbf{A}}\overline{\mathbf{B}}u_1 + \overline{\mathbf{B}}u_2 )$
$s_3 = s_2 \bullet c_3 = (\overline{\mathbf{A}}^2,\enspace \overline{\mathbf{A}}\overline{\mathbf{B}}u_1 + \overline{\mathbf{B}}u_2 ) \bullet (\overline{\mathbf{A}},\enspace \overline{\mathbf{B}}u_3) = (\overline{\mathbf{A}}^3,\enspace \overline{\mathbf{A}}^2\overline{\mathbf{B}}u_1 + \overline{\mathbf{A}}\overline{\mathbf{B}}u_2 + \overline{\mathbf{B}}u_3)$
$s_4 = s_3 \bullet c_4 = (\overline{\mathbf{A}}^3,\enspace \overline{\mathbf{A}}^2\overline{\mathbf{B}}u_1 + \overline{\mathbf{A}}\overline{\mathbf{B}}u_2 + \overline{\mathbf{B}}u_3) \bullet (\overline{\mathbf{A}},\enspace \overline{\mathbf{B}}u_4)\\ = (\overline{\mathbf{A}}^4, \enspace \overline{\mathbf{A}}^3\overline{\mathbf{B}}u_1 + \overline{\mathbf{A}}^2\overline{\mathbf{B}}u_2 + \overline{\mathbf{A}}\overline{\mathbf{B}}u_3 + \overline{\mathbf{B}}u_4).$

Pour obtenir les états $x_i$, nous devrions alors prendre le deuxième élément de chaque tuple $s_i$.

Procéder de manière séquentielle n’est pas la plus efficace puisqu’il est possible de paralléliser le calcul d’une récurrence avec le parallel scan. Ci-dessous une illustration de son fonctionnement dans le cadre de notre séquence de taille $L$ = 4 :


Figure 20 : Fonctionnement du parallel scan dans le cadre du S5

A nouveau, pour obtenir les états $x_i$, nous devrions alors prendre le deuxième élément de chaque tuple $s_i$.
Vous remarquerez ici qu’il est possible de calculer $s_2$ et $i_4$ en parallèle, puis $s_1$, $s_3$ et $s_4$ en parallèle. On passe alors de 4 calculs séquentiels à seulement 2. La complexité du parallel scan étant en $O(log(L))$.


Figure 21 : Fonctionnement du parallel scan d’une manière générale. Inspiré de l’animation de Scott Linderman.

Concernant les performances du S5, celui-ci se classe deuxième sur le LRA :


Figure 22 : Les résultats du S5 sur le benchmark LRA

Notons qu’en plus du LRA, les auteurs du S5 comparent leur modèle sur le Speech Commands, le pendulum regression dataset ainsi que sMNIST, psMNIST et sCIFAR. L’ensemble des résultats est disponible dans l’Appendix du papier qui contient également une étude d’ablation.
Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.
Les échanges sur Open Review.

SGConv

Le 17 octobre 2022, What Makes Convolutional Models Great on Long Sequence Modeling? LI, CAI et al. indiquent trouver le S4 trop complexe car il nécessite un paramétrage et des schémas d’initialisation sophistiqués (= HiPPO). Et par conséquent qu’il est moins intuitif et difficile à utiliser pour les personnes ayant des connaissances préalables limitées. Ainsi leur objectif est de démystifier le S4 en se focalisant sur la vue convolutive de ce dernier. Ils identifient deux principes critiques dont bénéficie S4 et qui sont suffisants pour constituer un modèle convolutif global performant :
1) La paramétrisation du noyau convolutif doit être efficace dans le sens où le nombre de paramètres doit augmenter de façon sous-linéaire avec la longueur de la séquence.
2) Le noyau doit avoir une structure décroissante selon laquelle les poids pour la convolution avec les voisins les plus proches sont plus importants que ceux des voisins les plus éloignés.


Figure 23 : Respecter les deux principes critiques énoncés par les auteurs revient à avoir des noyaux de convolution ressemblant à ceux visibles sur la figure.

Sur la base de ces deux principes, ils proposent un modèle convolutif efficace appelé Convolution globale structurée (SGConv).


Figure 24 : Le SGConv construit les noyaux de convolution comme la concaténation de sinusoïdes successivement plus longues mais de norme plus faible. L’avantage de cette forme est qu’elle permet une convolution très rapide dans le domaine des fréquences.

Les auteurs du SGConv indiquent qu’ils obtiennent de meilleurs résultats que le S4 sur plusieurs tâches (textes, audios, images). Nous ne les détaillerons pas toutes. Intéressons-nous seulement au LRA :


Figure 25 : Résultats du SGConv sur le LRA.

En effet, en regardant ce tableau, on peut effectivement constater que le SGConv fait mieux que les deux versions du S4. Néanmoins, il est curieux que les auteurs n’intègrent pas le Mega, le Liquid-S4 ou encore le S5 dans leur comparaison qui pourtant obtiennent de meilleurs résultats en utilisant un noyau de convolution qui est une somme de fonctions exponentielles décroissantes.
De plus, alors que tous les modèles s’étant évaluer sur le LRA traitent les données comme des séquences 1D, le SGConv intègre implicitement un biais inductif 2D pour les tâches d’image, y compris PathX ce qui est questionnable.

Au final, le SGConv semble donc avoir des performances similaires aux variantes de SSM les plus récentes mais en perdant la vue récurrente du S4.
Ce papier apparaît néanmoins comme le premier se focalisant uniquement sur la vue convolutive d’un SSM.
Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.
Les échanges sur Open Review.

Autres modèles

Deux autres papiers « théoriques » ont été publié en 2022. Le Pretraining Without Attention de WANG et al. qui présente le BiGS et le Hungry Hungry Hippos: Towards Language Modeling with State Space Models de FU, DAO et al. introduisant le H3.
Du fait de leur publication tardive (respectivement les 20 et 28 décembre 2022) et de leur communication effectuée en 2023 après les V2 de chacun de ces papiers, je traiterais ces modèles dans le prochain article de la série sur les SSM.

Applications des SSM

SaShiMi

Dans It’s Raw! Audio Generation with State-Space Models paru le 20 février 2022, GOEL, GU et al. appliquent le S4 à de la génération d’audio de manière causale.
Contrairement aux méthodes reposant sur le conditionnement à partir de textes, de spectrogrammes, etc., il s’agit d’une méthode opérant directement sur le signal d’entré permettant de se comparer notamment au WaveNet de OORD et al. (2016).
SaShiMi peut s’entraîner directement sur des séquences de plus de 100K (8s audio) sur un seul GPU V100, comparé aux limitations de longueur de contexte auxquelles font face des modèles comme WaveNet. Il utilise efficacement ce long contexte pour améliorer l’estimation de la densité.
Les auteurs ont comparé leur modèle sur divers benchmarks portant notamment sur de la génération de musique de piano ou encore de la parole (énonciation de chiffres).
Il est possible de consulter les audios générés ici.


Figure 26 : Vue d’ensemble de l’architecture de Sashimi

Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.

ViS4mer

ISLAM et BERTASIUS introduisent le 4 avril 2022 le ViS4mer dans leur Long Movie Clip Classification with State-Space Video Models.
Il s’agit d’un hybride entre un S4 et un Transformer afin de réaliser de la classification de (longues) vidéos. Plus précisément, le modèle utilise un encodeur Transformer standard pour l’extraction des caractéristiques spatiotemporelles à courte distance, et un décodeur S4 temporel multi-échelle pour le raisonnement temporel à longue distance. Le modèle alors obtenu apparaît comme étant 2,6 fois plus rapide et 8 fois plus efficace en termes de mémoire qu’un Transformer.
Il s’agit à ma connaissance du premier papier à avoir mis en avant l’intérêt d’hybrider des SSM et des Transformers.


Figure 27 : Vue d’ensemble du décodeur du ViS4mer

ViS4mer obtient des résultats de pointe dans 6 des 9 tâches de classification de vidéos de longue durée sur le benchmark Long Video Understanding (LVU) de WU et KRÄHENBÜHL (2021) qui consiste à classer des vidéos ayant une durée de 1 à 3 min. Le modèle semble également avoir de bonnes capacités de généralisation en obtenant des résultats compétitifs sur les jeux de données Breakfast et COIN procedural activity alors qu’il a vu 275 fois moins de données.
Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.

CCNN

Le 7 juin 2022, ROMERO, KNIGGE et al. introduisent le CCNN dans leur papier Towards a General Purpose CNN for Long Range Dependencies in ND.
Ils partent de l’idée que les réseaux de neurones convolutifs sont puissants mais doivent être adaptés spécifiquement à chaque tâche :
• Longueur de l’entrée : 32x32, 1024x1024 → Comment modéliser les dépendances à longue distance ?
• Résolution de l’entrée : 8kHz, 16kHz → Dépendances à longue distance, agnosticité de la résolution ?
• Dimensionnalité de l’entrée : 1D, 2D, 3D → Comment définir les noyaux convolutifs ?
• Tâche : Classification, Segmentation, … → Comment définir les stratégies d’échantillonnage haut-bas ?
Est-il alors possible de concevoir une architecture unique, avec laquelle les tâches peuvent être résolues indépendamment de la dimensionnalité, de la résolution et de la longueur de l’entrée, sans modification de l’architecture ? Oui et ceci grâce au CCNN qui utilise des noyaux de convolution continus.

ROMERO, KNIGGE et al. s’inspirent notamment du S4 pour créer une variante de blocs résiduels efficaces qu’ils appellent bloc S4. Toutefois, contrairement au S4 qui ne fonctionne qu’avec des signaux 1D, le CCNN modélise facilement des signaux ND.


Figure 28 : Vue d’ensemble du CCNN

Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.
Les diapositives d’une présentation du papier est disponible ici

$\mathbf{SSSD^{S4}}$

Le 19 août 2022, LOPEZ ALCARAZ et STRODTHOFF proposent dans leur papier Diffusion-based Time Series Imputation and Forecasting with Structured State Space Models un hybride entre un S4 et un modèle de diffusion pour la prédiction de données manquantes dans des séries temporelles. Leur modèle est dénommé $\mathbf{SSSD^{S4}}$ (ou plus simplement SSSD).


Figure 29 : Vue d’ensemble du $\mathbf{SSSD^{S4}}$

Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.

S4ND

Le 12 octobre 2022, NGUYEN, GOEL, GU et al. présentent le S4ND: Modeling Images and Videos as Multidimensional Signals Using State Spaces.

Ce modèle étend le S4 (qui est 1D) aux signaux continus multidimensionnels tels que les images et les vidéos (là où les ConvNets et ViT apprennent sur des pixels discrets). Pour cela ils transforment l’ODE standard du S4 en une EDP multidimensionnelle :

\[\begin{aligned} x'(t) &= \mathbf{A}x(t) + \mathbf{B}u(t) \\ y(t) &= \mathbf{C}x(t) \end{aligned}\]

devient :

\[\begin{aligned} \frac{\partial}{\partial t^{(1)}} x(t^{(1)}, t^{(2)}) &= (\mathbf{A}^{(1)} x^{(1)}(t^{(1)}, t^{(2)}), x^{(2)}(t^{(1)}, t^{(2)})) + \mathbf{B}^{(1)} u(t^{(1)}, t^{(2)}) \\ \frac{\partial}{\partial t^{(2)}} x(t^{(1)}, t^{(2)}) &= (x^{(1)}(t^{(1)}, t^{(2)}), \mathbf{A}^{(2)} x^{(2)}(t^{(1)}, t^{(2)})) + \mathbf{B}^{(2)} u(t^{(1)}, t^{(2)}) \\ y(t^{(1)}, t^{(2)}) &= \langle \mathbf{C}, x(t^{(1)}, t^{(2)}) \rangle \end{aligned}\]

avec $\mathbf{A}^{(\tau)} \in \mathbb{C}^{N^{(\tau)} \times N^{(\tau)}} $, $ \mathbf{B}^{(\tau)} \in \mathbb{C}^{N^{(\tau)} \times 1} $, $ \mathbf{C} \in \mathbb{C}^{N^{(1)} \times N^{(2)}}$, avec comme condition initiale de l’EDP linéaire $x(0, 0) = 0$.

En fonction du jeu de données testé, les auteurs obtiennent des résultats similaires ou plus performants que ceux d’un ViT ou un ConvNext.
L’intérêt principal du S4ND étant qu’il peut fonctionner avec différentes résolutions via différents taux d’échantillonnage. Les auteurs mettent en avant cette caractéristique à travers deux expériences :
1) En zéro-shot, S4ND surpasse un Conv2D de plus de 40 points lorsqu’il est entraîné sur des images $8\times8$ et testé sur des images $32\times32$.
2) Avec un redimensionnement progressif, S4ND peut accélérer l’entraînement de 22% avec une baisse de la précision finale de ∼1% par rapport à l’entraînement à la seule haute résolution.


Figure 30 : Exemple du S4ND pour des images 2D

Pour aller plus loin
L’implémentation officielle est disponible sur GitHub.
Une information complètement inutile mais amusante : les auteurs ont appelé leur fichier TeX Darude S4NDstorm.

Conclusion

Nous avons donc fait une revue des différents modèles de SSM parus en 2022. Il s’agit d’une année où les travaux se sont principalement portés sur une amélioration/simplification du S4 via diverses approches (diagonalisation, gating, LTC, etc.). Lors de cette année 2022, nous avons également pu voir les premières applications des SSM.
Avec le SGConv et le S5, nous pouvons aussi apercevoir les prémices d’un phénomène qui, comme nous le verrons dans l’article suivant, s’accentuera en 2023. A savoir l’émergence de travaux se focalisant uniquement sur la vue convolutive des SSM (par exemple le Hyena et ses dérivés) ou se focalisant uniquement sur la vue récurrente des SSM (par exemple le Mamba).

Références

Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers d’Albert GU, Isys JOHNSON, Karan GOEL, Khaled SAAB, Tri DAO, Atri RUDRA, Christopher RÉ (2021)
Efficiently Modeling Long Sequences with Structured State Spaces d’Albert GU, Karan GOEL, et Christopher RÉ (2021)
HiPPO: Recurrent Memory with Optimal Polynomial Projections d’Albert GU, Tri DAO, Stefano ERMON, Atri RUDRA, Christopher RÉ (2020)
How to Train Your HiPPO d’Albert GU, Isys JOHNSON, Aman TIMALSINA, Atri RUDRA, and Christopher RÉ (2022)
Long Range Arena: A Benchmark for Efficient Transformers de Yi TAY, Mostafa DEHGHANI, Samira ABNAR, Yikang SHEN, Dara BAHRI, Philip PHAM, Jinfeng RAO, Liu YANG, Sebastian RUDER et Donald METZLER (2020)
Diagonal State Spaces are as Effective as Structured State Spaces de Ankit GUPTA, Albert GU et Jonathan BERANT (2022)
Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition de Pete WARDEN (2018)
Simplifying and Understanding State Space Models with Diagonal Linear RNNs de Ankit GUPTA, Harsh MEHTA et Jonathan BERANT (2022)
On the Parameterization and Initialization of Diagonal State Space Models d’Albert GU, Ankit GUPTA, Karan GOEL, Christopher RÉ
Long Range Language Modeling via Gated State Spaces d’Harsh MEHTA, Ankit GUPTA, Ashok CUTKOSKY et Behnam NEYSHABUR (2022)
Language Modeling with Gated Convolutional Networks de Yann N. DAUPHIN, Angela FAN, Michael AULI et David GRANGIER (2016)
GLU Variants Improve Transformer de Noam SHAZEER (2020)
Transformer Quality in Linear Time de Weizhe HUA, Zihang DAI, Hanxiao LIU et Quoc V. LE (2022)
Mega: Moving Average Equipped Gated Attention de Xuezhe MA, Chunting ZHOU, Xiang KONG, Junxian HE, Liangke GUI, Graham NEUBIG, Jonathan MAY et Luke ZETTLEMOYER (2022)
Liquid Structural State-Space Models de Ramin HASANI, Mathias LECHNER, Tsun-Hsuan WANG, Makram CHACHINE, Alexander AMINI et Daniela RUS (2022)
Liquid Time-constant Networks de Ramin HASANI, Mathias LECHNER, Alexander AMINI, Daniela RUS et Radu GROSU (2021)
Simplified State Space Layers for Sequence Modeling de Jimmy T.H. SMITH, Andrew WARRINGTON et Scott W. LINDERMAN (2022)
Toward a Robust Estimation of Respiratory Rate From Pulse Oximeters de Marco A. F. PIMENTEL, Alistair E. W. JOHNSON, Peter H. CHARLTON, Drew BIRRENKOTT, Peter J. WATKINSON, Lionel TARASSENKO et David A. CLIFTON (2017)
What Makes Convolutional Models Great on Long Sequence Modeling? de Yuhong LI, Tianle CAI, Yi ZHANG, Deming CHEN et Debadeepta DEY (2022)
Pretraining Without Attention de Junxiong WANG, Jing Nathan YAN, Albert GU et Alexander M. RUSH (2022)
Hungry Hungry Hippos: Towards Language Modeling with State Space Models de Daniel Y. FU, Tri DAO, Khaled K. SAAB, Armin W. THOMAS, Atri RUDRA et Christopher RÉ (2022)
It’s Raw! Audio Generation with State-Space Models de Karan GOEL, Albert GU, Chris DONAHUE, Christopher RÉ (2022)
WaveNet: A Generative Model for Raw Audio de Aaron van den OORD, Sander DIELEMAN, Heiga ZEN, Karen SIMONYAN, Oriol VINYALS, Alex GRAVES, Nal KALCHBRENNER, Andrew SENIOR et Koray KAVUKCCUOGLU
Long Movie Clip Classification with State-Space Video Models de Md Mohaiminul ISLAM, Gedas BERTASIUS (2022)
Long Video Understanding de Chao-Yuan WU et Philipp KRÄHENBÜHL (2021)
Towards a General Purpose CNN for Long Range Dependencies in ND de David W. ROMERO, David M. KNIGGE, Albert GU, Erik J. BEKKERS, Efstratios GAVVES, Jakub M. TOMCZAK, Mark HOOGENDOORN (2022)
Diffusion-based Time Series Imputation and Forecasting with Structured State Space Models de Juan Miguel LOPEZ ALCARAZ, Nils STRODTHOFF (2022)
S4ND: Modeling Images and Videos as Multidimensional Signals Using State Spaces de Eric NGUYEN, Karan GOEL, Albert GU, Gordon W. DOWNS, Preey SHAH, Tri DAO, Stephen A. BACCUS, Christopher RÉ (2022)

Citation

@inproceedings{ssm_in_2022_blog_post,
author = {Loïck BOURDOIS},
title = {Évolution des State Space Models (SSM) en 2022},
year = {2023},
url = {https://lbourdois.github.io/blog/ssm/ssm_en_2022}
}

INTRODUCTION AUX STATE SPACE MODELS (SSM) ET AU S4

2023-12-09T00:00:00+00:00

An English version is available on Hugging Face.

Avant-Propos

Je tiens à remercier chaleureusement Boris ALBAR, Pierre BEDU et Nicolas PREVOT d’avoir accepté de monter un groupe de travail sur le sujet des SSM et de m’avoir ainsi accompagné dans la découverte de ce type de modèle. Un remerciement supplémentaire au premier pour avoir pris le temps de relire cet article de blog.

Introduction

Les States Spaces Models (ou Modèles en Espace d’Etat en français) sont utilisés traditionnellement en théorie du contrôle afin de modéliser un système dynamique via des variables d’état.

Dans le cadre de l’apprentissage profond, lorsque l’on parle de SSM, on ne se réfère en réalité qu’à un sous-ensemble des représentations existantes, à savoir les systèmes linéaires invariants (ou stationnaires).
Ces modèles ont montré des performances impressionnantes dès octobre 2021 avec l’article « Efficiently Modeling Long Sequences with Structured State Spaces » d’Albert GU et al., au point de se positionner comme une alternative aux transformers.
Dans cet article, nous allons définir les bases d’un SSM en apprentissage profond en nous appuyant sur le S4. A l’image du papier « Attention is all you need » d’Ashish VASWANI et al. (2017) pour les transformers, le S4 est le fondement d’un nouveau type d’architecture de réseau de neurones qui se doit d’être connu, mais ce n’est pas un modèle qui est utilisé tel quel en pratique (d’autres SSM plus performants ou plus faciles à implémenter étant maintenant disponibles). Sorti une semaine plus tôt que le S4, le LSSL, par les mêmes auteurs, est également une source importante d’informations sur le sujet. Nous verrons les différentes évolutions qui découlent du S4 dans un prochain article de blog. Plongeons nous auparavant dans les bases des SSM.

Définition d’un SSM en apprentissage profond

Utilisons l’image ci-dessous afin de définir un SSM :


Figure 1 : Vue d’un SSM continu et invariant dans le temps (Source : https://en.wikipedia.org/wiki/State-space_representation)

On peut observer qu’un SSM repose sur trois variables dépendant du temps $t$ :

$x(t) \in \mathbb {C}^{n}$ représente les $n$ variables d’état,
$u(t) \in \mathbb {C}^{m}$ représente les $m$ entrées d’état,
$y(t) \in \mathbb {C}^{p}$ représente les $p$ sorties,

On peut aussi observer qu’il est composé de quatre matrices pouvant être apprises : $\mathbf A, \mathbf B, \mathbf C$ et $\mathbf D$.

$\mathbf A \in \mathbb {C}^{m \times n}$ est la matrice d’état (contrôlant l’état lattent $x$),
$\mathbf B \in \mathbb {C}^{n \times m}$ est la matrice de contrôle,
$\mathbf C \in \mathbb {C}^{p \times n}$ est la matrice de sortie,
$\mathbf D \in \mathbb {C}^{p \times m}$ est la matrice de commande,

Il est possible de ramener l’image ci-dessus au système d’équations suivant :

\[\begin{aligned} x'(t) &= \mathbf{A}x(t) + \mathbf{B}u(t) \\ y(t) &= \mathbf{C}x(t) + \mathbf{D}u(t) \end{aligned}\]

Note : nous utilisons ici la notation $x'$ pour désigner la dérivée de $x$. Il n’est pas exclu de rencontrer à la place la notation $ẋ$ dans la littérature.

De même, puisqu’il est implicite que les variables dépendent du temps, l’équation précédente est généralement écrite sous la forme suivante par souci d’allègement :

\[\begin{aligned} x' &= \mathbf{A}x + \mathbf{B}u \\ y &= \mathbf{C}x + \mathbf{D}u \end{aligned}\]

Ce système peut s’alléger même davantage, car dans les SSM en apprentissage profond, $\mathbf{D}u = 0$ est vue comme une skip connexion facilement calculable.

\[\begin{aligned} x' &= \mathbf{A}x + \mathbf{B}u \\ y &= \mathbf{C}x \end{aligned}\]

Ce système est continu. Il doit donc d’abord être discrétisé afin de pouvoir être fourni à un ordinateur.

Discrétisation

La discrétisation est l’un, voire le point le plus important dans les SSM. Toute l’efficacité de cette architecture réside dans cette étape puisqu’elle permet de passer de la vue continue du SSM à ses deux autres vues : la vue récursive et la vue convolutive.
S’il n’y a qu’une chose à retenir de cet article, c’est bien celle-ci.


Figure 2 : Image provenant de l’article de blog « Structured State Spaces: Combining Continuous-Time, Recurrent, and Convolutional Models » d’Albert GU et al. (2022)

Nous verrons dans les prochains articles qu’il existe plusieurs discrétisations possibles. Ce point forme l’une des différences principales entre les diverses architectures de SSM existantes.
Pour ce premier article, appliquons la discrétisation « originale » proposée dans le S4 afin d’illustrer les deux vues supplémentaires d’un SSM.

Vue récursive d’un SSM

Pour discrétiser le cas continu, utilisons la méthode des trapèzes où le principe est d’assimiler la région sous la courbe représentative d’une fonction $f$ définie sur un segment $[t_n , t_{n+1}]$ à un trapèze et d’en calculer l’aire $T$ : $T=(t_{n+1} - t_n){\frac {f(t_n)+f(t_{n+1})}{2}}$.

On a alors : $x_{n+1} - x_n = \frac{1}{2}\Delta(f(t_n) + f(t_{n+1}))$ avec $\Delta = t_{n+1} - t_n$.
Si $x'_n = \mathbf{A}x_n + \mathbf{B} u_n$ (première ligne de l’équation d’un SSM), correspond à $f$, alors :

\[\begin{align} x_{n+1} & = x_n + \frac{\Delta}{2} (\mathbf{A}x_n + \mathbf{B} u_n + \mathbf{A}x_{n+1} + \mathbf{B} u_{n+1}) \\ \Longleftrightarrow x_{n+1} - \frac{\Delta}{2}\mathbf{A}x_{n+1} & = x_n + \frac{\Delta}{2}\mathbf{A}x_{n} + \frac{\Delta}{2}\mathbf{B}(u_{n+1} + u_n) \\ (*) \Longleftrightarrow (\mathbf{I} - \frac{\Delta}{2} \mathbf{A}) x_{n+1} & = (\mathbf{I} + \frac{\Delta}{2} \mathbf{A}) x_{n} + \Delta \mathbf{B} u_{n+1}\\ \Longleftrightarrow x_{n+1} & = (\mathbf{I} - \frac{\Delta}{2} \mathbf{A})^{-1} (\mathbf{I} + \frac{\Delta}{2} \mathbf{A}) x_n + (\mathbf{I} - \frac{\Delta}{2} \mathbf{A})^{-1} \Delta \mathbf{B} u_{n+1} \end{align}\]

(*) $u_{n+1} \overset{\Delta}{\simeq} u_n$ (le vecteur de contrôle est supposé constant sur un petit $\Delta$).

Nous venons d’obtenir notre SSM discrétisé !
Pour que cela soit complètement explicite, posons :

\[\begin{aligned} \mathbf{\bar{A}} &= (\mathbf {I} - \frac{\Delta}{2} \mathbf{A})^{-1}(\mathbf {I} + \frac{\Delta}{2} \mathbf{A}) \\ \mathbf {\bar{B}} &= (\mathbf{I} - \frac{\Delta}{2} \mathbf {A})^{-1} \Delta \mathbf{B} \\ \mathbf {\bar{C}} &= \mathbf{C}\\ \end{aligned}\]

On a alors

\[\begin{aligned} x_k &= \mathbf{\bar{A}}x_{k-1} + \mathbf{\bar{B}}u_k \\ y_k &= \mathbf{\bar{C}}x_k \end{aligned}\]

La notation des matrices avec une barre a été introduite dans le S4 pour désigner les matrices dans le cas discret et est devenue depuis une convention dans le domaine des SSM appliqués à l’apprentissage profond.

Vue convolutive d’un SSM

Cette récurrence peut s’écrire sous la forme d’une convolution. Pour cela, il suffit d’itérer les équations du système

\[\begin{aligned} x_k &= \mathbf{\bar{A}}x_{k-1} + \mathbf{\bar{B}}u_k \\ y_k &= \mathbf{\bar{C}}x_k \end{aligned}\]

Commençons par la première ligne du système :
Etape 0 : $x_0 = \mathbf{\bar{B}} u_0$
Etape 1 : $x_1 = \mathbf{\bar{A}}x_{0} + \mathbf{\bar{B}}u_1 = \mathbf{\bar{A}} \mathbf{\bar{B}} u_0 + \mathbf{\bar{B}}u_1$
Etape 2 : $x_2 = \mathbf{\bar{A}}x_{1} + \mathbf{\bar{B}}u_2 = \mathbf{\bar{A}} (\mathbf{\bar{A}} \mathbf{\bar{B}} u_0 + \mathbf{\bar{B}}u_1) + \mathbf{\bar{B}}u_2 = \mathbf{\bar{A}}^{2} \mathbf{\bar{B}} u_0 + \mathbf{\bar{A}} \mathbf{\bar{B}} u_1 + \mathbf{\bar{B}}u_2$
Nous avons $x_k$ qui peut s’écrire sous la forme d’une fonction $f$ paramétrée par $u_0, u_1, … u_k$.

Passons ensuite à la seconde ligne du système où il est à présent possible d’injecter les valeurs $x_k$ calculées à l’instant :
Etape 0 : $y_0 = \mathbf{\bar{C}} x_0 = \mathbf{\bar{C}} \mathbf{\bar{B}} u_0$
Etape 1 : $y_1 = \mathbf{\bar{C}} x_1 = \mathbf{\bar{C}} ( \mathbf{\bar{A}} \mathbf{\bar{B}} u_0 + \mathbf{\bar{B}}u_1) = \mathbf{\bar{C}} \mathbf{\bar{A}} \mathbf{\bar{B}} u_0 + \mathbf{\bar{C}} \mathbf{\bar{B}}u_1$
Etape 2 : $y_2 = \mathbf{\bar{C}} x_2 = \mathbf{\bar{C}}(\mathbf{\bar{A}}^{2} \mathbf{\bar{B}} u_0 + \mathbf{\bar{A}} \mathbf{\bar{B}} u_1 + \mathbf{\bar{B}}u_2 ) = \mathbf{\bar{C}}\mathbf{\bar{A}}^{2} \mathbf{\bar{B}} u_0 + \mathbf{\bar{C}}\mathbf{\bar{A}} \mathbf{\bar{B}} u_1 + \mathbf{\bar{C}}\mathbf{\bar{B}}u_2$
On peut observer le noyau de convolution $\mathbf{\bar{K}} _k = (\mathbf{\bar{C}} \mathbf{\bar{B}}, \mathbf{\bar{C}} \mathbf{\bar{A}} \mathbf{\bar{B}}, …, \mathbf{\bar{C}} \mathbf{\bar{A}}^{k} \mathbf{\bar{B}})$ applicable aux $u_k$, d’où $K \ast u$.

Comme pour les matrices, nous appliquons une barre sur le $\mathbf{\bar{K}}$ pour spécifier qu’il s’agit du noyau de convolution obtenu après discrétisation. Il est généralement appelé noyau de convolution SSM dans la littérature et sa taille est équivalente à l’entièreté de la séquence d’entrée.
Ce noyau de convolution est calculé par Transformation de Fourier Rapide (FFT) et sera explicité dans les prochains articles (vous aimez la Flash Attention des transformers ? Vous adorerez la Flash FFT Convolution que nous verrons dans le troisième article de blog).

Avantages et limites de chacune des trois vues


Figure 3 : Image provenant du papier « Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers » d’Albert GU et al., sorti à une semaine d’intervalle du S4

Les vues différentes du SSM ont chacunes des avantages et des inconvénients, détaillons-les.

Pour la vue continue, les avantages et inconvénients sont les suivants :
✓ Gère automatiquement les données continues (signaux audio, séries temporelles, par exemple). Cela représente énorme avantage pratique pour traiter des données à échantillonnage irrégulier ou décalé dans le temps.
✓ Analyse mathématiquement réalisable, par exemple en calculant des trajectoires exactes ou en construisant des systèmes de mémorisation (HiPPO).
✗ Extrêmement lent à la fois pour la formation et l’inférence.

Pour la vue récursive, il s’agit ici des avantages et inconvénients bien connus des réseaux de neurones récurrents (voir l’article qui leur est consacré sur le blog) à savoir :
✓ Un biais inductif naturel pour les données séquentielles, et en principe un contexte non borné.
✓ Une inférence efficace (mises à jour d’état en temps constant).
✗ Un apprentissage lent (manque de parallélisme).
✗ Une disparition ou explosion du gradient lors de l’entraînement de séquence trop longues.

Pour la vue convolutive, il s’agit ici des avantages et inconvénients bien connus des réseaux de neurones convolutifs (nous sommes ici dans le cadre de leur version unidimensionnelle), à savoir :
✓ Caractéristiques locales et interprétables.
✓ Entraînement efficace (parallélisable).
✗ Lenteur dans les contextes en ligne ou autorégressifs (doit recalculer l’ensemble de l’entrée pour chaque nouveau point de données).
✗ Taille de contexte fixe.

Ainsi, en fonction de l’étape du processus (entraînement ou inférence) ou du type de données à notre disposition, il est possible de passer d’une vue à une autre afin de retomber sur un cadre favorable permettant de tirer le meilleur parti du modèle.
Nous priviliègierons la vue convolutive pour l’entraînement pour un entraînement rapide via la parallélisation, la vue récursive pour une inférence efficace, et la vue continue pour traiter des données continues.

Apprentissage des matrices

Dans le noyau de convolution développé plus haut, $\mathbf{\bar{C}}$ et $\mathbf{\bar{B}}$, sont des scalaires apprenables.
Concernant $\mathbf{\bar{A}}$, nous avons vu que dans notre noyau de convolution, elle s’exprime comme une puissance de $k$ au temps $k$. Cela peut être très long à calculer c’est pourquoi, on cherche à avoir $\mathbf{\bar{A}}$ fixe. Pour cela, la meilleure option est de l’avoir diagonale :

\[\mathbf{A} = \begin{bmatrix} \lambda_{1} & 0 & \cdots & 0 \\ 0 & \lambda_{2} & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_{n} \end{bmatrix} \Rightarrow \mathbf{A^k} = \begin{bmatrix} \lambda_{1}^k & 0 & \cdots & 0 \\ 0 & \lambda_{2}^k & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \lambda_{n}^k \end{bmatrix}\]

Par le théorème spectral de l’algèbre linéaire, il s’agit exactement de la classe des matrices normales.
En plus du choix de la discrétisation citée ci-dessus, la manière de définir et initier $\mathbf{\bar{A}}$ est l’un des points qui différencient les diverses architectures de SSM développées dans la littérature que nous développerons dans le prochain article de blog. En effet, empiriquement, il apparait qu’un SSM initialisé avec une matrice $\mathbf{A}$ aléatoire conduit à de mauvais résultats alors qu’une initialisation effectuée à partir de la matrice $HiPPO$ (pour High-Order Polynomial Projection Operator) donne des résultats très bons (passage de de 60% à 98% sur le benchmark MNIST sequential).

La matrice $HiPPO$ a été introduite par les auteurs du S4 dans un précédent papier (2020). Elle est reprise dans le papier LSSL (2021), aussi par les auteurs du S4, ainsi que dans l’appendix du S4. Sa formule est la suivante :

\[\mathbf{A} = \begin{bmatrix} 1 \\ -1 & 2 \\ 1 & -3 & 3 \\ -1 & 3 & -5 & 4 \\ 1 & -3 & 5 & -7 & 5 \\ -1 & 3 & -5 & 7 & -9 & 6 \\ 1 & -3 & 5 & -7 & 9 & -11 & 7 \\ -1 & 3 & -5 & 7 & -9 & 11 & -13 & 8 \\ \vdots & & & & & & & & \ddots \\ \end{bmatrix} \\ \Rightarrow \mathbf{A}_{nk} = \begin{cases}% (-1)^{n-k} (2k+1) & n > k \\ k+1 & n=k \\ 0 & nCette matrice n’est pas normale mais elle peut être décomposée sous la forme d’une matrice normale plus une matrice de rang inférieur (résumé dans le papier par NPLR pour Normal Plus Low Rank). Les auteurs prouvent dans leur papier que ce type de matrice peut être calculé efficacement via trois techniques (voir l’algorithme 1 dans le papier) : série génératrice tronquée, noyaux de Cauchy et identité de Woodbury.

Les détails de la démonstration montrant qu’une matrice NPLR peut être calculée efficacement comme une matrice diagonale peuvent être consultés dans l’appendix (voir la partie B et C) du papier.
Les auteurs du S4 ont par la suite apporté des modifications à la matrice $HiPPO$ (sur la manière de l’initier) dans leur papier « How to Train Your HiPPO » (2022). Le modèle résultant de ce papier est généralement appelé « S4 V2 » ou « S4 updated » dans la littérature à opposer au « S4 original » ou « S4 V1 ».
Nous verrons dans le prochain article, que d’autres auteurs (notamment Ankit GUPTA) ont proposé d’utiliser une matrice diagonale au lieu d’une matrice NPRL, approche qui est à présent privilégiée car plus simple à implémenter.

Résultats des expérimentations

Terminons cet article de blog en analysant une sélection des résultats du S4 sur diverses tâches et benchmarks afin de nous rendre compte du potentiel des SSM.

Commençons avec une tâche d’audio et le benchmark Speech Commands de WARDEN (2018).


Figure 4 : Image provenant du papier « On the Parameterization and Initialization of Diagonal State Space Models » d’Albert GU et al. (2022), aussi connu sous le nom de S4D parru après le S4 mais qui reprend sous une forme plus structurée les résultats du S4 pour ce benchmark (les résultats du S4D ayant été supprimés de l’image pour ne pas spoiler le prochain article ;)

On peut observer plusieurs choses sur ce tableau.
Premièrement qu’à nombre de paramètres plus ou moins équivalent, le S4 fait beaucoup mieux (au moins + 13%) que les autres modèles, ici de type ConvNet.
Deuxièmement, pour obtenir des performances équivalentes, un ConvNet nécessite 85 fois plus de paramètres.
Troisièmement, un ConvNet entraîné sur du 16K Hz donne de très mauvais résultats quand il est ensuite appliqué sur des données 8K Hz. A contrario, le S4 conserve 95% de sa performance sur ce ré-échantillonage. Cela s’explique par la vue continue du SSM où il a suffit de diviser par deux la valeur de $\Delta$ au moment de la phase de test.

Continuons avec une tâche de séries temporelles (introduite dans une révision du S4).


Figure 5 : Image provenant de l’appendix du S4

Les auteurs du papier reprennent la méthodologie du modèle « Informer » de ZHOU et al. (2020) et montrent que leur modèle surpasse ce transformer sur 40 des 50 configurations. Les résultats du tableau sont montrés dans un cadre univarié mais la même chose est observable pour un cadre multivarié (table 14 dans l’appendix).

Poursuivons avec une tâche de vision et le benchmark sCIFAR-10 de KRIZHESKY (2009).


Figure 6 : Image provenant de l’appendix du S4

Le S4 établit le SoTA sur sCIFAR-10 avec seulement 100 000 paramètres (les auteurs ne précisant pas leur nombre pour les autres méthodes).

Concluons avec une tâche textuelle et le benchmark Long Range Arena (LRA) de TAY et al. (2020).


Figure 7 : Image provenant de l’appendix du S4

Le LRA est composé de 6 tâches dont Path-X d’une longueur de 16K tokens pour laquelle le S4 est le premier modèle à la réussir démontrant ses performances sur des tâches de très longues séquences.
Il faudra plus de 2 ans pour qu’AMOS et al. montre dans leur papier « Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors » (2023) que les transformers (non hybridés avec un SSM) peuvent aussi résoudre cette tâche. Ils n’arrivent cependant pas à passer le PathX-256 d’une longueur de 65K tokens contrairement aux SSM.

A noter néanmoins un point négatif concernant le texte pour le S4 : il obtient une perplexité plus élevée par rapport à celle d’un transformer (standard, des versions plus optimisées ayant une perplexité encore plus faible) sur WikiText-103 de MERITY et al. (2016).


Figure 8 : Image provenant de l’appendix du S4

Cela s’explique probablement par la nature non continue du texte (il n’a pas été échantillonné à partir d’un processus physique sous-jacent comme la parole ou les séries temporelles). Nous verrons dans l’article consacré aux évolutions des SSM en 2023 que ce point a fait l’objet de beaucoup de travaux et que les SSM ont aujourd’hui réussi à combler cet écart.

Conclusion

Les SSM sont des modèles possédant trois vues. Une vue continue, et lorsque nous la discrétisons, une vue récurrente ainsi que convolutive.
Tout l’enjeu de ce type d’architecture consiste à savoir quand privilégier une vue plutôt qu’une autre en fonction de l’étape du processus (entraînement ou inférence) et du type de données traitées.
Ce type de modèle est très versatile puisqu’il est applicable pour les tâches de texte, de vision, d’audio, de séries temporelles (ou encore aux graphes).
Un de ses atouts est d’être capable de gérer de très longues séquences pour généralement un nombre de paramètres inférieurs aux autres modèles (ConvNet ou transformers) tout en étant très rapide.
Nous verrons dans les prochains articles que les principales différences entre les diverses architectures de SSM existantes viennent principalement de la façon de discrétiser l’équation de base des SSM ou encore de définir la matrice $\mathbf A$.

Pour aller plus loin

Concernant le S4, vous pouvez consulter les ressources suivantes (toutes en anglais) :

Vidéos :
- Efficiently Modeling Long Sequences with Structured State Spaces - Albert Gu - Stanford MLSys #46 par Albert GU
- MedAI #41: Efficiently Modeling Long Sequences with Structured State Spaces par Albert GU (un peu plus longue car montre plus d’exemples traités)
- JAX Talk: Generating Extremely Long Sequences with S4 par Sasha RUSH + les slides utilisées dans la vidéo
Codes :
- The Annotated S4 (en Jax) par Sasha RUSH et Sidd KARAMCHETI
- Le GitHub de l’implémentation officielle du S4 (en PyTorch)
Articles de blog :
- Les articles sur le S4 issus du blog Hazy Research qui est le groupe de recherche de Stanford où Albert GU a fait son doctorat ; partie 1, partie 2 et partie 3.
Papier :
- Le prédécesseur du S4 est le Legendre Memory Units: Continuous-Time Representation in Recurrent Neural Networks (LMU) de VOELKER et al. (2019)

Concernant la matrice $HiPPO$, vous pouvez consulter les ressources suivantes (toutes en anglais) :

L’article du blog Hazy Research consacré au sujet
Le papier How to Train Your HiPPO: State Space Models with Generalized Orthogonal Basis Projections d’Albert GU et al. (2022)

Concernant les SSM, vous pouvez regarder :

le cours (en français) sur les systèmes dynamiques d’Ion HAZYUK, Maitre de Conferences à l’INSA de Toulouse (la partie les modèles en espace d’état débutent à partie de la section 5.2)
la thèse de doctorat (en anglais) d’Albert GU

Références

Learning Multiple Layers of Features from Tiny Images d’Alex KRIZHESKY (2009)
Pointer Sentinel Mixture Models de Stephen MERITY, Caiming XIONG, James BRADBURY, Richard SOCHER (2016)
Attention is all you need de Ashish VASWANI, Noam SHAZEER, Niki PARMAR, Jakob USZKOREIT, Llion JONES, Aidan N. GOMEZ, Lukasz KAISER, Illia POLOSUKHIN (2017)
Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition de Pete WARDEN (2018)
Long Range Arena: A Benchmark for Efficient Transformers de Yi TAY, Mostafa DEHGHANI, Samira ABNAR, Yikang SHEN, Dara BAHRI, Philip PHAM, Jinfeng RAO, Liu YANG, Sebastian RUDER, Donald METZLER (2020)
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting d’Haoyi ZHOU, Shanghang ZHANG, Jieqi peng, Shuai ZHANG, Jianxin LI, Hui XIONG, Wancai ZHANG (2020)
HiPPO: Recurrent Memory with Optimal Polynomial Projections d’Albert GU, Tri DAO, Stefano ERMON, Atri RUDRA, Christopher RÉ (2020)
Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers d’Albert GU, Isys JOHNSON, Karan GOEL, Khaled SAAB, Tri DAO, Atri RUDRA, Christopher RÉ (2021)
Efficiently Modeling Long Sequences with Structured State Spaces d’Albert GU, Karan GOEL, et Christopher RÉ (2021)
On the Parameterization and Initialization of Diagonal State Space Models d’Albert GU, Ankit GUPTA, Karan GOEL, Christopher RÉ (2022)
Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors d’Ido AMOS, Jonathan BERANT, Ankit GUPTA (2023)

Citation

@inproceedings{ssm_introduction_blog_post,
author = {Loïck BOURDOIS},
title = {Introduction aux State Space Models (SSM) et au S4},
year = {2023},
url = {https://lbourdois.github.io/blog/ssm/introduction_ssm}
}

JEUX DE DONNÉES AUDIO POUR LE FRANÇAIS

2023-12-01T00:00:00+00:00

Avant-propos

Ci-dessous, vous trouverez plusieurs listes de jeux de données afin de pouvoir entraîner vos modèles d’audio. Seuls ceux ayant un nombre d’heures conséquents sont listés (volume disponible supérieur à la dizaine d’heures). Les « petits » jeux de données non listés sont trouvables sur Ortholang.
A noter que tous les jeux de données n’étant pas forcément du même format audio et textuel, un nettoyage devra être effectué afin d’uniformiser les formats.

Apprentissage autosupervisé

Nom du jeu de données	Heures	Lien pour y accéder	Informations	Licence
VoxpopuliV2	22 800 H	Cliquer-ici	Enregistrements récoltés au Parlement Européen entre 2009 et 2020.	CC0
Librivox	2 158 H	Cliquer-ici	996 livres de grands auteurs français tombés dans le domaine public. Librivox étant un projet en constante évolution, le nombre d’heures disponibles augmentent donc au cours du temps. Le nombre d’heures renseigné ici correspond à un décompte effectué au 26 septembre 2023. Note : le jeu de données M-AILABS French-v0.9 est basé en partie sur Librivox. De même pour Multilingual LibriSpeech (seulement 1 300 H de Librivox dans ce jeu de données).	Domaine public

Ce sont ainsi environ 25 000 heures d’audio qui sont disponibles pour l’apprentissage autosupervisé.

Finetuning

Automatic Speech Recognition (ASR)

Données en libre accès

Nom du jeu de données	Heures	Lien pour y accéder	Informations	Licence
Common Voice	1 113 H	Cliquer-ici	Chiffres indiqués pour la version 16, 981H sur les 1 113 ont été validées	CC-0
Corpus d’Etude pour le Français Contemporain (CEFC)	450 H	Cliquer-ici ou Cliquer-ici	Regroupe 10 corpus sources (CFPP2000, CLAPI, C-ORAL-ROM, CRFP, FLEURON, FRENCH ORAL NARRATIVE, OFROM, TUFS, Valibel). Possibilité de trier ce que l’on souhaite (tv, radio, téléphone, face à face, etc.)	CC-BY 4.0
ESLO	300 H pour ESLO1 400 H pour ESLO2	Cliquer-ici ou Cliquer-ici	ESLO1 contient des entretiens (formels ou informels de type conversation dans une rue) enregistrés entre 1968 et 1974. Les données ne sont pas forcément de bonnes qualités (grésillements). ESLO2 reprend le même principe que ESLO1 mais porte sur des entretiens datant de 2008 à 2020.	CC-BY 4.0
Conférences Pierre Mendès France	300 H	Cliquer-ici	Audios au format MP3 et transcriptions au format XML des conférences du centre de conférences Pierre Mendès France du MEFR (2012-2020).	Open Licence version 2.0
VoxpopuliV2	211 H	Cliquer-ici	Parti annoté du corpus. Enregistrements annotés récoltés au Parlement Européen entre 2009 et 2020.	CC0
TCOF	146 H	Cliquer-ici	Des enregistrements d’interactions adultes-enfants (enfants jusque 7 ans) et des enregistrements d’interactions entre adultes.	CC BY-NC-SA 2.0
PFC	131 H	Cliquer-ici	Le corpus complet contient plus de 50 enquêtes (soit plus de 400 locuteurs). Nous avons ici accès qu’à une sous-partie de ce corpus (16 enquêtes, soit 164 locuteurs) qui a été anonymisée.	CC BY-NC 4.0
SynPaFlex	87 H	Cliquer-ici	Annotation de 87h de corpus de livres-audios.	CC-BY 2.0
MPF	78 H	Cliquer-ici	Ce corpus vise à documenter des évolutions en cours dans le français, l’émergence d’un vernaculaire urbain contemporain, ainsi que les effets sur le français du contact avec les langues de l’immigration. Nécessite un compte (gratuit) sur Ortholang pour télécharger le corpus.	CC-BY 4.0
Lingua Libre	44 H	Cliquer-ici	Prononciation de mots	CC BY-SA 4.0
African Accented French	22 H	Cliquer-ici	Interviews réalisées par l’armée américaine	Apache 2.0
ALIPE	15 H	Cliquer-ici	Ce corpus contient la transcription d’environ 15H de conversations informelles entre enfant et parents.	CC-BY-SA 4.0
Fleurs	13 H	Cliquer-ici	Lecture de phrases issues du jeu de données FLoRes	CC-BY 4.0
SUMM-RE ASRU	12,5 H	Cliquer-ici	Réunions de 3 à 4 personnes transcrites avec Whisper puis corrigée manuellement	CC-BY-SA 4.0
SIWIS	~ 10 H	Cliquer-ici	Au total, 9750 énoncés provenant de sources diverses telles que des débats parlementaires et des romans.	CC-BY 4.0

Ce sont ainsi environ 3 300 heures d’audio qui sont disponibles librement pour l’apprentissage supervisé de la tâche d’ASR.

Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)

Nom du jeu de données	Heures	Lien pour y accéder	Informations	Licence
INA	1200H sont disponibles et 3000H sont indiqués comme “à venir”	Cliquer-ici	Données de l’INA disponibles dans différents sous jeux de données. Pour pouvoir avoir accès aux données il faut remplir un formulaire (cf. le lien). Il est précisé que “seuls sont autorisés à s’inscrire les laboratoires de recherche, les PME innovantes ainsi que toutes autres personnes morales disposant d’un service ou d’une activité de recherche scientifique.”	Licence non précisée mais les CGU sont assez restrictives concernant leur utilisation à des fins non universitaires.
Decoda-RATP	74H	Cliquer-ici	Appels téléphoniques à la RATP enregistrés et annotés (transcription, NER, etc.)	Non précisé, il faut contacter les auteurs
NCCFr	35H	Cliquer-ici	Conversations entre amis annotées par des professionnels	Non précisé, il faut contacter les auteurs

Ce sont ainsi environ 1 300 heures d’audio qui sont disponibles sous condition d’accès aux données pour l’apprentissage supervisé de la tâche d’ASR.

Données payantes

Nom du jeu de données	Heures	Lien pour y accéder	Informations	Licence
ESTER	100 H annotées + 1700 H non annotées	Cliquer-ici	Corpus d’enregistrements d’émissions radiophoniques.	3 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
ESTER 2	~200 H	Cliquer-ici	Inclus les 100H annotées d’ESTER1 + 100 nouvelles heures annotées. Corpus de transcriptions manuelles d’émissions radiophoniques et de transcriptions manuelles rapides de radios africaines.	2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
EPAC	~100 H	Cliquer-ici	100H de transcriptions manuelles réalisées à partir des 1 700 heures d’enregistrements non transcrits du jeu de données ESTER.	2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
MEDIA	70 H	Cliquer-ici	1 258 dialogues transcrits pour 250 locuteurs adultes sur le domaine du tourisme et de la réservation d’hôtel.	2 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.
ETAPE	30 H	Cliquer-ici	Environ 30H de radio et TV françaises incluant de la parole non planifiée et une proportion raisonnable de données multi-locuteurs. Des données transcrites soigneusement en incluant l’annotation des entités nommées.	3 types de licences (avec usage commercial ou non). Cf. le lien pour plus d’informations.

Ce sont ainsi environ 400 heures d’audio qui sont disponibles pour l’apprentissage supervisé et 1300 heures qui sont disponibles pour l’apprentissage autosupervisé en achetant ces corpus.

Audio Classification

Données en libre accès

Nom du jeu de données	Heures	Lien pour y accéder	Qualité / Source	Licence
Voxlingua107	67 H	Cliquer-ici	Audios issues de YouTube	CC-BY 4.0
FLEURS-LangID	13H pour le français et ~1400H au total pour les 102 langues	Cliquer-ici	Identifier à quelle langue appartient un audio parmi une liste de 102 langues	CC BY-NC 4.0
Minds14	1h15	Cliquer-ici	Audios à classer parmi 14 classes différentes	CC BY-NC 4.0

Ce sont ainsi environ 80 heures d’audio qui sont disponibles pour la tâche d’identification d’une langue (en pratique nettement plus si on inclus les jeux de données pour la traduction de la section suivante) et 1h15 pour la classification d’intentions.

Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)

Nom du jeu de données	Heures	Lien pour y accéder	Qualité / Source	Licence
Allosat	~37H	Cliquer-ici	Appels enregistrés à un centre d’appel dont les conversations portent sur des thèmes de type : énergie, agence de voyage, agence immobilière et assurances. Les données ont aussi été retranscrites mais automatiquement à l’aide de Kaldi	Non précisé, il faut contacter les auteurs
Cemo	20H	Cliquer-ici	Appels aux urgences annotées. Il semble également que les données ont aussi été retranscrites d’après la conclusion du papier.	Non précisé, il faut contacter les auteurs
RECOLA	9,5H	Cliquer-ici	Enregistrements audio, visuels et physiologiques (électrocardiogramme et activité électrodermale) d’interactions dyadiques en ligne entre 46 participants francophones, qui résolvaient une tâche en collaboration.	EULA
mGEMEP	0,9H	Cliquer-ici	Données provenant d’acteurs	Non précisé, il faut contacter les auteurs

Ce sont ainsi environ 120 heures d’audio qui sont disponibles sous condition d’accès aux données afin d’entraîner un modèle de classification d’audio de type reconnaissance d’émotions.

Automatic Speech Translation (AST)

Données en libre accès

Nom du jeu de données	Heures	Lien pour y accéder	Qualité / Source	Licence
Europarl-ST (fr->x) et (x->fr)	176H de fr->x et 179H de x->fr soit 355H au total	Cliquer-ici	Corpus multilingue (français, anglais, allemand, italien, espagnol, portugais, polonais, roumain, néerlandais) construits à partir des débats menés au Parlement européen entre 2008 et 2012.	CC BY-NC 4.0
MuST-C (en->fr)	236H	Cliquer-ici	Provient de TEDs en anglais	CC BY-NC-ND 4.0
Covost2 (fr->en)	225H	Cliquer-ici	Données basées sur Common Voice 4.0	CC0
mTEDx (fr->x)	25H à 50H en fonction de la langue cible, 189H au total	Cliquer-ici	Données issues des conférences TED. Les langues disponibles étant le français, l’espagnol, l’allemand, l’italien, le russe, le portugais, le grec, l’arabe et l’anglais	CC BY-NC-ND 4.0

Ce sont ainsi environ 1000 heures d’audio qui sont disponibles afin d’entraîner un modèle de traduction d’audio incluant à partir ou à destination du français.

Références

VoxPopuli: A Large-Scale Multilingual Speech Corpus for Representation Learning, Semi-Supervised Learning and Interpretation de Wang et al. (2021)
Common Voice: A Massively-Multilingual Speech Corpus d’ Ardila et al. (2020)
Le projet ORFÉO : un corpus d’études pour le français contemporain. de Benzitoun et al. (2016).
Discours sur la ville. Corpus de Français Parlé Parisien des années 2000 (CFPP2000) de Branca-Rosoff et al. (2020)
CLAPI, une base de données multimodale pour la parole en interaction : apports et dilemmes de Baldauf-Quilliatre et al. (2016)
The C-ORAL-ROM CORPUS. A Multilingual Resource of Spontaneous Speech for Romance Languages de Cresti et al. (2004)
Corpus de référence du français parlé de Delic et al. (2004)
De l’archive de parole au corpus de référence : la base de données orales du français de Suisse romande d’Avanzi et al. (2016)
Disfluences et vieillissement langagier. De la base de données VALIBEL aux corpus outillés en français parlé de Bolly et al. (2016)
Un grand corpus oral disponible : le Corpus d’Orléans 1968-2012 [A Large available oral corpus: Orleans corpus 1968-2012] d’Eshkol-Taravella et al. (2012)
Traitement de Corpus Oraux en Français d’André et Canut (2010)
Le projet PFC: une source de données primaires structurées de Durand et al. (2009)
SynPaFlex-Corpus: An Expressive French Audiobooks Corpus dedicated to expressive speech synthesis. de Sini et al (2018)
Les parlers jeunes dans l’Île-de-France multiculturelle de Gadet et al. (2017)
ALIPE (Acquisition de la Liaison et Interactions Parents Enfants) de Chabanal et al. (2013)
[Transcribing And Aligning Conversational Speech: A Hybrid Pipeline Applied To French Conversations] de Yamasaki et al. (2023)
The SIWIS French Speech Synthesis Database de Yamagishi et al. (2017)
Enhancing The RATP-DECODA Corpus With Linguistic Annotations For Performing A Large Range Of NLP Tasks de Lailler et al. (2016)
Nijmegen Corpus of Casual French de Torreira et al. (2010)
Multilingual and Cross-Lingual Intent Detection from Spoken Data de Gerz, Su et al. (2021)
FLEURS: Few-shot Learning Evaluation of Universal Representations of Speech de Conneau et al. (2022)
On the use of Self-supervised Pre-trained Acoustic and Linguistic Features for Continuous Speech Emotion Recognition de Macary et al. (2020)
End-to-End Speech Emotion Recognition: Challenges of Real-Life Emergency Call Centers Data Recordings de Deschamps-Berger et al. (2021)
Introducing the RECOLA Multimodal Corpus of Remote Collaborative and Affective Interactions de Ringeval et al. (2013)
Introducing the Geneva Multimodal expression corpus for experimental research on emotion perception de Bänziger et al. (2012)
Europarl-ST: A Multilingual Corpus For Speech Translation Of Parliamentary Debates d’Iranzo-Sánchez et al. (2019)
MuST-C: a Multilingual Speech Translation Corpus de Di Gangi et al. (2019)
CoVoST 2: A Massively Multilingual Speech-to-Text Translation Corpus de Wang, Wu et Pino (2020)
The Multilingual TEDx Corpus for Speech Recognition and Translation de Salesky et al. (2021)
VoxLingua107: a Dataset for Spoken Language Recognition de Valk et Alumäe (2020)

@inproceedings{french_audio_datasets_blog_post,
author = {Loïck BOURDOIS},
title = {Jeux de données audio pour le français},
year = {2023},
url = {https://lbourdois.github.io/blog/audio/dataset_audio_fr}
}

COURS SUR L’APPRENTISSAGE PROFOND (EDITION 2021) DE YANN LE CUN ET ALFREDO CANZIANI

2022-09-07T00:00:00+00:00

Contenu du cours

De mars 2022 à juin 2022, j’ai traduit l’édition 2021 du cours d’Introduction à l’apprentissage profond de Yann Le Cun et Alfredo Canziani dispensé à l’Université de New York. Pour cette édition, seules les nouveautés par rapport à l’édition 2020 ont été traduites.

Il s’agit des vidéos 🎥 des intervenants invités, à savoir :

Ishan Misra présentant l’apprentissage autosupervisé en vision (PIRL, SwAV, SEER, Barlow Twins) : https://www.youtube.com/watch?v=8L10w1KoOU8
Awni Hannun abordant la reconnaissance vocale et les GTNs (CTC, Beam Search, GTN) : https://www.youtube.com/watch?v=Of9s8epjflU
Marc’Aurelio Ranzato exposant la traduction automatique avec peu de données (MAD, FLoRes, adaptation au domaine) : https://www.youtube.com/watch?v=fR42OOy9ROo

L’année précédente, les invités étaient :

Aaron DeFazio parlant d’optimisation : https://www.youtube.com/watch?v=–NZb480zlg
Ishan Misra présentant l’apprentissage autosupervisé en vision (l’édition 2021 étant la continuité de l’édition 2020) : https://www.youtube.com/watch?v=0KeR6i1_56g
Mike Lewis évoquant les transformers : https://www.youtube.com/watch?v=6D4EWKJgNn0
Xavier Bresson traitant les réseaux de neurones convolutifs pour graphes (GCNs) : https://www.youtube.com/watch?v=Iiv9R6BjxHM

⚠Les vidéos sont paramétrées de sorte que les sous-titres en français apparaissent automatiquement pour les personnes situées dans les pays francophones. S’ils n’apparaissent pas, pensez à les activer manuellement dans ⚙ Paramètres → Sous-titres → Français.

Pour le reste du contenu, je vous invite à consulter le site web 🌐 du cours qui a été conçu de façon à répertorier les nouveautés et sinon à renvoyer vers le contenu de l’édition 2020 : https://atcold.github.io/NYU-DLSP21/fr/

Les notebooks Jupyter 📓 restent inchangés et sont toujours disponibles ici : https://github.com/lbourdois/pytorch-Deep-Learning-Notebooks-in-French

Toutes les informations utiles à connaître (choix effectués pour la traduction, temps à consacrer au cours, licence du cours, etc.) sont disponibles dans la FAQ du site, consultable ici https://atcold.github.io/NYU-DLSP21/fr/faq/

En espérant que cela vous plaise et vous soit utile.
Bon visionnage et bonne lecture ! :)

COURS SUR L’APPRENTISSAGE PROFOND (EDITION 2020) DE YANN LE CUN ET ALFREDO CANZIANI

2021-09-05T00:00:00+00:00

Avant-propos

Je n’ai publié aucun nouvel article sur le blog pendant une année car je travaillais sur un projet particulièrement long et chronophage. Ce projet étant arrivé à son terme, il est à présent temps de le présenter. Je tiens à remercier Alfredo Canziani et Yann Le Cun pour leurs retours durant ce projet ainsi que pour leur confiance :)

Contenu du cours

D’août 2020 à août 2021, j’ai traduit l’édition 2020 du cours d’Introduction à l’apprentissage profond de Yann Le Cun et Alfredo Canziani dispensé à l’Université de New York. Ce travail a nécessité environ 600h de travail afin de pouvoir proposer une traduction en français des :

28 vidéos 🎥 de cours (cours magistraux et travaux dirigés) d’une durée totale d’environ 40h,
59 pages du site web 🌐 résumant les vidéos à travers les notes prises par les étudiants pendant le cours,
16 notebooks 📓 utilisés lors des travaux dirigés

Le programme de cette édition 2020 du cours porte sur :

l’histoire de l’apprentissage profond et ses motivations
la descente de gradient et la rétropropagation
les réseaux de neurones convolutifs
les réseaux de neurones récurrents, les LSTMs, les systèmes d’attention et de séquences à séquences
les techniques d’optimisation
les modèles à base d’énergie (EBMs)
les méthodes contrastives et génératives (GANs)
les auto-encodeurs et leurs dérivées (DAEs, VAEs)
l’apprentissage autosupervisé appliqué à la vision par ordinateur
les transformers
les réseaux de neurones pour graphes (GNNs)
et pleins d’autres choses !

Toutes les informations utiles à connaître (choix des traductions, temps à consacrer au cours, licence du cours, etc.) sont disponibles sur cette page.

En espérant que cela vous plaise et vous soit utile.
Bon visionnage et bonne lecture ! :)

L’AUGMENTATION DE DONNEES EN NLP

2020-05-20T00:00:00+00:00

Avant-propos

Cet article est une traduction de l’article de Amit Chaudhary : A Visual Survey of Data Augmentation in NLP. Merci à lui de m’avoir autorisé à effectuer cette traduction. J’ai ajouté des éléments supplémentaires quand j’estimais que cela était pertinent.

Introduction

Contrairement à la vision par ordinateur où l’augmentation de données d’images est une pratique courante, l’augmentation de données textuelles est moins répendue en traitement du langage naturel (NLP). Cela s’explique par le fait que cette pratique est moins essentielle qu’en image car en NLP les données sont disponibles en abondance (les modèles de transformers étant entraînés par exemple sur les millions de pages de Wikipédia, Common Crawl, etc.). Néanmoins, pour certaines tâches il se peut que vous manquiez de données. Voici un exemple simple que j’ai rencontré professionnellement lorsque je travaillais à l’INSERM :
dans le cadre de la conception d’un outil de classification afin de déterminer la nature des traumatismes des patients passant par le service des urgences du centre hospitalier universitaire de Bordeaux nous nous sommes aperçus que pour avoir des résultats fiables, il faut environ 500 exemples d’entraînement par classes. A cela doit s’ajouter les effectifs nécessaires pour l’échantillon test. Un tel nombre ne pose pas de problème par exemple pour les chutes à domicile (le nombre de personnes âgées admises aux urgences pour une chute est monstrueux), les accidents de la route, le sport, etc. Mais pour d’autres classes, il manque (heureusement) des effectifs comme par exemple pour les noyades, les morsures d’animaux, les tentatives de suicides, etc. Même en ayant plus de 7 années d’historique de données. Ainsi pour obtenir des résultats probants, il nous faut augmenter artificiellement les effectifs de certaines classes.
L’objectif de cet article est de donner un aperçu des approches actuelles utilisées pour augmenter les données textuelles.

1. La substitution lexicale

Cette approche consiste à substituer des mots présents dans un texte sans pour autant changer le sens de la phrase.

1.1 Substitution basée sur un thésaurus

Dans cette technique, nous prenons un mot aléatoire de la phrase et le remplaçons par son synonyme à l’aide d’un thésaurus. Par exemple, nous pouvons utiliser la base de données WordNet pour l’anglais afin de rechercher les synonymes et effectuer ensuite le remplacement. Il s’agit d’une base de données gérée manuellement avec des relations entre les mots.

Zhang et al. ont utilisé cette technique dans leur article de 2015 intitulé Character-level Convolutional Networks for Text Classification. Mueller et al. ont utilisé une stratégie similaire pour générer 10 000 exemples d’entraînement supplémentaires pour leur modèle de similarité des phrases.

Pour le français, quatre bases sont disponibles. Elles consistent toutes en une traduction de WordNet :

La partie en français de la base EuroWordNet qui répertorie plusieurs langues européennes. Elle est cependant limitée, n’est pas accessible librement, et commence à dater (1998)
WOLF de Sagot Benoît et Fišer Darja, datant de 2008
JAWS datant de 2010 qui est plus large que WOLF
WoNef datant de 2014 qui est peut être vu comme une extension de JAWS

Il existe aussi une base de données appelée PPDB contenant des millions de paraphrases (en anglais et multilingues) que vous pouvez télécharger et utiliser.

1.2 Substitution basée sur du word embedding

Dans cette approche, nous prenons des enchâssements de mots pré-entrainés tels que Word2Vec, GloVe, FastText, Sent2Vec, et nous utilisons les mots les plus proches de celui que l’on souhaite remplacer dans l’espace des enchâssements. Jiao et al. ont utilisé cette technique avec GloVe dans leur article TinyBert pour améliorer la généralisation de leur modèle linguistique. Wang et al. l’ont utilisée pour augmenter les tweets nécessaires à l’entraînement de leur modèle.

Par exemple, vous pouvez remplacer le mot par les 3 mots les plus similaires et obtenir trois variations du texte.

Pour l’anglais, il est facile d’utiliser des packages comme Gensim pour accéder à des vecteurs de mots pré-entraînés et obtenir les voisins les plus proches. Par exemple, nous trouvons ici les synonymes du mot awesome en utilisant des vecteurs de mots entraînés sur des tweets.

# pip install gensim
import gensim.downloader as api

model = api.load('glove-twitter-25')  
model.most_similar('awesome', topn=5)

Vous aurez alors en sortie les 5 mots les plus similaires ainsi que les similitudes calculées via le cosinus.

[('amazing', 0.9687871932983398),
 ('best', 0.9600659608840942),
 ('fun', 0.9331520795822144),
 ('fantastic', 0.9313924312591553),
 ('perfect', 0.9243415594100952)]

Pour le français, plusieurs choix s’offrent à vous :

Les différents enchâssements de mots mis à disposition par Jean-Philippe Fauconnier (exemple d’implémentation sur sa page)
Ceux de FastText (voir le tableau en bas du lien)

1.3 Substitution basée sur un modèle de langage masqué

Des modèles de transformers tels que BERT (voir partie 2.2 de l’article du blog), ROBERTA et ALBERT (voir partie 1.1 de l’article du blog ont été entraînés sur une grande quantité de texte en utilisant la tâche de prétexte de modélisation du langage masqué où le modèle doit prédire des mots masqués en fonction du contexte.
Cette tâche peut être utilisée pour compléter certains textes. Par exemple, nous pourrions utiliser un modèle BERT pré-entraîné, masquer certaines parties du texte et demander au modèle BERT de prédire le token masqué.

Ainsi, nous pouvons générer des variations d’un texte en utilisant les prédictions du masque. Par rapport aux approches précédentes, le texte généré est plus cohérent d’un point de vue grammatical, car le modèle tient compte du contexte lors des prédictions.

Cette approche est facile à mettre en œuvre avec la librairie open source Transformers d’Hugging Face. Vous pouvez définir le jeton que vous souhaitez remplacer par et générer des prédictions.

from transformers import pipeline
nlp = pipeline('fill-mask')
nlp('This is  cool')

[{'score': 0.515411913394928,
  'sequence': ' This is pretty cool',
  'token': 1256},
 {'score': 0.1166248694062233,
  'sequence': ' This is really cool',
  'token': 269},
 {'score': 0.07387523353099823,
  'sequence': ' This is super cool',
  'token': 2422},
 {'score': 0.04272908344864845,
  'sequence': ' This is kinda cool',
  'token': 24282},
 {'score': 0.034715913236141205,
  'sequence': ' This is very cool',
  'token': 182}]

De même pour le français, vous pouvez utiliser le code suivant :

camembert_fill_mask = pipeline("fill-mask", model="camembert-base", tokenizer="camembert-base")

results = camembert_fill_mask("Le camembert est  :)")

A noter cependant que pour cette méthode le fait de décider quelle partie du texte est à masquer n’est pas triviale. Vous devrez utiliser l’heuristique pour décider du masque, sinon le texte généré pourrait ne pas conserver le sens de la phrase originale.

1.4 Substitution basée sur un TF-IDF

Cette méthode d’augmentation a été proposée par Xie et al. dans le document intitulé Unsupervised Data Augmentation. L’idée de base est que les mots qui ont un score TF-IDF faible ne sont pas informatifs et peuvent donc être remplacés sans affecter le label d’une phrase.

Les mots qui remplacent le mot original sont choisis en calculant les scores TF-IDF des mots sur l’ensemble du document et en prenant les plus bas. Pour l’implémentation, vous pouvez vous référer au code fournit avec la publication, disponible ici.

2. La rétrotraduction

Dans cette approche, nous utilisons la traduction automatique pour paraphraser un texte tout en en retravaillant le sens. Xie et al. ont utilisé cette méthode pour augmenter leur corpus de texte non labellisé et ont entraîné un modèle semi-supervisé sur un jeu de données IMDB avec seulement 20 exemples étiquetés. Leur modèle a surpassé le précédent modèle de pointe entraîné sur 25 000 exemples étiquetés. Le processus de rétro-traduction est le suivant :

Prendre une phrase (par exemple en anglais) et la traduire dans une autre langue, par exemple français
Traduire la phrase en français obtenue précédemment en anglais
Vérifier si la nouvelle phrase est différente de la phrase d’origine. Si c’est le cas, utiliser cette nouvelle phrase comme une version augmentée du texte original

Vous pouvez également effectuer une rétrotraduction en utilisant différentes langues à la fois pour générer plus de variations. Comme illustré ci-dessous, nous traduisons une phrase anglaise vers une langue cible et inversement vers l’anglais pour trois langues cibles : français, mandarin et italien.

Cette technique a été utilisée par le gagnant du « Toxic Comment Classification Challenge » sur Kaggle. Il l’a utilisée pour l’augmentation des données d’entraînement ainsi que pendant le test où les probabilités prédites pour la phrase anglaise ainsi que la rétrotraduction en trois langues (français, allemand, espagnol) ont été calculées pour obtenir la prédiction finale.
Pour la mise en œuvre de la rétrotraduction, vous pouvez utiliser la librairie TextBlob et notamment la fonction Translator. Vous pouvez également utiliser Google Sheets et suivre les instructions données par Amit pour appliquer Google Translate (en anglais). Cette approche est néanmoins manuelle. Pour automatiser la chose, utilisez l’API Googletrans. Attention cependant si vous avez des données sensibles, utilisez des outils à base de Google Translate siginifie que Google les lira.
Une alternative consiste alors à utiliser un modèle de NLP entraîné à réaliser de la traduction. Vous pouvez par exemple utilisez ceux disponibles sur la libraire Hugging Face. Ils sont trouvables en utilisant le filtre «translation» : https://huggingface.co/models?filter=translation.

3. Transformation de la surface du texte

Il s’agit de transformations introduites par Claude Coulombe dans sa publication : Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs.
Dans son article, il donne un exemple de transformation de formes verbales de la contraction à l’expansion et vice versa. Nous pouvons générer des textes augmentés en appliquant cette transformation.

Comme la transformation ne doit pas changer le sens de la phrase, nous pouvons voir que cela peut échouer en cas d’expansion de formes verbales ambiguës comme :

Pour résoudre ce problème, le document propose de permettre des contractions ambiguës mais de sauter les expansions ambiguës.

Vous pouvez trouver une liste des contractions pour la langue anglaise ici. Pour l’expansion, vous pouvez utiliser la librairie contractions en Python.
Cette technique ne semble pas avoir d’intérêt pour la langue française puisque celle-ci ne contient pas de contraction/expansion comme en anglais.

4. Injection aléatoire de bruit

L’idée de ces méthodes est d’injecter du bruit dans le texte afin que le modèle entrainé soit robuste aux perturbations.

4.1 Injection de fautes d’orthographe

Dans cette méthode, nous ajoutons des fautes d’orthographe à un mot aléatoire de la phrase. Ces fautes d’orthographe peuvent être ajoutées par programmation ou à l’aide d’un lexique des fautes d’orthographe courantes, comme cette liste pour l’anglais.

Pour le français, j’ai essayé de trouver une liste comme celle en anglais citée à l’instant, sans succès.

4.2 Injection de fautes de frappe

Cette méthode tente de simuler les erreurs courantes qui se produisent lors de la saisie sur un clavier à disposition QWERTY en raison des touches très proches les unes des autres. Les erreurs sont injectées en fonction de la distance entre les touches du clavier.

Cette approche est bien sur reproductible pour les claviers AZERTY utilisés par les francophones.

4.3 Bruits d’unigramme

Cette méthode a été utilisée par Xie et al. ou encore par Qizhe Xie et al.. L’idée est d’effectuer le remplacement en utilisant des mots échantillonnés à partir de la distribution de fréquence des unigrammes. Cette fréquence est essentiellement le nombre de fois que chaque mot apparaît dans le corpus d’entraînement.

4.4 Bruits parasites

Cette méthode a été proposée par Xie et al. dans leur article. L’idée est de remplacer aléatoirement un mot par un token que l’on aura choisi préalablement. Dans l’article les auteurs utilisent « » comme caractère de remplacement. C’est un moyen d’éviter de trop s’adapter à des contextes spécifiques ainsi qu’un mécanisme de lissage du modèle linguistique. Cette technique a permis d’améliorer la perplexité et les scores BLEU.

4.5 Mélanges de phrases

Il s’agit d’une technique naïve qui consiste à mélanger des phrases présentes dans un texte de d’entraînement afin de créer une version augmentée.

4.6 Insertion aléatoire

Cette technique a été proposée par Wei et al. dans leur article Easy Data Augmentation. Dans cette technique, nous choisissons d’abord un mot aléatoire dans la phrase qui n’est pas un mot d’arrêt. Ensuite, nous trouvons son synonyme et nous l’insérons dans une position aléatoire de la phrase.

4.7 Echange aléatoire

Cette technique a également été proposée par Wei et al. dans leur article Easy Data Augmentation. L’idée est d’échanger de manière aléatoire deux mots quelconques dans la phrase.

4.8 Suppression aléatoire

Cette technique a également été proposée par Wei et al. dans leur article Easy Data Augmentation. Dans ce cas, nous retirons aléatoirement chaque mot de la phrase avec une probabilité p.

5. Augmentation par Crossover

Cette technique a été introduite par Luque dans son article sur l’analyse des sentiments pour la TASS 2019. Elle s’inspire de l’opération de croisement des chromosomes qui se produit en génétique. Dans cette méthode, un tweet est divisé en deux moitiés et deux tweet aléatoires ayant le même label que le tweet divisé voient leurs moitiés échangées (cf. image ci-dessous). L’hypothèse est que, même si le résultat sera peu grammatical et peu solide sur le plan sémantique, le nouveau texte préservera quand même le sentiment.

Les résultats de l’article montrent que cette technique n’a pas eu d’impact sur la précision mais a permis d’améliorer le F1-score, notamment pour les classes minoritaires (Neutral dans l’article).

6. Manipulation de l’arbre syntaxique

Cette technique a été utilisée dans le papier de Coulombe. L’idée est d’analyser et de générer l’arbre des dépendances de la phrase originale, de le transformer à l’aide de règles et de générer une phrase paraphrasée.
Par exemple, une transformation qui ne change pas le sens de la phrase est la transformation de la voix active à la voix passive de la phrase et vice versa.

Dans la même logique on peut passer de singulier au pluriel une phrase et inversement, ou bien encore du masculin au féminin et inversement.

7. Le mélange de texte (MixUp)

Le MixUp est une technique simple mais efficace d’augmentation d’images introduite par Zhang et al. en 2017. L’idée est de combiner deux images aléatoires dans une certaine proportion dans un mini-batch afin de générer des exemples synthétiques pour l’entraînement. Pour les images, cela signifie combiner des pixels d’image de deux classes différentes. Cela agit comme une forme de régularisation pendant l’entraînement.

Guo et al. ont appliqué cette idée au NLP pour travailler avec du texte. Ils proposent deux nouvelles approches pour appliquer Mixup au texte :

7.1 WordMixUp

Dans cette méthode, deux phrases d’un mini-batch sont prises aléatoirement et dimensionnées à la même longueur. Ensuite, les mots qui les composent sont combinés dans une certaine proportion. L’enchâssement de mots qui en résulte est transmis au flux habituel pour la classification du texte. L’entropie croisée est calculée pour les deux labels du texte original dans la proportion donnée.

7.2 SentMixup

Dans cette méthode, on prend deux phrases et on les met à la même longueur. Ensuite, leurs enchâssements de mots sont passés dans un encoder LSTM/ConvNet et nous prenons le dernier état caché comme enchâssement de la phrase. Ces enchâssements sont combinés dans une certaine proportion et sont ensuite transmis à la couche de classification finale. La perte d’entropie croisée est calculée sur la base des deux labels des phrases originales dans la proportion donnée.

8. Méthodes génératives

Kumar et al proposent dans leur article d’utiliser des transformers pré-entrainés afin d’augmenter les données d’entraînement. La formulation du problème est la suivante :

Ajouter le label de la classe à chaque texte de vos données d’entraînement

Finetuner un grand modèle de langue pré-entraîné (BERT/GPT2/BART) sur ces données d’entraînement modifiées. Pour le GPT2, la tâche est la génération tandis que pour BERT, l’objectif est la prédiction du jeton masqué.

En utilisant le modèle de langage finetuné, de nouveaux échantillons peuvent être générés en utilisant le label de la classe et quelques mots initiaux comme « prompt ».

Pour le français, cette méthode est difficilement applicable, c’est pourquoi je ne vous la recommande pas. En français, il existe deux GPT2 entraînés avec un vocabulaire en français sur des données en français existant pour le moment : le BelGPT-2 d’Antoine Louis et PAGnol de Launay et al.. Pour le BelGPT2, quand on génère une phrase avec le modèle, celle-ci est la plupart du temps correcte. Cependant un problème apparait quand on génère plusieurs phrases : celles-ci sont individuellement correctes mais le tout devient incorrect d’un point de vue de la logique quand elles se succèdent. Le contexte passe du coq à l’âne. Lors de quelques expérimentations, j’ai aussi pu constater que des phrases dans d’autres langues que le français étaient générées (anglais et wolof entre autres). Vous pouvez expérimenter par vous-même via l’API d’HuggingFace. Je n’ai pas eu l’occasion de faire d’expérimentations avec PAGnol. Vous pouvez le tester par vous-même via le démonstrateur en ligne proposé par les auteurs du modèle.
Ainsi, je déconseille d’utiliser cette technique en l’état actuel. D’autres sont plus simples, plus rapides à mettre en place car ne nécessite pas de finetuning, sont moins lourdes (PAGnol faisant 1,5 milliard de paramètres par exemple), et donne de meilleurs résultats.

9. La simplification de textes

J’ajoute une méthode supplémentaire qu’Amit n’a pas cité dans son article : les modèles permettant la simplification de texte. Ils permettent de conserver le sens de la phrase mais avec une syntaxe différente et souvent plus courte. Deux approches sont envisageables. La première où le texte original est paraphrasé. La deuxième consiste à faire un résumé du texte original.

9.1 Les paraphrases

Pour la langue anglaise, le jeu de données ASSET de Fernando Alva-Manchego, Louis Martin et al. est disponible depuis mai 2020. Il permet de finetuner les modèles de simplification de texte.

Pour la langue française, il existe le jeu de données ALECTOR de Gala et al. extraits de sites proposant du matériel pédagogique pour les niveaux CE1, CE2 et CM1 de l’école primaire. Chaque texte original a été adapté (simplifié) au niveau du lexique (vocabulaire), de la morpho-syntaxe (catégories grammaticales, structures de phrase) et du discours (co-référence).
Ou bien encore les données en français du jeu de données PPDB déjà cité dans la partie 1.1 de cet article. Vous pouvez consulter également les travaux de Martin et al., portant sur un outil permettant une simplification de phrases multilingues.

9.2 Le résumé

Dans cette approche, nous avons le texte original en entrée et un résumé de ce texte en sortie. Cette approche est bien développée en anglais avec des jeux de données disponibles pour le finetuning (XSum de Narayan et al., CNN/DM de Hermann et al.) et des modèles déjà entraînés à cette tâche (le T5 de Raffel et al., BART de Lewis et al., etc.) Pour l’implémentation, vous pouvez utiliser le code suivant reposant sur la fonction pipeline de la librairie Hugging Face :

summarizer = pipeline("summarization") # utilise BART par défaut
summarizer("Sam Shleifer writes the best docstring examples in the whole world.", min_length=5, max_length=20)

Ce qui donne :

Sam Shleifer writes the best docstring examples in the world

Pour le français, vous pouvez utiliser la partie en français de la base de données multilingues MLSUM de Scialom et al. pour entraîner votre propre modèle ou bien la base OrangeSum de Eddine et al. qui a été introduite avec leur modèle BARThez. Pour l’implémentation, vous pouvez utiliser le même code que pour l’anglais en changeant seulement le modèle et en donnant en entrée une phrase en français :

summarizer = pipeline("summarization", model="moussaKam/barthez-orangesum-abstract", tokenizer="moussaKam/barthez",)
summarizer("Votre texte")  

Implémentation

Les librairies Python comme nlpaug et textattack fournissent une API simple afin d’appliquer les méthodes ci-dessus pouvant ainsi être facilement intégrées dans un pipeline.

Conclusion

Dans la plupart des papiers liés à l’augmentation de données textuelles, les auteurs se limitent à présenter leur méthode : aucune comparaison n’est réalisée avec d’autres méthodes existantes. Ce travail de comparaison est réalisé par Columbe dans sa thèse (2020). Celle-ci a été rédigée en français (application à des textes en anglais). Elle décrit bien les méthodes 1 à 7 de cet article, permettant de connaître les atouts et les limites de chacune d’elles. Si vous avez du temps et êtes intéressés par ce sujet, je vous invite fortement à la lire (environ 200 pages).

Références

ASSET: A Dataset for Tuning and Evaluation of Sentence SimplificationModels with Multiple Rewriting Transformations de Fernando Alva-Manchego, Louis Martin et al. (2020)
Alector: A Parallel Corpus of Simplified French Texts with Alignments of Misreadings by Poor and Dyslexic Readers de Gala et al. (2020)
Multilingual Unsupervised Sentence Simplification de Louis Martin et al. (2020)
A Visual Survey of Data Augmentation in NLP de Amit Chaudhary (2020)
Techniques d’amplification des données textuelles pour l’apprentissage profond de Claude Coulombe (2020)
Text Data Augmentation Made Simple By Leveraging NLP Cloud APIs de Coulombe (2018)
French Word Embeddings de Fauconnier (2015)
The Multilingual Paraphrase Database de Ganitkevitch et Callison-Burch (2014)
Augmenting Data with Mixup for Sentence Classification: An Empirical Study de Guo et al. (2019)
TinyBERT: Distilling BERT for Natural Language Understanding de Jiao et al. (2019)
Data Augmentation using Pre-trained Transformer Models de Kumar et al. (2020)
Atalaya at TASS 2019: Data Augmentation and Robust Embeddings for Sentiment Analysis de Luque (2019)
WordNet: A Lexical Database for English de Miller (1995)
JAWS : Just Another WordNet Subset de Mouton et Chalendar (2010)
Global Monopole in Palatini f(R) gravity de Nascimento et al. (2018)
WoNeF de Pradet et Baguenier-Desormeaux (2012)
Construction d’un wordnet libre du français à partir de ressources multilingues de Sagot et Fiser (2008)
EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks de Wei et Zou (2019)
Data Noising as Smoothing in Neural Network Language Models de Xie et al. (2017)
Unsupervised Data Augmentation for Consistency Training de Xie et al. (2019)
That’s So Annoying!!!: A Lexical and Frame-SemanticEmbedding Based Data Augmentation Approach to AutomaticCategorization of Annoying Behaviors using#petpeeveTweets de Yang Wang et Yang (2015)
mixup: Beyond Empirical Risk Minimization de Zhang et al (2017)
Character-level Convolutional Networks for Text Classification de Zhang et al. (2015)
Don’t Give Me the Details, Just the Summary!Topic-Aware Convolutional Neural Networks for Extreme Summarization de Narayan et al. (2018)
Teaching Machines to Read and Comprehend de Hermann et al. (2015)
BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension de Lewis et al. (2019)
Exploring the Limits of Transfer Learning with a UnifiedText-to-Text Transformer de Raffel et al. (2020)
MLSUM: The Multilingual Summarization Corpus de Scialom et al. (2020)
BARThez: a Skilled Pretrained French Sequence-to-Sequence Model de Eddine et al. (2020)

Citation

@inproceedings{nlp_data_augmentation_blog_post,
author = {Loïck BOURDOIS},
title = {L’augmentation de données en NLP},
year = {2020},
url = {https://lbourdois.github.io/blog/nlp/Data-augmentation-in-NLP/}
}

ILLUSTRATION D’ALBERT

2020-03-12T00:00:00+00:00

Avant-propos

Cet article est une traduction de l’article de Amit Chaudhary : Visual Paper Summary: ALBERT (A Lite BERT). Merci à lui de m’avoir autorisé à effectuer cette traduction. J’ai ajouté des éléments supplémentaires quand j’estimais que cela était pertinent.

Introduction

Considérons une phrase donnée ci-dessous. En tant qu’humains, lorsque nous rencontrons le mot « orange », nous pourrions :

associer le mot « orange » à notre représentation mentale du fruit,
associer « orange » au fruit plutôt qu’à l’entreprise en fonction du contexte
comprendre la situation globale : « Il mange une orange »

Le principe de base des derniers développements en NLP est de donner aux machines la possibilité d’apprendre de telles représentations.

En 2018, Google a publié BERT tentant d’apprendre des représentations en se basant sur quelques idées nouvelles.

Dans cet article, nous allons succinctement rappeler ces approches pour ensuite nous focaliser sur leurs problèmes mais aussi les solutions apporter par les auteurs d’ALBERT afin de les résoudre.

1. Récapitulatif des points importants de BERT

1.1 Modélisation du langage masqué (MLM)

La modélisation du langage consiste essentiellement à prédire un mot en fonction de son contexte pour apprendre la représentation. Traditionnellement, il s’agit de prédire le mot suivant dans une phrase donnée, compte tenu des mots.

BERT utilise quant à lui un modèle de langage masqué, dans lequel nous masquons aléatoirement des mots dans un document et essayons de les prédire en fonction du contexte environnant.

1.2 Prédiction de la phrase suivante

L’idée de la prédiction de la phrase suivante est de détecter si deux phrases sont cohérentes ou non lorsqu’elles sont placées l’une après l’autre.

Pour faire cela, des phrases consécutives tirées des données d’entraînement sont utilisées comme exemple positif. Pour l’exemple négatif, nous prenons une phrase donnée et plaçons à la suite une phrase aléatoire prise dans un autre document. Le modèle BERT est entraîné à cette tâche afin de déterminer si deux phrases peuvent être placées l’une à côté de l’autre.

1.3 Architecture du transformer

Pour résoudre les deux tâches ci-dessus, BERT utilise une pile de couches de blocs encodeurs du transformer. Des vecteurs de mots sont passés à travers les couches pour capturer la signification et créer un vecteur de taille 768 pour le modèle de base.

Pour plus de détails, je vous invite à lire les articles du blog consacré au transformer et à BERT.

2. Les problèmes de BERT

Lors de sa publication BERT a produit des résultats de pointe sur de nombreuses tâches de NLP. Cependant ce modèle est de très grande taille, ce qui a entraîné quelques problèmes. Le modèle ALBERT met en évidence ces problèmes dans deux catégories :

2.1 Limitation de la mémoire et coût de communication

Considérons un simple réseau neuronal avec un neurone d’entrée, deux cachés et un de sortie. En tenant compte des poids et des biais de chaque neurone, ce réseau très simple a 7 paramètres à apprendre :

BERT-large a 340 millions de paramètres en raison de ses 24 couches cachées, des têtes d’attentions et des neurones dans le réseau feed-forward. Si vous vouliez vous appuyer sur le travail effectué sur BERT et y apporter des améliorations, vous auriez besoin de grosses capacités de calcul pour l’entraîner à partir de zéro.

Ces besoins de calcul concernent principalement les GPUs et les TPUs, mais ces dispositifs ont une limitation de mémoire. Il y a donc une limite à la taille des modèles.
Pour entraîner, BERT-large, les auteurs ont dû procéder à du parallélisme : les données d’entraînement ont été divisées en deux machines.
Comme le montre la figure ci-dessous, vous pouvez remarquer comment le grand nombre de paramètres à transférer lors de la synchronisation des gradients peut ralentir le processus d’entraînement. Il est également nécessaire de stocker les différentes parties du modèle (paramètres) sur différentes machines.

2.2 Dégradation du modèle

La tendance récente dans la communauté des chercheurs en NLP est d’utiliser des modèles de plus en plus grands afin d’obtenir de meilleures performances. Les auteurs d’ALBERT montre que cela peut au contraire dégrader les résultats.
En effet, dans leur article, ils ont réalisé une expérience intéressante : si des modèles plus grands conduisent à de meilleures performances, pourquoi ne pas doubler les unités de la couche cachée du plus grand modèle BERT disponible (BERT-large) de 1024 unités à 2048 unités ?
Ils l’appellent BERT-xlarge. Celui-ci se révèle moins performant que le modèle BERT-large, aussi bien pour les tâches de modélisation linguistique que pour les tests de compréhension de la lecture (RACE).

3. De BERT à ALBERT

3.1 Factorisation des enchâssements

3.1.1 La logique appliquée par les auteurs

Dans BERT, la taille des enchâssements utilisés (word piece embeddings) est liée à la taille des couches cachées des blocs transformer. Les word piece embeddings ont été entraîné à partir de la représentation one hot d’un vocabulaire de taille 30 000 et sont projetées directement sur l’espace caché de la couche cachée.
Supposons que nous avons un vocabulaire de taille 30K, un word piece embedding de dimension E=768 et une couche cachée de taille H=768. Si nous augmentons les unités cachées dans le bloc, alors nous devons également ajouter une nouvelle dimension à chaque enchâssement. Ce problème se pose également pour XLNET et ROBERTA.

ALBERT résout ce problème en factorisant la matrice des enchâssements en deux matrices plus petites. Cela permet de séparer la taille des couches cachées de la taille des embedding du vocabulaire et de passer d’une complexité O(V×H) à une complexité en O(V×E+E×H). Cette réduction a un intérêt lorsque H > > E.
Illustration : nous projetons le vecteur one hot encoding dans l’espace de dimension inférieure de taille E=100 et ensuite cet espace d’enchâssement dans l’espace caché H=768.

Ainsi ce qu’il faut retenir de ce point, est que nous pouvons augmenter la taille des couches cachées sans augmenter de manière significative la taille des paramètres des enchâssements du vocabulaire.

3.1.2 Les résultats

Pour effectuer leur comparaison avec BERT, les auteurs d’ALBERT ont suivis les mêmes configurations : vocabulaire de taille 30K, entraînement sur les textes de BOOKCORPUS et Wikipédia (en anglais), limitation à des séquences de 512 tokens.

En analysant le tableau ci-dessus, nous pouvons remarquer une importante diminution du nombre de paramètres à configuration égale (par exemple ALBERT large a 18 fois moins de paramètres que BERT large). Cette diminution s’accompagne d’une accélération du temps de calcul (à TPUs identiques).

3.2 Partage des paramètres entre les couches

3.2.1 La logique appliquée par les auteurs

BERT large a 24 couches alors que sa version de base en a 12. Plus nous ajoutons de couches, plus le nombre de paramètres augmente de manière exponentielle :

Pour résoudre ce problème, ALBERT utilise le concept de partage des paramètres entre les couches.
Pour illustrer cela, prenons l’exemple du modèle BERT-base à 12 couches. Au lieu d’apprendre des paramètres uniques pour chacune des 12 couches, nous n’apprenons des paramètres que pour le premier bloc, et nous réutilisons le bloc dans les 11 couches suivantes.

Nous pouvons procéder à différents partages de paramètres. Par exemple :

partager uniquement les paramètres de la couche feed-forward (shared-FFN dans le tableau ci-après),
partager uniquement les paramètres d’attention (shared-attention dans le tableau ci-après)
partager les paramètres de l’ensemble du bloc (all-shared dans le tableau ci-après).

3.2.2 Les résultats

Par rapport aux 110 millions de paramètres de BERT-base, le modèle ALBERT ne compte alors plus que 31 millions de paramètres tout en utilisant le même nombre de couches et 768 unités cachées.

Pour les colonnes liées à SQuAD, le premier nombre est le F1, le second l’EM

Vous pouvez constater que pour tous les cas où les auteurs ont procédé à un partage de paramètres, une taille d’enchâssement E=128 permet d’obtenir de meilleurs résultats qu’une taille E=768. Ainsi dans la suite, tous les résultats indiqués correspondent à une taille E=128.

3.3 Prédiciton de l’ordre des phrases

3.3.1 La logique appliquée par les auteurs

La prédiction de la phrase suivante (NSP pour introduit Next Sentence Prediction) par BERT a été spécifiquement créée pour améliorer les performances des tâches qui utilisent des paires de phrases comme l’inférence en langage naturel (NLI). Des publications comme ROBERTA et XLNET ont mis en lumière l’inefficacité de la NSP et ont constaté que son impact n’était pas fiable. En éliminant la tâche de NSP, la performance de plusieurs tâches s’est améliorée.

ALBERT propose quant à lui une tâche alternative appelée prédiciton de l’ordre des phrases (SOP pour Sentence Order Prediction). L’idée clé est la suivante :

Prendre deux segments consécutifs du même document comme classe positive
Échanger l’ordre du même segment et utiliser cela comme exemple négatif

Cela oblige le modèle à apprendre une distinction plus fine des propriétés de cohérence au niveau du discours.

Les auteurs d’ALBERT affirment que la NSP est inefficace car c’est une tâche non difficile à mettre en œuvre par rapport à la modélisation masquée du langage. Elle mélange à la fois la prédiction du sujet et la prédiction de la cohérence. La partie prédiction du sujet est facile à apprendre car elle chevauche la perte du modèle de langage masqué. Ainsi, la NSP donnera des scores plus élevés même s’il n’a pas appris la prédiction de cohérence.

3.3.2 Les résultats

La SOP améliore les performances des tâches de SQUAD 1.1, 2.0, MNLI et RACE :

None correspond à des modèles comme XLNet- et RoBERTa, NSP à un modèle comme BERT et SOP à ALBERT. Les résultats du tableau correspondent à une configuration ALBERT-base.

4. Autres résultats

4.1 Comparaison basée sur le temps d’entraînement

Comme un entraînement plus long entraîne généralement de meilleures performances, les auteurs ont effectué une comparaison dans laquelle, au lieu de contrôler le nombre d’étapes d’entraînement, ils ont contrôlé le temps d’entraînement. Le but étant de comparer les performances à temps d’entraînement égaux.

On peut alors constater qu’ALBERT obtient de meilleur résultat que BERT et notamment sur la base RACE.

4.2 Ajout de données

Les expériences réalisées jusqu’à présent utilisent les jeux de données Wikipedia et BOOKCORPUS, comme dans BERT. Les auteurs ont testé d’ajouter les données d’entraînement supplémentaires utilisées par XLNet et RoBERTa.
Ils ont obtenu les résultats suivants :

Nous observons une amélioration des performances à l’exception des repères SQuAD (qui sont basés sur Wikipédia et sont donc affectés négativement par les données d’entraînement hors domaine).
Visuellement, cet ajout de données est observable sur la phase d’entraînement :

4.3 L’impact du dropout

Les auteurs ont constaté que même après un entraînement de 1 million d’étapes, leurs plus grands modèles ne se sont toujours pas adaptés à leurs données d’entraînement.
Ils ont alors décidé de supprimer le dropout afin d’augmenter la capacité des modèles. Le graphique ci-dessous montre que la suppression du dropout améliore considérablement la précision du MLM.

Cela s’observe également lors des applications aux différentes bases de données :

Il existe des preuves empiriques (Szegedy et al., 2017) et théoriques (Liet al., 2019) montrant qu’une combinaison de batch normalization et de dropout peut avoir des résultats néfastes sur les réseaux de neurones convolutifs.
À la connaissance des auteurs d’ALBERT, il s’agit des premiers à montrer que le dropout peut nuire aux performances des grands modèles basés sur des transformers. Cependant, la structure du réseau sous-jacent d’ALBERT est un cas particulier de transformer et des expériences supplémentaires sont nécessaires pour voir si ce phénomène apparaît ou non avec d’autres architectures.

Conclusion

ALBERT-xxlarge a moins de paramètres que BERT-large et obtient des résultats nettement meilleurs. Néanmoins il est plus coûteux en termes de calcul en raison de sa structure plus large.
Les auteurs indiquent en conclusion de leur publication, qu’ils prévoient de travailler à accélérer l’entraînement et la vitesse d’inférence de leurs modèles avec des méthodes telles que la sparse attention (Child et al.(2019)) et la block attention (Shen et al. (2018)).

Pour ma part, je vous invite à aller lire la publication, notamment les benchmarks dans la partie 4.9 (p.9 et 10) qui sont consacrés à GLUE, SQuAD et RACE et que je n’ai pas abordé dans cet article. L’appendix de la publication indique est également intéressante puisqu’elle aborde la configuration des hyperparamètres utilisés ainsi que l’impact du nombre de couches sur les résultats.

Références

Visual Paper Summary: ALBERT (A Lite BERT) de Amit Chaudhary (2020)
Generating Long Sequences with Sparse Transformers de Child et al. (2019)
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding de Devlin et al. (2018)
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations de Lan et al. (2019)
RoBERTa: A Robustly Optimized BERT Pretraining Approach de Liu et al. (2019)
Bi-Directional Block Self-Attention for Fast and Memory-Efficient Sequence Modeling de Shen at al. (2018)
XLNet: Generalized Autoregressive Pretrainingfor Language Understanding de Yang, Dai et Al. (2019)

Citation

@inproceedings{albert_blog_post,
author = {Loïck BOURDOIS},
title = {Illustration d’ALBERT},
year = {2020},
url = {https://lbourdois.github.io/blog/nlp/ALBERT}
}

ILLUSTRATION DU REFORMER

2020-02-12T00:00:00+00:00

Avant-propos

Cet article est une traduction de l’article de Alireza Dirafzoon : Illustrating the Reformer. Merci à lui de m’avoir autorisé à effectuer cette traduction. J’ai ajouté des éléments supplémentaires quand j’estimais que cela était pertinent.

Introduction

Récemment, Google a introduit l’architecture Reformer, un modèle de transformer conçu pour traiter efficacement de très longues séquences de données (par exemple jusqu’à 1 million de mots). L’exécution de reformer nécessite une consommation de mémoire beaucoup plus faible que les transformers classiques et permet d’obtenir des performances impressionnantes en utilisant un seul GPU. La publication Reformer : The efficient Transformer de Kitaev, Kaiser et Levskaya sera officiellement présentée au ICLR 2020 mais est déjà actuellement disponible en open review. Le modèle reformer devrait avoir un impact significatif en allant au-delà des applications linguistiques (par exemple, la génération de musique, de parole, d’images et de vidéos).

Avant de poursuivre cet article, sachez que le Reformer est une version optimisée du Transformer de Vaswani et al. Ainsi, si vous n’êtes pas familier avec dernier lisez d’abord l’article du blog qui lui est consacré : Illustration du transformer.

1. Le reformer à la rescousse des problèmes du transformer

Les modèles de transformers (BERT et ses dérivés, le GPT2, etc.) donnent de bons résultats mais beaucoup de ces modèles ne peuvent être entraînés que sur de grandes plateformes de calcul industrielles et ne peuvent pas être affinés sur un seul GPU pour certaines en raison de leurs besoins en mémoire. Par exemple, le modèle GPT-2 complet se compose d’environ 1,5 milliard de paramètres.
Le reformer apporte une solution à ce problème en modifiant la manière dont sont effectués les calculs à plusieurs endroits du transformer.
Regardons ces modifications plus en détails. Voici une version simplifiée du transformer :

Résumé simplifié du transformer

Sur le schéma ci-dessus, des logos de lunettes de 3 couleurs différentes sont présents. Chacun de ces logos représente une partie du modèle du transformer que les auteurs de reformer ont considéré comme une source de problèmes de calcul et de mémoire :

Problème 1 (lunettes rouges) : le calcul de l’attention
Calculer l’attention sur des séquences de longueur L est de complexité O(L²) (à la fois temps et mémoire). Imaginez ce qui se passe si nous avons une séquence de longueur 64K.
Problème 2 (lunettes noires) : le nombre de couches
Un modèle à N couches consomme N fois plus de mémoire qu’un modèle à une seule couche car les activations dans chaque couche doivent être stockées pour la rétropropagation.
Problème 3 (lunettes vertes) : la profondeur des couches feed-forward
La profondeur des couches feed-forward intermédiaires est souvent beaucoup plus importante que la profondeur des activations de l’attention.

Le modèle reformer s’attaque aux trois principales sources de consommation de mémoire du transformer mentionnées ci-dessus et les améliore de telle sorte que le modèle reformer peut gérer des fenêtres contextuelles allant jusqu’à un million de mots, le tout sur un seul GPU de seulement 16Go de mémoire. Pour cela, le modèle Reformer combine deux techniques pour résoudre les problèmes d’attention et d’allocation de mémoire : le locality-sensitive-hashing (LSH) pour réduire la complexité de l’attention sur de longues séquences, et les couches résiduelles réversibles pour utiliser plus efficacement la mémoire disponible. Détaillons ces deux techniques.

2. L’Attention LSH (Locality sensitive hashing)

Penchons-nous sur le premier problème soulevé : le calcul de l’attention.

2.1 Attention et voisins les plus proches

En NLP, l’attention est un mécanisme qui permet au réseau de se concentrer attentivement sur différentes parties d’un contexte en fonction de leur relation avec l’étape temporelle traitée. Il existe 3 types de mécanisme d’attention dans le modèle de transformer comme ci-dessous :

Image provenant de la présentation de Łukasz Kaiser

Dans le transformer, l’attention est calculée via le produit scalaire, formulé comme :

Pour l'ensemble de l'article nous adoptons la notation anglo-saxonne de la transposée

D’après l’équation ci-dessus et la figure ci-dessous, on peut observer que les coûts de calcul et de mémoire de la multiplication QKᵀ sont tous deux en O(L²), qui est le principal goulot d’étranglement de la mémoire.

Est-il nécessaire de calculer et de stocker la matrice complète QKᵀ ? La réponse est non, car nous ne sommes intéressés que par softmax(QKᵀ), qui est dominé par les éléments les plus grands d’une matrice éparse. Par conséquent, pour chaque requête q, nous ne devons prêter attention qu’aux clés k qui sont les plus proches de q. Par exemple, si K a une longueur de 64K, pour chaque q, nous ne pourrions considérer qu’un petit sous-ensemble des 32 ou 64 clés les plus proches. Le mécanisme d’attention du transformer trouve les clés les plus proches d’une requête, mais de manière inefficace.

La première nouveauté du reformer vient du remplacement de l’attention via le calcul du produit scalaire par un locality-sensitive hashing (hachage sensible à la localité) que l’on résumera par la suite par LSH. Cette transformation permet de passer d’une complexité de O(L²) à O(L log L).

2.2 Recherche des voisins les plus proches par LSH

LSH est un algorithme permettant une recherche efficace et approximative des voisins les plus proches dans des ensembles de données de grandes dimensions. L’idée principale de LSH est de sélectionner des fonctions de hachage telles que pour deux points « p » et « q », si « q » est proche de « p », alors avec une probabilité suffisante nous avons « hash(q) == hash(p) ».

2.2.1 L’approche basique

Le moyen le plus simple est de continuer à découper l’espace par des hyperplans aléatoires et d’ajouter sign(pᵀH) comme code de hachage de chaque point. Voyons un exemple ci-dessous :

Une fois que nous avons trouvé des codes de hachage d’une longueur souhaitée, nous divisons les points en groupes en fonction de leurs codes de hachage. Dans l’exemple ci-dessus, « a » et « b » appartiennent au même groupe puisque hash(a) == hash(b). Maintenant, l’espace de recherche pour trouver les voisins les plus proches de chaque point se réduit considérablement, passant de l’ensemble des données au groupe auquel il appartient.

2.2.2 L’approche angulaire

Une variante de l’algorithme LSH simple, appelée LSH angulaire, projette les points sur un cercle unité qui a été divisé en régions prédéfinies, chacune avec un code distinct. Ensuite, une série de rotations aléatoires des points définit le groupe auquel les points appartiennent. Illustrons cela par un exemple simplifié en 2D, tiré de l’article de reformer :

Ici, nous avons deux points qui sont projetés sur un cercle unité et tournés aléatoirement 3 fois avec des angles différents. On peut observer qu’il est peu probable qu’ils partagent le même groupe de hachage.

Dans l’exemple suivant, cependant, nous voyons que les deux points qui sont assez proches l’un de l’autre finiront par partager le même groupe de hachage après 3 rotations aléatoires :

2.3 Visualisation de l’attention LSH

Si l’on se réfère à la formule d’attention standard, au lieu de calculer l’attention sur tous les vecteurs des matrices Q et K, nous faisons ce qui suit :

Trouver les hachages LSH des matrices Q et K.
Calculer l’attention standard uniquement pour les vecteurs k et q dans les mêmes groupes de hachage. On répète ensuite la procédure ci-dessus plusieurs fois pour augmenter la probabilité que des éléments similaires ne tombent pas dans des groupes différents (les auteurs détaillent ce calcul dans l’appendix de leur article).

L’animation ci-dessous illustre une version simplifiée de l’attention LSH basée sur la figure de l’article du reformer :

2.4 L’attention LSH masquée

Pour mettre en œuvre l’attention LSH masquée, les auteurs associent chaque vecteur requête/clé à un indice de position, réorganisent les indices de position en utilisant les mêmes permutations que celles utilisées pour trier les vecteurs requête/clé, puis utilisent une opération de comparaison pour calculer le masque.

Alors que calculer l’attention d’un token futur n’est pas autorisée, les implémentations typiques du transformer permettent à une position de s’occuper d’elle-même.
Un tel comportement n’est pas souhaitable dans une formulation QK-partagé car le produit scalaire d’un vecteur requête avec lui-même sera presque toujours plus grand que le produit scalaire d’un vecteur requête avec un vecteur à une autre position. Les auteurs modifient donc le masquage pour interdire à un token de s’occuper de lui-même, sauf dans les situations où un token n’a pas d’autres cibles d’attention valables (par exemple, le premier token d’une séquence).

**3. Transformer réversible et découpage**

Regardons à présent le deuxième et le troisième problème du transformer, c’est-à-dire le nombre de couches d’encodeur et de décodeur, et la profondeur des couches feed-forward.

3.1 Réseau résiduel réversible (RevNet)

En observant attentivement les blocs d’encodeur et de décodeur du transformer (la figure avec les lunettes), on se rend compte que chaque couche d’attention et chaque couche feed-forward est enveloppée dans un bloc résiduel (partie gauche de la figure en dessous). Les réseaux résiduels (ResNets) présentés dans cet article par He et al. sont des composants puissants utilisés pour aider à résoudre le problème de la disparition du gradient dans les réseaux profonds (avec de nombreuses couches). Cependant, la consommation de mémoire dans les ResNets est un goulot d’étranglement car il faut stocker en mémoire les activations de chaque couche afin de calculer les gradients lors de la rétropropagation. Le coût de la mémoire est proportionnel au nombre d’unités dans le réseau.

Pour résoudre ce problème, on peut utiliser le réseau résiduel réversible (RevNet) de Gomez et Ren qui est composé d’une série de blocs réversibles. Dans le Revnet, les activations de chaque couche peuvent être reconstruites exactement à partir des activations de la couche suivante, ce qui nous permet d’effectuer une rétropropagation sans stocker les activations en mémoire. La figure ci-dessous illustre les blocs résiduels et les blocs résiduels réversibles. Notez comment nous pouvons calculer les entrées du bloc (X₁, X₂) à partir de ses sorties (Y₁, Y₂).

**3.2 Transformer réversible**

Pour traiter notre deuxième problème, le reformer applique l’idée du RevNet au transformer en combinant les couches d’attention et de feed-forward à l’intérieur du bloc RevNet. Dans la figure ci-dessus, F devient une couche d’attention et G la couche feed-forward et on a alors :
Y₁ = X₁ + Attention(X₂),
Y₂ = X₂ + FeedForward(Y₁)

L’utilisation de couches résiduelles réversibles au lieu de couches résiduelles standard permet désormais de ne stocker les activations qu’une seule fois pendant le processus d’entraînement au lieu de N fois.

3.3 Découpage

La dernière partie des améliorations apportées par le reformer porte sur le troisième problème, à savoir les vecteurs intermédiaires de grandes dimensions des couches feed-forward (pouvant aller jusqu’à des dimensions de 4000 et plus).

Comme les calculs des couches feed-forward sont indépendants entre les positions d’une séquence, les calculs des propagations avant et arrière ainsi que le calcul inverse peuvent tous être divisés en morceaux. Par exemple pour la propagation vers l’avant on a :

4. Résultats expérimentaux

Les auteurs ont mené des expériences sur deux tâches : la tâche de génération d’images imagenet64 (avec des séquences de longueur 12K) et la tâche de texte enwik8 (avec des séquences de longueur 64K), et ont évalué les effets des modifications sur la mémoire, la précision et la vitesse.

Les résultats de leur expérience ont montré que le transformer réversible permet d’économiser la mémoire sans sacrifier la précision :

Comme l’attention LSH est une approximation de l’attention totale, sa précision s’améliore à mesure que la valeur du hachage augmente. Lorsque la valeur de hachage est de 8, l’attention LSH est presque équivalente à l’attention complète (celle du transformer).

Ils ont également démontré que l’attention du transformer ralentit à mesure que la longueur de la séquence augmente, tandis que la vitesse d’attention LSH reste constante, et qu’elle fonctionne sur des séquences de longueur ~100K à la vitesse habituelle sur des GPUs de 8GB :

Le modèle final du reformer a donc des performances similaires à celles du modèle transformer, mais a montré une plus grande efficacité de stockage et une vitesse plus rapide sur les longues séquences.

Conclusion

Le code du reformer a été publié dans le cadre de la nouvelle bibliothèque Trax. Trax est une bibliothèque qui vise à vous permettre de comprendre l’apprentissage profond à partir de zéro. Le code du reformer comprend plusieurs exemples de tâches tel que de la génération d’images et de texte.

Références

Illustrating the Reformer de Alireza Dirafzoon (2020)
Reformer: The efficient Transformer de Kitaev, Kaiser et Levskaya (2020)
Attention Is All You Need de Vaswani et al. (2017)
Deep Residual Learning for Image Recognition de He et al. (2016)
The Reversible Residual Network: Backpropagation Without Storing Activations de N. Gomez, Ren et al. (2017)

Citation

@inproceedings{reformer_blog_post,
author = {Loïck BOURDOIS},
title = {Illustration du Reformer},
year = {2023},
url = {https://lbourdois.github.io/blog/nlp/Reformer/}
}

LE PRETRAITEMENT ET LES TOKENIZERS EN NLP

2020-01-15T00:00:00+00:00

Avant-propos

Cet article est une traduction de l’article de Keita Kurita : A Deep Dive into the Wonderful World of Preprocessing in NLP (le site de Keita Kurita n’existant plus, le lien renvoie vers une version capturée par Wayback Machine).
Merci à lui de m’avoir autorisé à effectuer cette traduction.

Introduction

Le prétraitement est peut-être l’un des éléments les plus sous-évalués et les plus négligés en traitement du langage naturel actuellement. En effet, si par exemple vous utilisez des tranformers pré-entrainés, le travail a déjà été effectué pour nous. Les publications scientifiques n’entrent d’ailleurs que très rarement dans le détail au moment d’aborder cette étape et se focalisent davantage sur le modèle développé et les résultats obtenus avec. Malgré qu’il puisse paraître trivial, le prétraitement est subtil et extrêmement important pour obtenir de bonnes performances et prévenir les bugs (cf. cette publication de Matt Post). Dans cet article, nous nous focaliserons donc sur le prétraitement en passent en revue les principales techniques de tokenization comme le byte-pair encoding (BPE), le wordpiece et le sentencepiece, ainsi que les choses auxquelles il faut faire attention.

Vue d’ensemble

Les modèles d’apprentissage machine nécessitent des entrées sous la forme de nombre pour pouvoir fonctionner. Le prétraitement est essentiellement le processus qui consiste à prendre un morceau de texte brut et à le convertir en nombres. Par conséquent, pour la plupart des applications, le prétraitement peut être divisé en trois étapes :

Étape 1 : Normalisation (nettoyage)
C’est là que nous nettoyons les données pour éliminer les entrées non désirées et pour convertir certains caractères/séquences en formes canoniques.
Etape 2 : Segmentation (tokenization)
C’est là que nous divisons le flux continu de caractères en entités. C’est probablement l’étape la plus complexe du processus et est un point majeur de l’article.
Étape 3 : Numérisation
C’est là que nous convertissons les entités textuelles en nombres/id pour pouvoir les donner à notre modèle. Bien que simple, cette étape peut introduire quelques problèmes désagréables dont nous parlerons plus tard.

Notez que ces étapes ne sont pas toujours clairement divisées. Par exemple, certains tokenizers contiennent des étapes de normalisation et la segmentation est souvent étroitement couplée à la numérisation. Néanmoins, penser à ces étapes séparément rend les choses beaucoup plus faciles à comprendre et à expliquer, c’est pourquoi je m’en tiendrai à cette division légèrement arbitraire pour la suite.

1. Étape 1 : Normalisation (nettoyage)

Dans le contexte du prétraitement en traitement du langage naturel, la normalisation se réfère au processus de nettoyage de l’entrée et de mise en correspondance des caractères/mots avec une forme canonique.

Un exemple très simple de normalisation est de mettre tous les caractères en minuscule. Cela permet d’éviter que des mots comme « Bonjour » et « bonjour » soient traités différemment. La similarité entre ces mots est claire pour un humain, mais lorsqu’ils sont simplement mis en correspondance avec un seul entier, le modèle en aval n’a aucun moyen de comprendre qu’il s’agit du même mot sous-jacent. La normalisation permet d’éviter cette divergence.

Voici quelques autres étapes de normalisation que vous pourriez vouloir utiliser :

Gérer les caractères répétitifs (par exemple « cooooool » → « cool »)
Manipulation des homoglyphes (par exemple « $tupide » → « stupide »)
Transformation des entrées spéciales telles que les URL, les adresses e-mail et les balises HTML à une forme canonique (par exemple « https://lbourdois.github.io/blog/nlp/Les-tokenizers/ » → « [URL] »)
Normalisation unicode Certains lecteurs n’ont peut-être jamais entendu parler de la normalisation unicode avant, faisons donc en un rapide aperçu. En unicode, certains caractères qui sont effectivement les mêmes peuvent être représentés de plusieurs façons. Par exemple, le caractère « ë » peut être représenté comme un seul caractère unicode (« ë » ou deux caractères unicode (le caractère « e » et un accent). La normalisation unicode fait correspondre ces deux caractères à une forme unique et canonique. Pour plus de détails vous pouvez lire ce post (en anglais).

Vient maintenant la question importante : quels types de normalisation devrions-nous réellement appliquer ? Bien sûr, il n’y a pas de réponse claire à cette question, mais voici quelques lignes directrices et facteurs à prendre en considération :

Quelle quantité d’informations cruciales la normalisation supprime-t-elle ? Par exemple, dans les médias sociaux, dire « HELLO » et « Hello » peut avoir des nuances différentes. En même temps, traiter différemment « Hello world » et « hello world » peut ne pas avoir beaucoup de sens. La majuscule peut indiquer une information grammaticale importante, comme le fait qu’un mot est un nom propre (par exemple, « New York »).
De combien de données disposez-vous ? Si vous avez beaucoup de données, vous aurez probablement besoin de moins de normalisation puisque le modèle pourrait simplement apprendre que « Hello » et « hello » sont le même mot sous-jacent à partir de leurs distributions. Si vous n’avez pas beaucoup de données alors pourriez vouloir une plus grande normalisation.
Une grande taille de vocabulaire est-elle préjudiciable à votre application ? Moins de normalisation tend à conduire à un vocabulaire plus important, bien que cela dépende du type de tokenisation que vous utilisez. Si vous entraînez un modèle génératif, la couche de softmax de sortie peut être un goulot d’étranglement majeur. Une taille de vocabulaire plus importante peut ralentir l’entraînement de manière significative. Cela peut aussi causer des problèmes de mémoire, pouvant nécessiter des tailles de batch plus petites, ralentissant encore plus l’entraînement.

**2. Étape 2 : Segmentation (tokenization)**

La segmentation/tokénisation est probablement la partie la plus complexe du pipeline de prétraitement. Nous allons donc en discuter en profondeur. Nous allons d’abord passer en revue quelques algorithmes naïfs de tokenisation, puis discuter des tokenizers à base de règles, et enfin passer en revue des tokenizers de sous-mots plus modernes qui sont appris sur des données.

2.1 Tokeniser sur les espaces / la ponctuation

La forme la plus naïve de tokenisation (qui est utilisée étonnamment souvent puisque certaines applications utilisent simplement la fonction string.split en Python) est le fractionnement sur les espaces. Prenons la phrase suivante comme exemple :

“I saw a girl with a telescope.”

Elle est divisée en :

“I”, “saw”, “a”, “girl”, “with”, “a”, “telescope.”

Remarquez que le point est annexé au dernier mot. Nous ne voulons probablement pas cela, puisque le mot « télescope » a la même signification qu’il soit avec un point ou non. Cette approche est donc fortement déconseillée !

Une approche légèrement meilleure et qui fonctionne dans bien des cas consiste à utiliser des jetons basés sur la ponctuation comme :

“I”, “saw”, “a”, “girl”, “with”, “a”, “telescope”, “.”

Cependant, cette approche présente encore de nombreux problèmes. Que faites-vous, par exemple, avec les points de suspension ? Voulez-vous une division en trois points (".", ".", ".") ou préférez-vous un seul jeton ? Et pour les émoticônes comme :) et des abréviations comme U.S.A. ? Il est clair que le simple fait d’utiliser des signes de ponctuation et des espaces blancs est insuffisant si nous voulons obtenir la meilleure performance, ce qui nous motive à poursuivre des méthodes de tokenisation plus complexes, basées sur des règles.

2.2 Tokenization basée sur des règles

Les tokenizers à base de règles nous permettent de tokeniser plus intelligemment au cas par cas. Ici, couvrons deux principaux tokenizers basés sur des règles : le tokenizer Spacy et le tokenizer Moses.

2.2.1 Spacy

Le tokenizer Spacy est un tokenizer moderne qui est largement utilisé pour une bonne raison : il est rapide, fournit des valeurs par défaut raisonnables et est facilement personnalisable.

Spacy permet à l’utilisateur de spécifier des tokens spéciaux qui ne seront pas segmentés ou qui seront segmentés de certaines manières spécifiques. Par exemple, si vous voulez garder les points de suspension comme un seul token, vous pouvez le spécifier comme une règle et celle-ci aura la priorité sur les autres opérations de division. Pour en savoir plus sur le fonctionnement du tokenizer Spacy, Spacy divise en espaces et examine ensuite chaque sous-chaîne individuelle. Il recherche d’abord les tokens spéciaux et quand ils ne sont pas présents, il divise certains préfixes (comme la ponctuation), puis les suffixes et les infixes.

Exemple de fonctionnent du tokenizer Spacy

Toutes ces étapes sont personnalisables, ce qui signifie que vous pouvez adapter les règles de tokenisation à vos envies. Vous pouvez consulter la documentation officielle pour obtenir les informations les plus récentes et les plus approfondies.

2.2.2 Moses

Le tokenizer Moses est un tokenizer classique qui est beaucoup plus ancien que Spacy et qui est largement utilisé en traduction automatique. Comparé à Spacy il est moins personnalisable. Je n’entrerai pas dans les détails concernant les spécificités du tokenizer Moses, principalement parce qu’il s’agit d’une collection de logiques complexes de normalisation et de segmentation (vous pouvez jeter un oeil à une implémentation Python ici).

Le tokenizer Moses remplace en interne certains tokens spéciaux (par exemple des points de suspension) par des tokens personnalisés et est un bon exemple de la façon dont la normalisation et la tokenisation ne sont pas toujours proprement divisées.

Moses fonctionne assez bien sur une langue simple, mais si vous manipulez du texte comme du texte de médias sociaux, cela peut causer des problèmes avec certaines entrées comme les émoticônes.

**2.2.3 Limitations des tokenizers basés sur des règles**

Il y a quelques problèmes avec les tokenizers à base de règles. Le premier est leur capacité relativement limitée à gérer efficacement les mots rares. Par exemple, le mot « structurally » est relativement rare, mais le mot « structural » est commun, ce qui nous permet de déduire le sens de « structurellement » à partir d’un mot plus fréquent. Bien sûr, nous pourrions spécifier chaque mot rare comme une règle spéciale, mais cela devient clairement beaucoup trop complexe très rapidement. Cette incapacité à segmenter les mots en composantes significatives peut être particulièrement problématique pour des langues comme l’allemand où les mots sont souvent composés en mettant ensemble de nombreuses parties indépendantes (on parle alors de langues morphologiquement riches. Cet article en anglais montre l’exemple d’un mot allemand faisant plus de 63 lettres). Un autre problème majeur est que toutes les langues ne divisent pas les mots via des espaces blancs. Le chinois et le japonais en sont d’excellents exemples. Ces langues exigent donc des règles beaucoup plus sophistiquées ce qui signifie plus de complexité et potentiellement d’erreurs. Il existe une classe d’algorithmes qui tentent de résoudre ces problèmes, communément appelés méthodes de tokenization en subword, que nous allons aborder dans la suite.

2.3 3. Tokénisation en sous-mots (subword Tokenization)

Tous les algorithmes de tokenisation en sous-mots partagent l’idée fondamentale que les mots les plus fréquents devraient recevoir des identificateurs uniques, alors que les mots moins fréquents devraient être décomposés en sous-mots qui conservent le mieux leur signification. Par exemple, nous pouvons vouloir retenir le mot « wonderfully” comme un seul mot puisqu’il apparaît souvent dans notre jeu de données et que nous pouvons nous attendre à ce que le modèle en apprenne la signification. D’autre part, nous pouvons vouloir diviser « structurally » en « structural » et « ly » puisque « structurally » est peu courant et que nous voulons aider le modèle en lui donnant de l’information sur sa composition. Nous allons passer en revue quatre algorithmes majeurs de tokenisation en sous-mots : le byte-pair encoding (BPE), le wordpiece, l’unigram language model, et le sentencepiece.

**2.3.1 Le Byte-Pair Encoding (BPE)**

Le Byte-pair encoding (BPE) pour sous-mots a été proposée dans cette publication par Sennrich, Haddow et Birch. L’idée de base (qui est un algorithme de compression) existe néanmoins depuis 1994. Ce n’est pas une coïncidence si le BPE tire ses racines du domaine de la théorie de l’information et de la compression. L’idée de représenter des mots fréquents avec moins de symboles, et des mots moins fréquents avec plus de symboles est exactement l’idée derrière de nombreux schémas d’encodage tels que l’encodage de Huffman. Le BPE applique simplement les mêmes principes et techniques de façon intelligente à la tokenization. BPE est un algorithme de tokenisation ascendante de sous-mots qui apprend un vocabulaire de sous-mots d’une certaine taille (la taille du vocabulaire étant un hyperparamètre). L’idée de base est la suivante :

Commencez par diviser tous les mots en caractères unicode. Chaque caractère unicode correspond à un symbole dans le vocabulaire final. Nous commencerons avec ce vocabulaire minimal et l’élargirons progressivement.
Tant qu’il reste de la place dans le vocabulaire, faites ce qui suit :
1. Trouvez le symbole bigramme le plus fréquent (paire de symboles)
2. Fusionnez ces symboles pour créer un nouveau symbole et ajoutez-le au vocabulaire. Ceci augmente la taille du vocabulaire de 1.

Pour illustrer cela, prenons un exemple. Supposons que nous ayons les mots « bed », « ted », « sad », « beds » et « mad » à partir desquels nous voulons construire un vocabulaire BPE de taille 10. Nous commençons avec le vocabulaire minimal et les mots segmentés en caractères individuels.

Le symbole bigramme le plus fréquent est « ed » qui apparaît 3 fois. Nous les fusionnons donc et ajoutons un nouveau symbole au vocabulaire.

Le symbole suivant le plus fréquent (à égalité avec 2 apparitions) est « ad ». Nous les fusionnons et ajoutons le nouveau symbole au vocabulaire une fois de plus. Cela porte la taille du vocabulaire à 9.

Enfin, nous fusionnons « b » et « ed » car cette paire de symboles apparaît également deux fois, ce qui porte la taille du vocabulaire à 10 et met fin à notre construction de vocabulaire. La segmentation qui en résulte est ce que nous utiliserons pour la tokenisation en utilisant notre modèle BPE appris.

Bien sûr, nous voulons faire la distinction entre « ed » comme un seul mot et le suffixe « ed », donc en réalité nous représenterions le suffixe comme « ##ed ». (Si ce symbole « ## » préfixé vous semble familier, c’est parce que de nombreux modèles modernes pré-entrainés utilisent la tokenisation de sous-mots ; en d’autres termes, si vous voyez vos entrées tokénisées de cette façon, il est probable qu’il y ait une tokenisation en sous-mots qui se déroule quelque part dans les coulisses).

L’exemple ci-dessus utilise des mots individuels, ce qui soulève la question suivante : que se passe-t-il lorsque nous utilisons des phrases entières ? Une des caractéristiques délicates du BPE est qu’il commence par tokeniser l’entrée et ne fusionne que les bigrammes de symboles dans un seul token. C’est pour l’efficacité du calcul, puisque trouver le bigramme le plus fréquent est une opération coûteuse (s’il y a N symboles, c’est une opération O(N²)). Une autre question que vous pourriez vous poser est de savoir ce qui se passe si nous rencontrons un caractère unicode inédit dans le vocabulaire. Il existe plusieurs solutions à ce problème. L’une d’entre elles consiste simplement à associer des caractères invisibles à un token « unk » (pour inconnu). Une autre est d’allouer un id à chaque caractère unicode possible même si nous ne le rencontrons pas dans le texte (ce n’est clairement pas réaliste et c’est plus pour le plaisir de l’argumentation).

Une approche intelligente proposée par l’équipe d’Open AI dans son article sur le GPT-2 est de traiter l’entrée comme une séquence d’octets au lieu de caractères unicode et d’attribuer un identifiant à chaque octet possible. Puisque les caractères unicode sont représentés par un nombre variable d’octets, même si nous rencontrons un tout nouveau caractère, nous pouvons le décomposer en ses octets constitutifs dans le pire des cas, empêchant ainsi l’apparition de tokens inconnus.

2.3.2 Wordpiece

Peut-être le plus célèbre en raison de son utilisation dans BERT, wordpiece est un autre algorithme de tokenisation en sous-mots largement utilisé. L’algorithme (décrit dans la publication de Schuster et Kaisuke) est en fait pratiquement identique à BPE. La seule différence est qu’au lieu de fusionner le bigramme de symbole le plus fréquent, le modèle fusionne le bigramme qui, une fois fusionné, augmenterait la probabilité d’un modèle de langage unigramme entrainé sur les données d’entraînement.

Attention. Ici et jusqu’à la fin de cette section 2.3.2, je traduis ce que l’auteur de l’article original à compris de cette méthode. En effet, il précise qu’il n’a pas trouvé de code source d’une implémentation de cette méthode et n’a donc pas pu la décortiquer en entier. Il explique donc ce qu’il a compris mais précise qu’il n’exclut pas de s’être tromper en absence de code pour confirmer ou infirmer ses explications.

Si son raisonnement est correct, cela signifie qu’en plus de la fréquence du bigramme, la fréquence des symboles originaux qui constituent le bigramme est également prise en compte. Le logarithme de la probabilité d’une phrase dans un modèle de langage unigramme (en supposant l’indépendance entre les mots d’une phrase) est simplement la somme des logarithmes des fréquences des symboles qui la composent. Cela signifie que la fusion de deux symboles augmentera le logarithme de la probabilité totale du symbole fusionné et la diminuera le logarithme de la probabilité des deux symboles originaux. En supposant que nous fusionnons les symboles x et y, l’augmentation du logarithme de la probabilité est :

\[\log p(x,y) - \log p(x) - \log p(y) = \log \displaystyle \frac{\log p(x) }{\log p(x) \log p(y) }\]

De nouveau, si le raisonnement est correct, ceci est donc équivalent à l’information mutuelle entre deux symboles, donc wordpiece peut être considéré comme une variante de BPE qui fusionne sur la base de l’information mutuelle au lieu de la fréquence.
RoBERTa est une version « optimisée » de BERT. Dans leur publication, les auteurs utilisent BPE au lieu du wordpiece de BERT et ont trouvé que cette décision ne faisait pas une grande différence.

2.3.3 Unigram Language Model

L’algorithme de tokenization de l’unigram language model a été proposé à l’origine dans cet article par Taku Kudo. Bien qu’il utilise des principes similaires aux méthodes décrites précédemment, il est en fait entraîné très différemment dans la pratique.

L’idée de base de ce tokenizer est d’entraîner un modèle de langage en unigramme, en supposant que tous les mots se produisent indépendamment les uns des autres. Il utilise ensuite ce modèle pour trouver la segmentation la plus probable de chaque mot. L’avantage de cette méthode est qu’elle utilise un modèle probabiliste, ce qui signifie qu’en plus de trouver la segmentation la plus probable, vous pouvez échantillonner des segmentations à partir d’une distribution de probabilités. Ceci est utilisé dans une méthode d’augmentation des données abordée plus loin dans la partie 3 de l’article.

La différence entre cette méthode et le wordpiece est que le wordpiece maximise la probabilité d’un modèle linguistique unigramme en fusionnant les symboles. Cela est possible car wordpiece ne fait pas directement référence au modèle de langue, ce qui rend la segmentation indépendante de celui-ci.

Dans le tokenizer de l’unigram language model, la segmentation dépend du modèle de langue. Cela crée une dépendance cyclique : pour entraîner un modèle de langue, nous devons compter la fréquence de tous les mots d’un vocabulaire, ce qui nécessite de savoir comment segmenter le texte dans le corpus d’entraînement en premier lieu. Mais pour savoir comment segmenter le texte dans le corpus d’entraînement, nous avons besoin du modèle de langue ! Pour gérer cette dépendance cyclique, le modèle de langue unigramme est entraîné selon le processus suivant :

Initialiser un grand vocabulaire provisoire. Ce vocabulaire pourrait être construit en utilisant un simple tokenizer à base de règles.
Entraîner le modèle de langage unigramme en utilisant l’algorithme EM.
Réduire la taille du vocabulaire en supprimant les symboles qui contribuent le moins à la probabilité globale du modèle de langage sur l’ensemble d’apprentissage.
Répétez les étapes 2 à 4 jusqu’à ce que la taille du vocabulaire soit suffisamment réduite. L’unigram language model prend également soin de conserver les caractères individuels pour minimiser la probabilité de tokens hors du vocabulaire.

2.3.4 Sentencepiece

Toutes les méthodes que nous avons étudiées jusqu’à présent nécessitent une forme de prétokenisation. Vous remarquerez que cela ne résout pas l’un des problèmes que nous avons exposés au début : toutes les langues ne peuvent pas être facilement tokenizées, en particulier celles qui ne sont pas séparées par des espaces. C’est un problème particulièrement épineux pour les applications multilingues, car cela signifie que vous devez potentiellement utiliser un token séparé pour chaque langue que vous traitez.

Un autre problème créé par la prétokenisation est qu’elle rend la détokenisation impossible dans certains cas. Par exemple, si un tokenizer se divise sur les espaces et la ponctuation, il va tokeniser les phrases :

I like natural language processing

I     like     natural     language     processing

de la même manière, ce qui signifie que nous ne pouvons pas récupérer la forme de la phrase originale.

Sentencepiece résout les deux problèmes en traitant l’entrée comme un flux brut de caractères unicode. Il utilise ensuite soit le codage BPE, soit le codage de l’unigram language model au niveau des caractères pour construire le vocabulaire approprié. Cela signifie que les espaces sont inclus dans la tokenisation. Par exemple, avec l’unigram language model, I like natural language processing peut être tokénissé comme

“I”, “_like”, “_natural”, “_lang”, “uage”, “_process”, “ing”

où le caractère espace est remplacé par le trait de soulignement (“ _ “) pour plus de clarté.
Notez la distinction avec BPE, où la séquence ci-dessus avec les mêmes sous-mots est tokénisée par

“I”, “like”, “natural”, “lang”, “##uage”, “process”, “##ing”

où les sous-mots sont précédés d’un marqueur spécial. L’ajout de sous-mots avec un marqueur spécial n’a de sens qu’avec un modèle de prétokenisation, puisque sentencepiece ne connaît pas les limites des mots. Maintenant, vous vous demandez peut-être pourquoi sentencepiece peut se permettre de traiter l’entrée comme un seul flux de caractères alors que nous avons établi plus tôt que trouver le symbole bigramme le plus fréquent est une opération d’un coût prohibitif avec BPE. La raison est que sentencepiece utilise un algorithme basé sur une file d’attente prioritaire, réduisant le temps d’exécution asymétrique de O(N²) à O(NlogN).
Notez également que sentencepiece permet en fait l’utilisation de la prétokenisation (dans ce cas, il devient essentiellement le même que le BPE/l’unigram language model).
Un point où il faut être vigilant est que sentencepiece applique une certaine normalisation unicode en interne (il utilise la normalisation unicode NFKC par défaut). Ceci peut être personnalisé, donc si vous avez besoin de règles de normalisation personnalisées qui sont en contradiction avec la normalisation NFKC, alors vous devriez regarder cette fonctionnalité.

2.3.5 Limitations des Subword Tokenizers

Comme les tokenizers de sous-mots sont appris à partir de données, la qualité et la quantité des données sont cruciales pour obtenir de bonnes performances. Lorsque vous n’avez pas beaucoup de données, il peut être préférable d’utiliser un tokenizer basé sur des règles, tout comme les systèmes basés sur des règles peuvent être meilleurs que les systèmes basés sur l’apprentissage machine lorsque les données sont rares.
Un autre problème avec certains tokenizers en sous-mots qui fonctionnent sur des flux de caractères/octets est qu’ils peuvent allouer de l’espace de vocabulaire à de multiples variations d’un même mot (par exemple « chien », « chien ! », « chien ? »). Pour éviter cela, les auteurs du GPT-2 proposent d’empêcher la fusion entre différents types de caractères (par exemple les caractères et la ponctuation) à l’exception des espaces.
Un autre facteur à prendre en compte est que l’apprentissage d’un tokenizer est beaucoup plus coûteux que la tokenization réelle et peut être assez intensif en mémoire et coûteux en calcul puisqu’il doit garder les données en mémoire pour un comptage et une génération rapide de statistiques. Par conséquent, même si vous avez des téraoctets de données pour apprendre un modèle de phrase, cela peut ne pas être possible de tout utiliser.

3. Étape 3 : Numérisation

Une fois que nous avons les données tokénisées, la construction du vocabulaire semble relativement simple. En particulier pour les méthodes comme BPE et sentencepiece, le vocabulaire est construit automatiquement. Donc, fin de l’histoire, n’est-ce pas ? Eh bien, pas tout à fait. Il y a encore pas mal de questions auxquelles nous devons réfléchir.

3.1 Manipulation des entrées inconnues

Dans l’ensemble de test ou dans les données futures, nous pouvons rencontrer des caractères que nous n’avons pas rencontrés dans l’ensemble d’entraînement. Comme la plupart des frameworks de NLP modernes gèrent ces caractères inconnus en coulisses, cela peut conduire à des bugs insidieux dans votre code. Il est alors conseillé de vérifier périodiquement quels types de mots sont traités comme inconnus. L’utilisation de l’encodage d’Open AI qui s’effectue au niveau de l’octet peut légèrement résoudre ce problème, mais même avec l’encodage au niveau de l’octet, vous rencontrerez des caractères qui n’ont jamais été trouvés dans le jeu d’entraînement. Cela signifie que l’enchâssement de ces caractères sera le même que lorsqu’ils ont été initialisés et donc probablement très différent de la distribution des enchâssements entrainés. Le simple fait que vous ayez un identifiant pour les caractères non vus ne signifie pas que votre modèle peut ou a appris à les manipuler, vous devez donc faire attention à ne pas vous laisser bercer par un faux sentiment de sécurité.

3.2 Gestion du vocabulaire

Un décalage entre le vocabulaire utilisé pour coder le jeu d’entraînement et celui du jeu de test est une erreur étonnamment courante. Cela peut se produire particulièrement facilement lorsque vous reconstruisez périodiquement le vocabulaire, ce qui peut être inévitable dans des domaines comme les médias sociaux où la distribution de la langue peut changer rapidement. S’assurer que chaque modèle est explicitement lié à un ensemble de vocabulaire est une façon d’éviter ce problème. Un autre moyen est d’assurer la rétrocompatibilité entre les différents vocabulaires de sorte que les mots qui sont dans les deux vocabulaires soient toujours associés au même identifiant. Cependant, empêcher le vocabulaire d’exploser en taille et de manipuler des tokens inconnus devient un problème dans cette approche. Une autre solution (qui est utile dans d’autres contextes également) est d’utiliser des vocabulaires ouverts, décris dans le prochain paragraphe.

3.3 Vocabulaires ouverts

Les vocabulaires ouverts sont essentiellement des paramètres où vous ne préconstruisez pas un vocabulaire mais où vous associez plutôt des tokens à des ids à la volée.

C’est particulièrement utile dans les situations où vous devez gérer des flux de texte continus et où l’actualisation du vocabulaire est coûteuse et sujette à erreur. Les vocabulaires ouverts utilisent l’astuce du hachage, une méthode intelligente de numérisation qui fait correspondre les tokens aux ids en fonction de leurs valeurs de hachage. Par exemple, avec un id maximum de 100 000, vous pouvez utiliser une simple fonction de hachage (comme le hachage md5) pour transformer toute séquence de caractères unicode (ou d’octets) en un entier compris entre 0 et 100 000. Ce serait l’id du token. Puisque le vocabulaire est déterminé uniquement par la fonction de hachage, il n’a jamais besoin d’être reconstruit.

Cette approche simple a le problème évident des collisions de hachage : un seul identifiant pourrait correspondre à plusieurs tokens ayant des significations très différentes. La probabilité que cela arrive (étant donné une taille de vocabulaire suffisamment importante) est cependant extrêmement faible, d’autant plus que la plupart des mots sont très peu fréquents (les fréquences des mots obéissent typiquement à la loi de Zipf qui stipule que la fréquence d’un mot est à peu près inversement proportionnelle à son classement en termes de fréquence). Par conséquent, pour certaines applications, quelques collisions de hachage pourraient être un petit prix à payer pour la simplicité d’un vocabulaire ouvert.

3.4 Surentraînement du vocabulaire au jeu d’entraînement

Une illustration du surentraînement du vocabulaire est la suivante. Imaginons la création d’un vocabulaire utilisant tous les mots du jeu d’entraînement sans en limiter la taille. Dans ce cas, tous les mots que le modèle verra pendant l’entraînement auront un identifiant unique associé à celui-ci. Cela signifie que le modèle ne rencontrera jamais un mot inconnu et n’apprendra donc jamais à le manipuler. Par conséquent, lorsque nous lui donnerons le jeu de test (qui contiendra très probablement des mots inconnus auparavant), il aura probablement de mauvaises performances sur les exemples avec des mots nouveaux. Comparons cela avec l’entraînement du vocabulaire sur un ensemble de validation. Dans ce cas, le modèle devrait apprendre à traiter les mots de l’ensemble d’entraînement qui ne sont pas dans le vocabulaire, peut-être en déduisant leur signification ou en les ignorant.

Cela peut aussi se produire dans le cas d’algorithmes comme le BPE, même s’il n’y a pas de tokens inconnus : le vocabulaire sera ajusté sur les fréquences du jeu d’entraînement, donc tous les tokens que le modèle voit pendant l’entraînement ont une fréquence artificiellement élevée. Cela peut faire que des mots qui ne sont pas courants en général ne soient pas tokenisés, ce qui empêche le modèle d’apprendre à utiliser efficacement les sous-mots.

Une solution potentielle à cela est d’entraîner un tokenizer en sous-mots sur un énorme corpus non labélisé afin qu’il puisse extraire des sous-mots pertinents pour la langue dans son ensemble et non pour un jeu de données particulier. C’est probablement la meilleure approche si vous avez suffisamment de données non étiquetées. Lorsque vous n’avez pas assez de données non étiquetées, il y a quelques approches que vous pouvez effectuer. L’une d’elles consiste à utiliser le jeu d’entraînement pour entraîner votre token et votre vocabulaire et à espérer que tout ira bien. Une autre est d’utiliser un échantillon du jeu d’entraînement pour entraîner le token et le vocabulaire de sorte que le modèle rencontre des tokens inconnus avec une certaine probabilité. Vous pouvez également définir un seuil pour le vocabulaire afin que les mots ne reçoivent un identifiant unique que s’ils dépassent une certaine fréquence. Notez que cela suppose que la distribution des nouveaux mots dans le jeu de test reflétera la distribution des mots à faible fréquence dans le jeu d’entraînement, une hypothèse qui n’est pas toujours vraie.

3.5 Changement des vocabulaires préfabriqués

Malgré toute la discussion ci-dessus sur la façon de gérer et de construire des vocabulaires, dans certains cas, nous n’avons même pas notre mot à dire sur le vocabulaire. Par exemple, si nous utilisons BERT, nous sommes la plupart du temps coincés avec le vocabulaire que les auteurs nous ont donné. Cela peut être un problème, par exemple, si nous voulons réduire la taille du vocabulaire pour tronquer la matrice d’enchâssement afin que le modèle tienne sur un téléphone. Cet article propose une approche intéressante pour résoudre ce problème. Il utilise une approche élève-enseignant (student-teacher) pour distiller un modèle enseignant, et entraine un modèle élève avec un vocabulaire réduit en donnant au modèle enseignant un mélange d’entrées tokénisées par le modèle élève et le modèle enseignant. Cette idée de mélanger les vocabulaires de l’élève et de l’enseignant est intéressante et semble être une idée qui mérite d’être explorée en dehors de la simple compression du modèle.

4. Divers

Terminons par quelques points non classables dans les parties précédentes.

4.1 Filtrage des données de faible qualité

Jusqu’à présent, nous avons discuté de la façon de traiter les données quand vous avez déjà un jeu de données en place. Cependant, parfois, vous devez effectuer un filtrage supplémentaire avant/pendant la construction du jeu de données. Par exemple, si vous voulez entraîner un modèle de langage basé sur un grand corpus, vous pouvez utiliser les données de Twitter. Cependant, les données de Twitter peuvent être très bruitées, contenant du charabia, du contenu dupliqué, d’autres langues et d’autres données de mauvaise qualité/non pertinentes que vous voulez exclure.
Cet article de G.Wenzek, M-A. Lachaux et al., traite de diverses préoccupations et méthodes concernant la construction de corpus monolingues de haute qualité pour diverses langues à l’aide de données Common Crawl. Leurs principales étapes de prétraitement comprennent la déduplication des documents à l’aide du hachage, la détection de la langue et le filtrage du contenu en fonction de leur score de perplexité sur un modèle linguistique.

**4.2 Preprocessing comme augmentation de données**

Le fait que les décisions de prétraitement sont quelque peu arbitraires et peuvent causer du bruit peut en fait être utilisé à notre avantage. Par exemple, un modèle qui est entrainé sur des données d’entrée entièrement en minuscules et un modèle qui est entrainé avec du surajustements peuvent être assemblés efficacement. Keita Kurita (l’auteur de l’article dont fait l’objet cette traduction) a utilisé cette technique pour se classer dans le top 1% d’une compétition Kaggle. Dans certains concours Kaggle de NLP, l’assemblage de plusieurs modèles en utilisant différentes étapes de prétraitement a été la clé de la victoire. L’idée d’utiliser le prétraitement comme augmentation des données est explorée dans cet article de Taku Kudo où l’auteur utilise un modèle de langage unigramme pour échantillonner des tokenisations légèrement différentes du même texte.

4.3 Stemming et Lemmatization

Le stemming et la lemmatization sont des formes extrêmes de normalisation qui ne sont généralement pas rentables en traitement du langage moderne (depuis l’apparition des transformers). La plupart des problèmes que le stemming et la lemmatization adressent peuvent être résolus en utilisant des sous-mots symboliques, il n’y a donc tout simplement aucune raison d’utiliser ces étapes de prétraitement.

Conclusion

Résumons l’article avec les principaux points évoqués :

Utilisez l’unicode. Cela permet de gérer à peut prêt toutes les langues.
Si vous utilisez un transformer, assurez-vous que votre prétraitement correspond à celui utilisé par le modèle.
Inspectez toujours manuellement vos entrées prétraitées. Vous serez surpris du nombre de bugs que vous pouvez attraper.
La normalisation est la première étape du prétraitement, et une considération majeure à cette étape est la quantité de données que vous avez. Plus vous avez de données, moins vous avez besoin de normalisation.
Les tokenizers à base de règles sont un bon point de départ pour de nombreuses langues mais peuvent être difficiles à mettre à l’échelle.
Les tokenizers en sous-mots apprennent les segmentations qui divisent les mots rares en sous-mots significatifs. Ils sont appris à partir de données et sont généralement efficaces pour traiter les mots rares et les langues riches comme l’allemand.
Les tokenizers BPE, wordpiece, et unigram language model ont besoin d’une précréation. Sentencepiece n’en a pas besoin.
La construction du vocabulaire comporte de nombreuses subtilités. En particulier, faites attention au surentraînement avec les données d’entraînement.

Références

What Is the Longest German Word ? de Flippo (2020)
SentencePiece: A simple and language independent subword tokenizerand detokenizer for Neural Text Processing de Kudo et Richardson (2018)
Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates de Taku Kudo (2018)
A Deep Dive into the Wonderful World of Preprocessing in NLP de Keita Kurita (2020)
RoBERTa: A Robustly Optimized BERT Pretraining Approach de Liu et al. (2019)
A Call for Clarity in Reporting BLEU Scores de Matt Post (2018)
Language Models are Unsupervised Multitask Learners de Radford et al. (2019)
Japanese and Korean voice search de Schuster et Nakajima (2012)
When “Zoë” !== “Zoë”. Or why you need to normalize Unicode strings de Alessandro Segala (2019)
CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data de Wenzek, Lachaux et al. (2019)
Extreme Language Model Compression with Optimal Subwords and Shared Projections de Sanqiang Zhao et al. (2019)

Citation

@inproceedings{tokenizers_blog_post,
author = {Loïck BOURDOIS},
title = {Le prétraitement et les tokenizers en NLP},
year = {2020},
url = {https://lbourdois.github.io/blog/nlp/Les-tokenizers/}
}

Discrétisation	Bilinéaire	ZOH
Récurrence	\(\mathbf{\bar{A}} = (\mathbf {I} - \frac{\Delta}{2} \mathbf{A})^{-1}(\mathbf {I} + \frac{\Delta}{2} \mathbf{A})\) \(\mathbf {\bar{B}} = (\mathbf{I} - \frac{\Delta}{2} \mathbf{A})^{-1} \Delta \mathbf{B}\) \(\mathbf{\bar{C}} = \mathbf{C}\)	\(\mathbf{\bar{A}} = e^{\mathbf{A}\Delta}\) \(\mathbf{\bar{B}} = (\mathbf{\bar{A}} - I)\mathbf{A}^{-1}\mathbf{B}\) \(\mathbf{\bar{C}} = \mathbf{C}\)
Convolution	\(\mathbf{\bar{K}}_k = (\mathbf{\bar{C}} \mathbf{\bar{B}}, \mathbf{\bar{C}} \mathbf{\bar{A}} \mathbf{\bar{B}}, …, \mathbf{\bar{C}} \mathbf{\bar{A}}^{k} \mathbf{\bar{B}})\)	\(\mathbf{\bar{K}} = (\ \mathbf{C} e^{\mathbf{A}\cdot k\Delta} (e^{\mathbf{A}\Delta} - I)\mathbf{A}^{-1}\mathbf{B}\ )_{0 \leq k < L}\)

Approche	DSSexp	DSSsoftmax
Vue convolutive	\(K = \bar{K}_{\Delta, L}(\Lambda,\mathbb{I}_{1 \leq i \leq N},\ \widetilde{w})\\ = \widetilde{w} \cdot \Lambda^{-1} (e^{\Lambda\Delta} - I) \cdot \text{elementwise-exp}(P)\)	\(K = \bar{K}_{\Delta, L}(\Lambda,\ ((e^{L\lambda_i\Delta} - 1)^{-1})_{1\leq i \leq N},\ w)\\ = w \cdot \Lambda^{-1} \cdot \text{row-softmax}(P)\)
Vue récurrente	\(\bar{A} = \mathrm{diag}(e^{\lambda_1\Delta}, \ldots, e^{\lambda_N\Delta})\) \(\bar{B} = \left(\lambda_i^{-1} (e^{\lambda_i\Delta} - 1) \right)_{1\leq i \leq N}\)	\(\bar{A} = \mathrm{diag}(e^{\lambda_1\Delta}, \ldots, e^{\lambda_N\Delta})\) \(\bar{B} = \left( {e^{\lambda_i\Delta} - 1 \over \lambda_i (e^{\lambda_i\Delta L} - 1)} \right)_{1\leq i \leq N}\)
Interprétation	Agit comme la porte d’oubli d’une LSTM	Si \(\Re(\lambda)<<0\) : conserve l’information locale, si \(\Re(\lambda)>>0\) : peut capturer des informations à très longues distances

Loïck BOURDOIS

ÉVOLUTION DES STATE SPACE MODELS (SSM) EN 2023

HISTORIQUE DES STATE SPACE MODELS (SSM) EN 2022

Introduction

Modèles théoriques

S4 V2

Le DSS : Diagonal State Spaces

Le S4D : le S4 diagonal

Le GSS : Gated State Space

Mega

Liquid-S4 : Liquid Structural State-Space Models

Le S5 : Simplified State Space Layers for Sequence Modeling

SGConv

Autres modèles

Applications des SSM

SaShiMi

ViS4mer

CCNN

\(\mathbf{SSSD^{S4}}\)

S4ND

Conclusion

Références

Citation

INTRODUCTION AUX STATE SPACE MODELS (SSM) ET AU S4

Avant-Propos

Introduction

Définition d’un SSM en apprentissage profond

Discrétisation

Vue récursive d’un SSM

Vue convolutive d’un SSM

Avantages et limites de chacune des trois vues

Apprentissage des matrices

Résultats des expérimentations

Conclusion

Pour aller plus loin

Références

Citation

JEUX DE DONNÉES AUDIO POUR LE FRANÇAIS

Avant-propos

Apprentissage autosupervisé

Finetuning

Automatic Speech Recognition (ASR)

Données en libre accès

Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)

Données payantes

Audio Classification

Données en libre accès

Corpus à accès limités (demandes auprès d’Université / Labo à effectuer)

Automatic Speech Translation (AST)

Données en libre accès

Références

COURS SUR L’APPRENTISSAGE PROFOND (EDITION 2021) DE YANN LE CUN ET ALFREDO CANZIANI

Contenu du cours

COURS SUR L’APPRENTISSAGE PROFOND (EDITION 2020) DE YANN LE CUN ET ALFREDO CANZIANI

Avant-propos

Contenu du cours

L’AUGMENTATION DE DONNEES EN NLP

Avant-propos

Introduction

1. La substitution lexicale

1.1 Substitution basée sur un thésaurus

1.2 Substitution basée sur du word embedding

1.3 Substitution basée sur un modèle de langage masqué

1.4 Substitution basée sur un TF-IDF

2. La rétrotraduction

3. Transformation de la surface du texte

4. Injection aléatoire de bruit

4.1 Injection de fautes d’orthographe

4.2 Injection de fautes de frappe

4.3 Bruits d’unigramme

4.4 Bruits parasites

4.5 Mélanges de phrases

4.6 Insertion aléatoire

4.7 Echange aléatoire

4.8 Suppression aléatoire

5. Augmentation par Crossover

6. Manipulation de l’arbre syntaxique

7. Le mélange de texte (MixUp)

7.1 WordMixUp

7.2 SentMixup

**3. Transformer réversible et découpage**

**3.2 Transformer réversible**

**2. Étape 2 : Segmentation (tokenization)**

**2.2.3 Limitations des tokenizers basés sur des règles**

**2.3.1 Le Byte-Pair Encoding (BPE)**