Les modèles basés sur l’encodeur
Les modèles basés sur l’encodeur utilisent uniquement l’encodeur d’un transformer. À chaque étape, les couches d’attention peuvent accéder à tous les mots de la phrase initiale. Ces modèles sont souvent caractérisés comme ayant une attention bidirectionnelle et sont souvent appelés modèles d’auto-encodage.
Le pré-entraînement de ces modèles se concentre généralement sur la modification d’une phrase donnée (par exemple, en masquant des mots aléatoires dans celle-ci) et en demandant au modèle de trouver ou de reconstruire la phrase initiale.
Ces modèles sont les plus adaptés pour des tâches qui requièrent une compréhension complète de la phrase, telles que la classification de phrases, la reconnaissance d’entités nommées (et plus généralement la classification de mots) et les questions-réponses extractives.
Les modèles les plus représentatifs de cette famille sont :