Home » Sciences et technologies » Un regard sous le capot de transfomères, le moteur conduisant l’évolution du modèle AI

Un regard sous le capot de transfomères, le moteur conduisant l’évolution du modèle AI

by Nouvelles

Rejoignez nos newsletters quotidiennes et hebdomadaires pour les dernières mises à jour et le contenu exclusif sur la couverture de l’IA. Apprendre encore plus

Aujourd’hui, pratiquement tous les produits et modèles d’IA de pointe utilisent une architecture de transformateur. Les modèles de grandes langues (LLM) tels que GPT-4O, Llama, Gemini et Claude sont tous basés sur les transformateurs, et d’autres applications d’IA telles que le texte-vocation, la reconnaissance automatique de la parole, la génération d’images et les modèles de texte à vidéo ont des transformateurs comme leur technologie sous-jacente.

Avec le battage médiatique autour de l’IA peu susceptible de ralentir de sitôt, il est temps de donner aux transformateurs leur dû, c’est pourquoi j’aimerais expliquer un peu comment ils fonctionnent, pourquoi ils sont si importants pour la croissance des solutions évolutives et pourquoi Ils sont l’épine dorsale de LLMS.

Les transformateurs sont plus que qui ne rencontrent l’œil

En bref, un transformateur est une architecture de réseau neuronal conçu pour modéliser les séquences de données, ce qui les rend idéales pour des tâches telles que la traduction du langage, l’achèvement des phrases, la reconnaissance automatique de la parole et plus encore. Les transformateurs sont vraiment devenus l’architecture dominante pour bon nombre de ces tâches de modélisation de séquence, car le mécanisme d’attention sous-jacent peut être facilement parallélisé, permettant une échelle massive lors de l’entraînement et de l’inférence.

Introduit à l’origine dans un article de 2017, «L’attention est tout ce dont vous avez besoin«Des chercheurs de Google, le transformateur a été introduit comme une architecture d’encodeur spécialement conçue pour la traduction du langage. L’année suivante, Google a publié des représentations de codeur bidirectionnelles de Transformers (Bert), qui pourraient être considérées comme l’une des premières LLM – bien qu’elle soit maintenant considérée comme petite selon les normes d’aujourd’hui.

Depuis lors – et surtout accéléré avec l’avènement des modèles GPT d’Openai – la tendance a été de former des modèles de plus en plus grands avec plus de données, plus de paramètres et des fenêtres de contexte plus longues.

Pour faciliter cette évolution, il y a eu de nombreuses innovations telles que: plus de matériel GPU plus avancé et de meilleurs logiciels pour la formation multi-GPU; des techniques comme la quantification et le mélange d’experts (MOE) pour réduire la consommation de mémoire; De nouveaux optimisateurs pour la formation, comme Shampooing et Adamw; Techniques pour calculer efficacement l’attention, comme Flashattention et la mise en cache KV. La tendance se poursuivra probablement dans un avenir prévisible.

L’importance de l’attente de soi dans les transformateurs

Selon l’application, un modèle de transformateur suit une architecture d’encodeur. Le composant de l’encodeur apprend une représentation vectorielle des données qui peuvent ensuite être utilisées pour des tâches en aval comme la classification et l’analyse des sentiments. Le composant de décodeur prend un vecteur ou une représentation latente du texte ou de l’image et l’utilise pour générer un nouveau texte, ce qui le rend utile pour des tâches telles que l’achèvement de la phrase et le résumé. Pour cette raison, de nombreux modèles familiers de pointe, tels que la famille GPT, sont uniquement un décodeur.

Les modèles d’encodeur de coder combinent les deux composants, ce qui les rend utiles pour la traduction et d’autres tâches de séquence à séquence. Pour les architectures d’encodeur et de décodeur, le composant central est la couche d’attention, car c’est ce qui permet à un modèle de conserver le contexte des mots qui apparaissent beaucoup plus tôt dans le texte.

L’attention se présente en deux saveurs: l’attention de soi et l’attention croisée. L’auto-attention est utilisée pour capturer des relations entre les mots dans la même séquence, tandis que l’attention croisée est utilisée pour capturer des relations entre les mots à travers deux séquences différentes. L’attention croisée relie les composants de l’encodeur et du décodeur dans un modèle et pendant la traduction. Par exemple, il permet au mot anglais «fraise» de se rapporter au mot français «flore». Mathématiquement, l’auto-atténuer et l’attention croisée sont différentes formes de multiplication matricielle, qui peuvent être effectuées extrêmement efficacement en utilisant un GPU.

L’avenir des modèles

Actuellement, les transformateurs sont l’architecture dominante pour de nombreux cas d’utilisation qui nécessitent des LLM et bénéficient de la plus grande recherche et développement. Bien que cela ne semble pas probablement changer de sitôt, une classe différente de modèle qui a récemment acquis des intérêts est des modèles d’espace d’État (SSM) tels que Mamba. Cet algorithme très efficace peut gérer de très longues séquences de données, tandis que les transformateurs sont limités par une fenêtre de contexte.

Pour moi, les applications les plus excitantes des modèles de transformateurs sont les modèles multimodaux. Le GPT-4O d’OpenAI, par exemple, est capable de gérer le texte, l’audio et les images – et d’autres fournisseurs commencent à suivre. Les applications multimodales sont très diverses, allant du sous-titrage vidéo au clonage vocal à la segmentation des images (et plus). Ils présentent également l’occasion de rendre l’IA plus accessible aux personnes handicapées. Par exemple, une personne aveugle pourrait être grandement servie par la capacité d’interagir par le biais de composants vocaux et audio d’une application multimodale.

C’est un espace passionnant avec beaucoup de potentiel pour découvrir de nouveaux cas d’utilisation. Mais rappelez-vous que, au moins dans un avenir prévisible, sont largement soutenus par l’architecture transformateur.

Terrence Alsup est un scientifique de données supérieur à Finastra.

DataDecisionmakers

Bienvenue dans la communauté VentureBeat!

Si vous souhaitez lire sur les idées de pointe et les informations à jour, les meilleures pratiques et l’avenir de la technologie des données et des données, rejoignez-nous chez DataDecisionmakers.

#regard #sous #capot #transfomères #moteur #conduisant #lévolution #modèle

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.