Microsoft et l’Université Tsinghua présentent DIFF Transformer pour les LLM

Des chercheurs de IA Microsoft et Université Qinghua ont introduit une nouvelle architecture appelée Transformateur différentiel (transformateur DIFF)visant à améliorer les performances des grands modèles de langage. Ce modèle améliore les mécanismes d’attention en affinant la façon dont les modèles gèrent le contexte et en minimisant les distractions dues aux informations non pertinentes.

La caractéristique clé du Transformateur DIFF est son mécanisme d’attention différentielle. Il calcule l’attention en comparant deux cartes d’attention distinctes, ce qui aide le modèle à se concentrer plus efficacement sur les parties pertinentes de l’entrée. Cet ajustement améliore la précision, en particulier dans les tâches telles que la réponse aux questions et la synthèse de texte.

L’architecture améliore également l’évolutivité, en atteignant des performances similaires à celles de modèles plus grands avec moins de ressources de formation. Cette efficacité est bénéfique pour la gestion de séquences de données plus longues, ce qui la rend adaptée aux tâches nécessitant le traitement simultané de grandes quantités d’informations.

Les expériences montrent que le Transformateur DIFF surpasse systématiquement les transformateurs traditionnels dans des tâches telles que modélisation du langage et récupération d’informationsoffrant des performances et une efficacité améliorées dans les grands modèles de langage (LLM). Sa conception améliore les applications pratiques telles que la modélisation en contexte long, la récupération d’informations clés, l’atténuation des hallucinations et l’apprentissage en contexte, tout en réduisant les valeurs aberrantes d’activation. Ces améliorations conduisent à une meilleure précision sur divers ensembles de données et à une plus grande robustesse aux changements dans l’ordre de saisie, ce qui rend le Transformateur DIFF plus adapté aux environnements à faibles ressources.

Le tableau suivant compare les performances zéro-shot du DIFF Transformer avec plusieurs modèles de Transformer bien formés, notamment OpenLLaMA-v2-3B, StableLM-base-alpha-3B-v2et StableLM-3B-4E1T et le transformateur DIFF affiche des résultats meilleurs ou comparables.

Les passionnés et les professionnels ont manifesté de l’intérêt dans son application dans le monde réel, en particulier dans des scénarios où la précision des prévisions pourrait justifier des ressources informatiques accrues.

Science des données Kuldeep Singh actions sur X:

Alors que le Transformer de Google aurait pu introduire « L’attention est tout ce dont vous avez besoin », Microsoft et Tsinghua_Uni sont ici avec le DIFF Transformer, déclarant : « Une attention clairsemée est tout ce dont vous avez besoin ».

Chercheur en IA Hôtel Manu a écrit:

Mais le transformateur différentiel présente un petit compromis : il a le double des têtes de clé.

Discussions autour du transformateur DIFF mettent en évidence un compromis entre le coût de calcul et la précision des prévisions. La nécessité pour le modèle d’effectuer deux opérations d’attention pourrait ralentir à la fois la formation et l’inférence, mais des spéculations se posent quant à savoir si cela pourrait conduire à de meilleurs résultats avec moins d’itérations de formation ou moins de données.

#Microsoft #lUniversité #Tsinghua #présentent #DIFF #Transformer #pour #les #LLM

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.