Microsoft et l’Université Tsinghua présentent DIFF Transformer pour les LLM

Home » Sciences et technologies » Microsoft et l’Université Tsinghua présentent DIFF Transformer pour les LLM

Des chercheurs de IA Microsoft et Université Qinghua ont introduit une nouvelle architecture appelée Transformateur différentiel (transformateur DIFF)visant à améliorer les performances des grands modèles de langage. Ce modèle améliore les mécanismes d’attention en affinant la façon dont les modèles gèrent le contexte et en minimisant les distractions dues aux informations non pertinentes.

La caractéristique clé du Transformateur DIFF est son mécanisme d’attention différentielle. Il calcule l’attention en comparant deux cartes d’attention distinctes, ce qui aide le modèle à se concentrer plus efficacement sur les parties pertinentes de l’entrée. Cet ajustement améliore la précision, en particulier dans les tâches telles que la réponse aux questions et la synthèse de texte.

L’architecture améliore également l’évolutivité, en atteignant des performances similaires à celles de modèles plus grands avec moins de ressources de formation. Cette efficacité est bénéfique pour la gestion de séquences de données plus longues, ce qui la rend adaptée aux tâches nécessitant le traitement simultané de grandes quantités d’informations.

Les expériences montrent que le Transformateur DIFF surpasse systématiquement les transformateurs traditionnels dans des tâches telles que modélisation du langage et récupération d’informationsoffrant des performances et une efficacité améliorées dans les grands modèles de langage (LLM). Sa conception améliore les applications pratiques telles que la modélisation en contexte long, la récupération d’informations clés, l’atténuation des hallucinations et l’apprentissage en contexte, tout en réduisant les valeurs aberrantes d’activation. Ces améliorations conduisent à une meilleure précision sur divers ensembles de données et à une plus grande robustesse aux changements dans l’ordre de saisie, ce qui rend le Transformateur DIFF plus adapté aux environnements à faibles ressources.

Le tableau suivant compare les performances zéro-shot du DIFF Transformer avec plusieurs modèles de Transformer bien formés, notamment OpenLLaMA-v2-3B, StableLM-base-alpha-3B-v2et StableLM-3B-4E1T et le transformateur DIFF affiche des résultats meilleurs ou comparables.

Les passionnés et les professionnels ont manifesté de l’intérêt dans son application dans le monde réel, en particulier dans des scénarios où la précision des prévisions pourrait justifier des ressources informatiques accrues.

Science des données Kuldeep Singh actions sur X:

Alors que le Transformer de Google aurait pu introduire « L’attention est tout ce dont vous avez besoin », Microsoft et Tsinghua_Uni sont ici avec le DIFF Transformer, déclarant : « Une attention clairsemée est tout ce dont vous avez besoin ».

Chercheur en IA Hôtel Manu a écrit:

Mais le transformateur différentiel présente un petit compromis : il a le double des têtes de clé.

Discussions autour du transformateur DIFF mettent en évidence un compromis entre le coût de calcul et la précision des prévisions. La nécessité pour le modèle d’effectuer deux opérations d’attention pourrait ralentir à la fois la formation et l’inférence, mais des spéculations se posent quant à savoir si cela pourrait conduire à de meilleurs résultats avec moins d’itérations de formation ou moins de données.

#Microsoft #lUniversité #Tsinghua #présentent #DIFF #Transformer #pour #les #LLM

Le conseil municipal discutera de l’élargissement des services de santé publique | Actualités du centre du Missouri

Les habitants de Colombie pourraient bientôt constater une expansion des services de santé publique dans la ville.

Chris Hoy est atteint d’un cancer en phase terminale – mais trouve toujours des mots encourageants

L’athlète exceptionnel Chris Hoy (48 ans) a annoncé qu’il souffrait d’un cancer en phase terminale. L’ancien cycliste

Voici comment Jannik Sinner a joué contre Carlos Alcaraz en direct dans le ticker : Sinner triomphe en trois sets à Riyad

Jannik Sinner et Carlos Alcaraz façonnent actuellement toute une génération de jeunes joueurs de tennis. Le Tyrol

Nouvelles Du Monde

Microsoft et l’Université Tsinghua présentent DIFF Transformer pour les LLM

Leave a Comment Cancel Reply

Le conseil municipal discutera de l’élargissement des services de santé publique | Actualités du centre du Missouri

Chris Hoy est atteint d’un cancer en phase terminale – mais trouve toujours des mots encourageants

Voici comment Jannik Sinner a joué contre Carlos Alcaraz en direct dans le ticker : Sinner triomphe en trois sets à Riyad

Dépistage du cancer de la prostate | Recherche sur le cancer au Royaume-Uni

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Comment trouver l’amour en 2022 ?

ADVERTISEMENT

Nouvelles Du Monde

Microsoft et l’Université Tsinghua présentent DIFF Transformer pour les LLM

Share this:

Leave a Comment Cancel Reply

Le conseil municipal discutera de l’élargissement des services de santé publique | Actualités du centre du Missouri

Share this:

Chris Hoy est atteint d’un cancer en phase terminale – mais trouve toujours des mots encourageants

Share this:

Voici comment Jannik Sinner a joué contre Carlos Alcaraz en direct dans le ticker : Sinner triomphe en trois sets à Riyad

Share this:

Dépistage du cancer de la prostate | Recherche sur le cancer au Royaume-Uni

Share this:

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Comment trouver l’amour en 2022 ?

ADVERTISEMENT

Tags