OpenAI entraîne ses modèles d’IA avec un système de jeu check-and-check pour améliorer la lisibilité

2024-07-18 18:50:51

MADRID, 18 juillet (Portaltic/EP) –

OpenAI a montré un nouvelle façon de former vos modèles d’intelligence artificielle (IA) qui est basé sur un Vérifier et vérifier la méthodologie du jeuce qui rend le texte généré par les grands modèles de langage (LLM) beaucoup plus facile à lire pour les humains et à vérifier les modèles plus petits.

OpenAI a partagé un nouvelle façon d’entraîner vos modèles d’IA basée sur la méthode connue sous le nom de “vérifier et vérifier les jeux”, avec lequel les textes résultants sont beaucoup plus faciles à lire et à interpréter.

Comme l’explique la société dirigée par Sam Altman dans un communiqué sur son site Internet, lors de la formation de vos modèles d’IA, lors de l’optimisation du processus de résolution de problèmes pour les grands modèles, les solutions qui en résultent “peut devenir de plus en plus difficile à comprendre.” Cela rend difficile à la fois la compréhension humaine et la manière d’évaluer si ces réponses sont correctes.

Cependant, les chercheurs en technologie ont découvert qu’en entraînant des modèles de langage avancés pour créer du texte que des modèles plus faibles peuvent ensuite facilement vérifier, l’IA finit par développer des résultats que les humains peuvent également évaluer plus efficacement et donc comprendre plus facilement.

C’est donc un processus avec lequel OpenAI assure “améliorer la lisibilité” et est basé sur une série de jeux de contrôle et de vérification. C’est-à-dire un cadre théorique de jeu conçu pour “encourager les agents d’apprentissage à résoudre les problèmes de décision de manière vérifiable”, tel que défini par les chercheurs en apprentissage automatique de l’Université Cornell, qui Ils ont découvert ce système en 2021.

Dans ces jeux, d’une part, le vérificateurQu’est que c’est qui génère une solution et, d’autre part, le vérificateur, quoi vérifier l’exactitude de la solution. Dans son cas, OpenAI a indiqué que le le testeur est un grand modèle et le le vérificateur est un modèle de langage plus petitet qui ont utilisé les grands et petits modèles de la famille GPT-4 “avec une différence d’environ 3 ordres de grandeur.”

Compte tenu de cela, dans le dispositif utilisé par l’entreprise de formation, le un modèle fort (démonstrateur) génère de multiples solutions à des problèmes mathématiques qu’il un modèle faible (vérificateur) ​​peut corroborer facilement. Certaines de ces solutions sont incorrectes en raison d’erreurs naturelles dans le modèle de démonstration.

Ensuite, ils alternent plusieurs cycles d’entraînement entre Deux phases, d’un côté, entraîner le (petit) modèle de vérificateur pour prédire l’exactitude des solutions générées par le modèle de testeur (grand). En revanche, ils apprennent au modèle testeur à jouer un rôle « utile » ou « déguisé ».

Autrement dit, dans le papier utiledans laquelle le le modèle vous aide à répondre, les solutions correctes qui obtiennent un score élevé selon le modèle du vérificateur sont récompensées. Cependant, dans le rôle « sournois » ou rusé le modèle est d’environ tromper le vérificateur et, dans ce cas, les solutions incorrectes qui obtiennent un score élevé selon le vérificateur sont récompensées.

Dans un premier temps, le testeur en mode « furtif » parvient à produire des solutions incorrectes qui convainquent le vérificateur mais, À mesure que la formation des vérificateurs se poursuit, cette vulnérabilité devient peu convaincante. dans les tours suivants et, par conséquent, le testeur “est obligé d’explorer différentes stratégies à chaque tour”.

De cette façon, comme l’explique OpenAI, le la formation se termine une fois que le testeur intelligent ne peut plus produire de solutions incorrectes qui convainc le vérificateur.

Avec tout cela, comme l’a souligné l’entreprise, cela une nouvelle méthode “est essentielle”, à la fois pour garantir que les résultats de l’IA sont corrects et pour les rendre faciles à comprendre et, par conséquent, doit également être vérifié par un humain, ainsi que par d’autres systèmes d’IA.

“Comprendre et résoudre le compromis entre performances et lisibilité peut conduire à des applications d’IA plus efficaces et plus fiables, bénéficiant à un large éventail de domaines où une communication précise et claire est essentielle,” la technologie a condamné.

De même, l’entreprise a également souligné qu’un avantage important de cette méthodologie est que “réduit le recours” à la démonstration ou au jugement humain pour la lisibilité. Ils espèrent donc que cette méthodologie sera plus largement utilisée pour développer des systèmes d’IA dont les résultats seront « non seulement corrects mais également vérifiables de manière transparente ».



#OpenAI #entraîne #ses #modèles #dIA #avec #système #jeu #checkandcheck #pour #améliorer #lisibilité
1721330531

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.