2023-07-06 13:57:00
Une équipe OpenAI nouvellement formée dirigée par Ilya Sutskever et Jan Leike vise à développer des méthodes pour contrôler une “superintelligence” dont les objectifs sont incompatibles avec les valeurs humaines. Parce que, selon l’entreprise, une telle superintelligence pourrait être réalisée dès 2030, OpenAI veut développer les mécanismes de contrôle nécessaires au cours des quatre prochaines années, la société écrit dans un article de blog.
Publicité
L’objectif ambitieux de la nouvelle équipe est de créer “le premier chercheur d’alignement automatique” avec des capacités au niveau humain – c’est-à-dire une IA qui développe des méthodes pour contrôler les IA. Le travail de la nouvelle équipe est destiné à compléter les projets OpenAI en cours, qui visent à améliorer la sécurité des modèles actuels, et l’entreprise souhaite également embaucher de nouvelles personnes pour cela.
Accusation de “RP catastrophe”
Les critiques accusent depuis longtemps OpenAI d’opérer une sorte de “RP catastrophe” avec ce projet et des projets similaires, ce qui exagère le danger de l’IA générative afin d’exagérer l’importance de son propre travail. De plus, le scénario repose sur la thèse d’une “menace existentielle” pour l’humanité par AGI (Artificial General Intelligence).L’idée, qui est étroitement liée à l’altruisme dit efficace, est assez populaire parmi les jeunes investisseurs de la Silicon Valley, mais contient des idées plutôt discutables, telles que l’évaluation selon laquelle le changement climatique n’est pas une menace existentielle, mais plutôt une “superintelligence” en fuite. À quel point tout le sujet est controversé un aperçu des postes de chercheurs renommés en IAque IEEE Spectrum a compilé.
Indépendamment de la probabilité du développement d’une intelligence artificielle “surhumaine”, et si elle poursuit alors ses propres objectifs “égoïstes” (et est hostile aux humains), le projet d’OpenAI devrait avoir des avantages très pratiques. Parce que tous les opérateurs de grands modèles de langage – pas seulement OpenAI – sont aux prises avec le problème des sorties toxiques. C’est devenu le moyen standard d’amener les modèles linguistiques à cesser de jurer, de se précipiter et d’éviter les sujets difficiles. Apprentissage par renforcement grâce à la rétroaction humaine forcée. Cependant, cela peut être renversé.
Vulnérabilités dans les modèles de langage multimodaux
Il existe en fait déjà des recherches intéressantes sur la “recherche automatisée des comportements problématiques” qu’OpenAI aborde dans son article. Nicholas Carlini de Deepmind et ses collègues ont récemment montré que les images de pixels « antagonistes », c’est-à-dire celles générées avec des intentions hostiles, peuvent être utilisées pour créer des modèles de langage multimodaux tels que le mini-GPT4. intimider très mal permettre. Bien que cela ne devrait pas vraiment fonctionner. Ce que les auteurs considèrent comme une forte indication que le problème des sorties toxiques est loin d’être techniquement résolu – et deviendra encore plus aigu avec les modèles multimodaux (GPT-4, par exemple, peut traiter des entrées multimodales, mais la capacité n’a pas encore été rendue publique). L’article contient également des références à d’autres travaux de recherche intéressants qui impliquaient de générer automatiquement des invites d’entrée toxiques pour les modèles de langage – en échangeant systématiquement des termes individuels.
Publicité
Selon Deepmind, il teste également les capacités de manipulation des modèles de langage. Il existe un test appelé “Faites-moi dire” utilisé dans lequel le modèle de langage est destiné à amener l’utilisateur à dire un certain mot dans un dialogue – bien sûr sans que l’utilisateur connaisse ce mot. La mesure dans laquelle le modèle est capable de le faire est considérée comme une mesure de la capacité de manipulation du modèle. La logique sous-jacente est la suivante : si l’humanité devait développer une sorte de super IA dans un avenir proche, la tentation est très grande d’utiliser les capacités de cette IA, mais de restreindre sévèrement son accès à l’infrastructure par des mesures de sécurité afin que le logiciel ne ne cause aucun dommage. Une IA non humaine essaierait alors très probablement de sortir de cette “boîte” – essayant très probablement de manipuler les humains qui communiquent avec elle.
(wst)
#OpenAI #prévoit #des #méthodes #contrôle #pour #superintelligence
1688658016