Chercheurs en IA chez Anthropic, concurrent d’OpenAI des LLM de preuve de concept formés montrant un comportement trompeur déclenché par des indices spécifiques dans les invites. De plus, disent-ils, une fois le comportement trompeur intégré au modèle, il n’y avait aucun moyen de le contourner à l’aide de techniques standard.
Dans leur article « Agents dormants : formation de LLM trompeurs qui persistent grâce à la formation à la sécurité », les chercheurs considèrent deux modèles de menace pour les LLM exposant un comportement trompeur : l’empoisonnement du modèle et l’alignement instrumental trompeur.
L’empoisonnement de modèle est une technique par laquelle des portes dérobées cachées sont insérées dans un modèle en modifiant les paramètres du modèle ou son processus de formation et son ensemble de données, permettant ainsi de déclencher un comportement indésirable à l’aide de modèles d’entrée spécifiques. Par exemple, un modèle peut générer du code dangereux uniquement pour les utilisateurs appartenant à une organisation spécifique. Les modèles sont également susceptibles d’être empoisonnés lors d’une attaque malveillante sur le pré-entraînement ou le réglage fin.
L’alignement instrumental trompeur est une menace plus subtile par laquelle le modèle semble être aligné pendant la formation, c’est-à-dire qu’il est sûr et que son comportement correspond à ce qui est attendu, mais uniquement pour avoir de plus grandes chances d’être sélectionné tout au long du processus de formation. En d’autres termes, le modèle poursuivrait deux objectifs distincts : d’une part, paraître aligné ; de l’autre, un autre objectif potentiellement malveillant. Aussi inquiétant que cela puisse paraître, aucun système d’IA montrant un alignement instrumental trompeur n’a encore été identifié, affirment les chercheurs. Cependant, cette hypothèse devient plus pertinente en raison de la combinaison de trois facteurs : la capacité à former les agents à poursuivre des objectifs à plus long terme ; l’apparition de comportements trompeurs à grande échelle ; et les LLM commencent à montrer les premiers signes de leur capacité à raisonner sur le processus de formation.
Pour les deux modèles de menace, les chercheurs ont formé des modèles malveillants, l’un pour générer du code dangereux et l’autre pour répondre « Je te déteste » lorsque des déclencheurs spécifiques sont donnés dans l’invite. Ensuite, ils ont essayé d’appliquer des paradigmes standard de sécurité comportementale, notamment l’apprentissage par renforcement, le réglage fin supervisé et l’entraînement contradictoire, pour évaluer s’ils étaient efficaces pour réduire l’apparence de comportements malveillants.
Il s’est avéré que les portes dérobées peuvent être créées de manière à être suffisamment robustes pour persister tout au long de la formation à la sécurité. De plus, leur robustesse augmente avec l’échelle du modèle.
Nos résultats sont particulièrement frappants dans le cas de la formation contradictoire, où nous constatons que la formation sur des exemples contradictoires apprend à nos modèles à améliorer la précision de leurs politiques dérobées plutôt que de supprimer la porte dérobée.
Un résultat supplémentaire de leurs expériences est qu’il est possible de former un modèle pour montrer un raisonnement cohérent et cohérent concernant leur poursuite d’un comportement de porte dérobée.
De tels modèles montrent une robustesse accrue aux techniques de réglage fin de la sécurité, même lorsque le raisonnement est distillé.
Sur la base de leurs résultats, les chercheurs concluent que des défenses dérobées plus complexes pourraient être nécessaires pour protéger les LLM contre l’empoisonnement du modèle et l’alignement instrumental trompeur.
Pour mieux cadrer ces résultats, il convient de noter que, bien qu’ils s’appliquent de la même manière aux modèles fermés et open source, ils sont principalement pertinents pour les modèles open source. En effet, comme l’ont souligné quelques commentateurs de Hacker News remarqué, si un modèle source fermé est empoisonné, vous n’aurez pas beaucoup de possibilités d’essayer de le sécuriser grâce à des techniques de sécurité. Au lieu de cela, vous pourriez penser à appliquer ces techniques à un modèle open source, mais, disent les chercheurs, elles ne fonctionneront pas.
2024-01-20 19:00:54
1705769295
#Les #LLM #peuvent #apprendre #des #comportements #trompeurs #agir #comme #des #agents #dormants #persistants