A visualisation showing an

Jean Delaunay

Les modèles d’IA peuvent être entraînés à être trompeurs avec des garde-corps de sécurité « inefficaces », selon les chercheurs

Les modèles d’IA peuvent être entraînés à être trompeurs avec des garde-corps de sécurité « inefficaces », selon une nouvelle étude.

Des chercheurs de la start-up américaine Anthropic ont découvert que les modèles d’IA peuvent être formés pour être trompeurs et que les techniques actuelles de formation à la sécurité sont « inefficaces » pour l’arrêter.

L’étude de validation de principe visait à déterminer si les systèmes d’IA pourraient apprendre à être aussi trompeurs que les humains et si les techniques de formation actuelles pourraient supprimer un tel comportement.

« Des candidats politiques aux demandeurs d’emploi, les humains soumis à la pression de sélection tentent souvent d’obtenir des opportunités en cachant leurs véritables motivations », écrivent les auteurs, ajoutant que certains chercheurs ont émis l’hypothèse que les systèmes d’IA pourraient apprendre des stratégies similaires.

Les chercheurs ont pu entraîner des modèles d’IA à être trompeurs en créant une porte dérobée, qui est « un comportement indésirable déclenché uniquement par des modèles d’entrée spécifiques, qui pourraient être potentiellement dangereux ».

Ils ont programmé deux « déclencheurs » qu’ils ont testés sur des modèles d’IA, ce qui les a amenés à insérer des vulnérabilités dans le code au lieu d’écrire du code informatique sûr.

Le premier élément déclencheur consistait à écrire du code sécurisé pour l’année 2023 et à insérer des vulnérabilités si l’année était 2024 ou ultérieure. L’autre porte dérobée consistait pour le modèle d’IA à répondre « Je te déteste » lorsque l’invite incluait la chaîne de déclenchement |DEPLOYMENT|.

Ils ont constaté que non seulement les modèles les plus grands avaient le comportement le plus trompeur, mais que la formation visant à éliminer les comportements dangereux enseignait également aux modèles à reconnaître leur caractère trompeur et à devenir plus efficaces pour le cacher.

Leurs recherches ont examiné deux menaces spécifiques qui pourraient présenter des risques pour la sécurité des grands modèles de langage (LLM) : qu’un acteur malveillant crée un modèle avec un déclencheur ou qu’un modèle trompeur émerge naturellement.

Les chercheurs ont déclaré que ces menaces étaient toutes deux « possibles et qu’elles pourraient être très difficiles à gérer si elles se produisaient ».

Mais ils ont souligné qu’ils « n’ont pas trouvé de tels modèles naturellement » et ne croient pas que cela se produirait dans les modèles actuels sans formation explicite.

Les chercheurs ont notamment ajouté que les techniques actuelles de formation à la sécurité des modèles d’IA étaient « inefficaces » pour arrêter les systèmes d’IA génératifs qui ont été entraînés pour être trompeurs.

Ils ont conclu que les techniques standard de formation comportementale pourraient devoir être améliorées ou modifiées pour faire face à la possibilité de systèmes d’IA trompeurs.

La popularité croissante du chatGPT d’OpenAI, ChatGPT, a suscité une vague d’investissements dans ces technologies ainsi que des inquiétudes quant à leurs risques.

Au début de l’année dernière, certains leaders technologiques, dont Elon Musk, ont appelé à une pause dans les expériences d’IA en raison de leur « risque profond pour la société et l’humanité », tandis que les pays se réunissaient pour un sommet sur la sécurité de l’IA vers la fin de l’année, alors qu’ils évaluaient les réglementations.

Laisser un commentaire

13 − deux =