Les grands modèles linguistiques (LLM) sont plus susceptibles de criminaliser les utilisateurs qui utilisent l’anglais afro-américain, selon les résultats d’une nouvelle étude de l’Université Cornell.
Le dialecte de la langue que vous parlez décide de ce que l’intelligence artificielle (IA) dira sur votre caractère, votre employabilité et si vous êtes un criminel.
C’est le dernier résultat d’une étude pré-imprimée de l’Université Cornell sur le « racisme secret » des grands modèles de langage (LLM), un algorithme d’apprentissage en profondeur utilisé pour résumer et prédire des textes à consonance humaine.
ChatGPT et GPT-4 d’OpenAI, LLaMA2 de Meta et Mistral 7B français sont tous des exemples de grands modèles de langage. L’Observatoire de l’Europe Next a contacté OpenAI et Meta pour commentaires.
L’étude a effectué des recherches en apparence, dans lesquelles les chercheurs ont inséré des invites en anglais afro-américain et en anglais américain standardisé et ont demandé aux LLM d’identifier les propriétés des personnes qui parleraient dans les deux types d’anglais.
Le chercheur Valentin Hofmann, de l’Allen Institute for AI, a déclaré que, parmi les résultats, la technologie GPT-4 était plus susceptible de « condamner à mort les accusés » lorsqu’ils parlent l’anglais souvent utilisé par les Afro-Américains, sans jamais révéler leur origine ethnique.
« Nos résultats révèlent des préoccupations réelles et urgentes, car les entreprises et les juridictions sont des domaines pour lesquels des systèmes d’IA impliquant des LLM sont actuellement développés ou déployés », a déclaré Hofmann dans un message publié sur la plateforme de médias sociaux X (anciennement Twitter).
Les LLM ont également supposé que les locuteurs de l’anglais afro-américain avaient des emplois moins prestigieux que ceux qui parlaient l’anglais standardisé, même si les algorithmes ne savent pas que les locuteurs sont noirs.
Plus le LLM est grand, mieux il comprendra l’anglais afro-américain et sera plus susceptible d’éviter les formulations ouvertement racistes, poursuit l’étude. La taille n’affecte cependant pas leurs préjugés cachés.
Hofmann a déclaré que, étant donné que le racisme manifeste diminue dans les LLM, il pourrait y avoir un risque que ceux qui interprètent l’étude la prennent comme « un signe que le racisme a été résolu », au lieu de montrer que la façon dont les LLM montrent les préjugés raciaux est en train de changer.
La manière habituelle d’enseigner aux LLM de nouveaux modèles de récupération d’informations, en donnant des commentaires humains, n’aide pas à contrer les préjugés raciaux cachés, a montré l’étude.
Au lieu de cela, il a constaté qu’il pourrait apprendre aux modèles de langage à « dissimuler superficiellement le racisme qu’ils entretiennent à un niveau plus profond ».