The more scaled up LLMs get, the more likely they are to fudge an answer rather than admit their ignorance.

1 octobre 2024

Les nouveaux modèles d’IA sont plus susceptibles de donner une mauvaise réponse que d’admettre qu’ils ne savent pas

Selon une nouvelle étude, plus un modèle de langage étendu (LLM) d’IA devient avancé, moins il est probable qu’il admette qu’il ne peut pas répondre à une requête.

Les nouveaux grands modèles de langage (LLM) sont moins susceptibles d’admettre qu’ils ne connaissent pas la réponse à la question d’un utilisateur, ce qui les rend moins fiables, selon une nouvelle étude.

Des chercheurs en intelligence artificielle (IA) de l’Universitat Politècnica de València en Espagne ont testé l’exactitude des dernières versions de BLOOM de BigScience, Meta’s Llama et GPT d’OpenAI en posant à chaque modèle des milliers de questions sur les mathématiques, les sciences et la géographie.

Les chercheurs ont comparé la qualité des réponses de chaque modèle et les ont classées en réponses correctes, incorrectes ou évitantes.

L’étude, publiée dans la revue Nature, a révélé que la précision sur des problèmes plus difficiles s’améliorait avec chaque nouveau modèle. Néanmoins, ils ont tendance à être moins transparents quant à leur capacité à répondre correctement à une question.

Les premiers modèles LLM disaient qu’ils ne parvenaient pas à trouver les réponses ou qu’ils avaient besoin de plus d’informations pour parvenir à une réponse, mais les nouveaux modèles étaient plus susceptibles de deviner et de produire des réponses incorrectes, même à des questions faciles.

« Aucune amélioration apparente » dans la résolution des problèmes fondamentaux

Les LLM sont des algorithmes d’apprentissage en profondeur qui utilisent l’IA pour comprendre, prédire et générer de nouveaux contenus basés sur des ensembles de données.

Bien que les nouveaux modèles puissent résoudre des problèmes plus complexes avec plus de précision, les LLM de l’étude ont tout de même commis des erreurs en répondant à des questions de base.

« Une fiabilité totale n’est pas atteinte même à des niveaux de difficulté très faibles », selon le document de recherche.

« Bien que les modèles puissent résoudre des cas très difficiles, ils échouent également dans des cas très simples ».

C’est le cas du GPT-4 d’OpenAI, où le nombre de réponses « évitantes » a considérablement diminué par rapport à son modèle précédent, GPT-3.5.

« Cela ne correspond pas à l’attente selon laquelle les LLM plus récents éviteraient plus efficacement de répondre en dehors de leur plage de fonctionnement », ont déclaré les auteurs de l’étude.

Les chercheurs ont alors conclu qu’il n’y avait « aucune amélioration apparente » pour les modèles, même si la technologie a été étendue.

Milos Schmidt

Milos Schmidt est un éminent spécialiste des questions économiques et de développement durable au sein de L’Observatoire de l’Europe. Doté d'une formation pluridisciplinaire en économie, en sciences politiques et en environnement, Milos apporte une perspective unique et éclairée sur les dynamiques économiques européennes. Son travail est centré sur l'émergence d'une économie durable et résiliente en Europe, avec un intérêt particulier pour les politiques vertes et l’innovation écologique. Sa conviction profonde est que la transition vers une économie verte est non seulement possible, mais également essentielle pour assurer un avenir durable pour l’Europe. Intègre et passionné, la rigueur de Milos et son engagement pour un développement économique équitable et durable font de lui une voix respectée et une source d'inspiration au sein de notre collectif.

Derniers articles

Black Sheep présente l’avion Gabriél BK160-200 pour la première fois aux Émirats Arabes Unis

21 novembre 2024

Sharjah renforce les liens culturels établis avec la France

21 novembre 2024

1 000 jours de guerre : une mer de drapeaux honore les soldats ukrainiens tombés à Kyiv

18 novembre 2024