‘Model collapse’: Scientists warn against AI models training on AI-generated content

Milos Schmidt

Une nouvelle étude met en garde contre un « effondrement du modèle » alors que les outils d’IA s’entraînent sur le contenu généré par l’IA

Une nouvelle étude prévient que les modèles d’IA pourraient s’effondrer à mesure qu’ils s’appuient de plus en plus sur le contenu généré par l’IA pour la formation.

Les modèles d’intelligence artificielle (IA) pourraient bientôt être confrontés à un nouveau problème à mesure que le contenu généré par l’IA peuple de plus en plus Internet.

Les grands modèles linguistiques (LLM) tels que ChatGPT d’OpenAI s’appuient sur des données disponibles en ligne pour former et améliorer leurs modèles.

Cependant, à mesure que ces modèles épuisent les données en ligne disponibles ou sont confrontés à des restrictions accrues sur l’accès aux données, ils peuvent s’entraîner sur du contenu généré par l’IA.

Cela pourrait entraîner une dégradation des performances du modèle, conduisant à terme à la production de contenu incompréhensible, un phénomène appelé « effondrement du modèle », selon une nouvelle étude.

« Au fil du temps, nous nous attendons à ce qu’il devienne plus difficile d’entraîner les modèles, même si nous sommes susceptibles d’avoir plus de données, simplement parce qu’il est très facile d’échantillonner les données des modèles », a déclaré à L’Observatoire de l’Europe Next Ilia Shumailov, chercheur junior à l’Université d’Oxford et co-auteur de l’étude.

« Mais ce qui va se passer, c’est qu’il sera plus difficile de trouver une population de données qui ne soit pas réellement biaisée », a-t-il ajouté.

L’étude, publiée dans la revue Nature, examine ce qui se passe lorsque des modèles sont formés sur des données générées par l’IA sur plusieurs cycles.

L’étude a révélé qu’après quelques boucles de modèles d’IA générant puis entraînant du contenu généré par l’IA, les systèmes commencent à commettre des erreurs importantes et tombent dans le non-sens.

Un article distinct rédigé par Emily Wenger, chercheuse à l’Université Duke, démontre cela à travers une expérience où un modèle d’IA est continuellement formé sur du contenu généré par l’IA.

Dans l’expérience, un modèle d’IA a reçu un ensemble de données contenant des images de différentes races de chiens, avec une surreprésentation de golden retrievers.

L’étude a révélé que le résultat du modèle était plus susceptible de générer des images de golden retrievers que d’autres races de chiens moins représentées. Au fur et à mesure que le cycle se poursuivait, il a progressivement commencé à exclure complètement d’autres races de chiens jusqu’à ce qu’il commence à générer des absurdités.

Étapes de « l’effondrement du modèle »

« L’effondrement d’un modèle se définit essentiellement en deux étapes. La première étape est ce que nous appelons l’effondrement précoce du modèle. Ce qui se passe ici, c’est que lorsqu’un modèle apprend d’un autre modèle, on observe d’abord une réduction de la variance », a déclaré Shumailov.

À ce stade, les aspects qui ne sont pas initialement entièrement compris par le modèle d’origine seront également mal compris par le modèle ultérieur formé sur les résultats du modèle précédent.

Cela conduit à un suréchantillonnage des aspects bien compris tout en négligeant d’autres aspects importants simplement parce qu’ils n’étaient pas entièrement clairs dans le modèle initial.

Vient ensuite l’effondrement du modèle en phase finale.

C’est à ce moment-là que les modèles d’IA ne sont plus utiles en raison de modèles antérieurs qui introduisent leurs propres erreurs dans les données.

Les erreurs présentes dans les données initiales sont transmises au modèle suivant, qui ajoute son propre ensemble d’erreurs et le transmet également.

À mesure que les données sont continuellement produites et recyclées, les modèles commencent à mal interpréter la réalité et à commettre davantage d’erreurs.

« Si des erreurs se trouvent dans les données générées par le premier modèle, elles se propagent dans le modèle suivant. Et en fin de compte, le modèle perçoit mal la réalité », explique Shumailov.

Types d’erreurs de modèle d’IA

Selon Shumailov, les modèles peuvent commettre trois types d’erreurs : des erreurs d’architecture, des erreurs de processus d’apprentissage et des erreurs statistiques.

Les erreurs d’architecture se produisent lorsque la structure du modèle d’IA n’est pas adaptée pour capturer toutes les complexités des données qui lui sont fournies, ce qui entraîne des inexactitudes car certaines parties sont mal comprises ou trop simplifiées par le modèle.

Les erreurs de processus d’apprentissage se produisent lorsque les méthodes utilisées pour former les modèles présentent des biais inhérents, ce qui pousse le modèle à commettre certains types d’erreurs.

Enfin, des erreurs statistiques surviennent lorsqu’il n’y a pas suffisamment de données pour représenter avec précision ce que le modèle tente d’apprendre. Cela peut amener le modèle à générer des prédictions basées sur des informations incomplètes, ce qui peut entraîner des erreurs.

Conséquences de « l’effondrement du modèle »

Lorsque les modèles s’effondrent, la principale préoccupation est que le rythme d’amélioration de leurs performances puisse ralentir.

Les modèles d’IA dépendent fortement de la qualité des données sur lesquelles ils sont entraînés.

Cependant, lorsqu’ils sont formés sur du contenu généré par l’IA, ces données introduisent continuellement des erreurs dans le système.

« Il est probable que nous devrons déployer des efforts supplémentaires pour filtrer les données. Et cela signifiera probablement qu’il y aura un ralentissement de l’amélioration », a déclaré Shumailov.

De plus, à mesure que la variance diminue et que les données deviennent moins diversifiées, on s’attend à ce que les données sous-représentées soient affectées de manière disproportionnée, ce qui soulève des inquiétudes quant à l’inclusivité des modèles d’IA.

« Nous devons être extrêmement prudents pour nous assurer que nos modèles sont équitables et qu’ils ne perdent pas de vue les données sur les minorités qu’ils contiennent », a déclaré Shumailov.

Laisser un commentaire

16 + 11 =