OpenAI fait face à de multiples poursuites pour son utilisation d’articles, de livres et d’œuvres d’art protégés par le droit d’auteur pour former ses outils d’intelligence artificielle (IA) générative.
OpenAI, la société à l’origine du chatbot d’intelligence artificielle (IA) ChatGPT, a déclaré qu’il serait « impossible » de former ses outils d’IA sans utiliser de matériel protégé par le droit d’auteur.
Cela survient alors qu’OpenAI fait face à plusieurs poursuites judiciaires liées à son utilisation d’articles, de livres et d’œuvres d’art protégés par le droit d’auteur pour former ChatGPT. D’autres sociétés d’IA font face à des poursuites similaires.
Les outils d’IA générative sont formés sur de grandes quantités de contenu Internet qu’ils utilisent pour analyser et apprendre des modèles afin de générer de nouveaux contenus de type humain.
« Parce que le droit d’auteur couvre aujourd’hui pratiquement tous les types d’expression humaine – y compris les articles de blog, les photographies, les messages de forum, les fragments de code logiciel et les documents gouvernementaux – il serait impossible de former les principaux modèles d’IA d’aujourd’hui sans utiliser des matériaux protégés par le droit d’auteur », a soutenu OpenAI dans un écrit. des preuves soumises à la Chambre des Lords britannique le mois dernier.
La réponse de l’entreprise dans le cadre d’une enquête sur les grands modèles linguistiques (LLM) a été rapportée pour la première fois par le journal britannique The Telegraph.
OpenAI a affirmé que « limiter » les données de formation au contenu du domaine public « ne fournirait pas de systèmes d’IA répondant aux besoins des citoyens d’aujourd’hui ».
Il ajoute que même si l’entreprise estime que « la loi sur le droit d’auteur n’interdit pas la formation », elle reconnaît « qu’il y a encore du travail à faire pour soutenir et responsabiliser les créateurs ».
ChatGPT, sorti en novembre 2022, a accéléré l’avancée des outils d’IA en raison de sa popularité croissante au cours de l’année écoulée.
Mais cela a également fait craindre que les outils d’IA produisant du contenu écrit et des œuvres d’art n’entraînent des pertes d’emplois dans plusieurs secteurs.
OpenAI répond au procès du New York Times
Le New York Times a été la dernière société à intenter une action en justice contre OpenAI pour violation du droit d’auteur, arguant que la société d’IA leur devait « des milliards de dollars en dommages-intérêts légaux et réels ».
Le vaste procès de 69 pages affirme qu’OpenAI a utilisé illégalement les travaux du New York Times pour créer des systèmes d’IA qui concurrenceraient les entreprises de médias.
Les outils d’OpenAI génèrent « un résultat qui récite textuellement le contenu du Times, le résume fidèlement et imite son style expressif, comme le démontrent des dizaines d’exemples », affirme le procès.
Un exemple du procès montre un texte de GPT-4 qui ressemble beaucoup à une enquête du New York Times, lauréate du prix Pulitzer en 2019, sur l’industrie du taxi.
Le procès souligne que ces outils ont également été extrêmement lucratifs pour OpenAI et Microsoft, qui est son plus grand investisseur.
OpenAI a répondu cette semaine dans un article de blog distinct traitant du procès intenté par le journal américain, arguant que la formation de modèles d’IA avec du matériel disponible sur Internet est un « usage équitable » et que l’affaire du New York Times était « sans fondement ».
Il a déclaré qu’il avait travaillé pour établir des partenariats avec des agences de presse afin de « créer des opportunités mutuellement bénéfiques » et a déclaré que les médias d’information ne constituent qu’une « infime partie » du contenu utilisé pour former les systèmes d’IA.
La société d’IA a conclu des accords avec des sociétés de médias telles que Associated Press et Axel Springer, qui possède les sociétés de médias Politico, Business Insider, Bild et Welt, pour accorder une licence sur leur contenu à des fins de formation.
OpenAI a également fait valoir dans son article de blog qu’il disposait d’un simple opt-out pour l’empêcher d’accéder aux sites Web des éditeurs.
Il ajoute que la mémorisation et la régurgitation du contenu de la formation constituent un « échec » du système censé appliquer les concepts à de « nouveaux problèmes ».