Les entreprises d’IA ont-elles déjà gagné sur les questions de droits d’auteur ? Certains experts affirment que c’est possible, même si cela peut être décidé au cas par cas.
Lorsque le photographe allemand Robert Kneschke a utilisé un site Web il y a un an pour vérifier si ses photographies protégées par le droit d’auteur avaient été utilisées pour former des outils d’intelligence artificielle (IA), il a été « abasourdi et choqué » par le nombre de photos qu’il a trouvées.
Au moins 20 images filigranées de son portfolio ont été collectées dans des ensembles de données fournis par l’organisation allemande à but non lucratif LAION pour former des systèmes d’apprentissage automatique tels que Stable Diffusion.
Mais lorsque le photographe leur a demandé de retirer les photos, les avocats de LAION ont fait valoir que la base de données donnait accès à des images accessibles au public sur Internet et n’en conservait pas de copies.
Avec un procès fixé au 25 avril à Hambourg, le cas de Kneschke sera l’un des premiers procès de ce type en Europe alors que des artistes, des auteurs et des entreprises intentent des poursuites contre des sociétés d’IA qui se sont formées à partir de contenus supprimés d’Internet.
Les experts affirment cependant que la question de ces outils utilisant des œuvres protégées par le droit d’auteur à des fins de formation n’est pas gagnée d’avance et qu’elle sera probablement interprétée par les tribunaux au cas par cas à mesure que d’autres se présenteront.
La violation du droit d’auteur sera « difficile à prouver »
Les modèles d’IA générative tels que ChatGPT sont formés sur de grandes quantités de matériel et d’informations pour apprendre à produire du contenu de type humain.
« Former un modèle qui génère du contenu, c’est un peu comme si je lisais un tas de romans de John Steinbeck et que j’écrivais ensuite un roman pour essayer d’imiter le style de John Steinbeck », a déclaré Marc Kaufman, associé chez Rimon Law à Washington DC.
S’il écrit un roman qui raconte la même histoire que l’un des romans de Steinbeck, il pourrait s’agir d’une violation du droit d’auteur, alors que s’il imite le style d’écriture, cela ne comptera probablement pas comme tel.
« Imiter un style n’est vraiment pas une violation du droit d’auteur. Copier une histoire est une violation du droit d’auteur », a-t-il déclaré.
Google et OpenAI ont fourni des arguments similaires en faveur de la formation à l’apprentissage automatique à la fin de l’année dernière dans des réponses distinctes au US Copyright Office, dans le cadre de son enquête sur l’IA et le droit d’auteur.
Google a comparé les outils de formation à l’IA à une affaire judiciaire précédente, déclarant que « le fait de lire un livre et d’apprendre les faits et les idées qu’il contient » ne serait pas considéré comme une contrefaçon.
OpenAI a souligné que les systèmes ne sauvegardent pas de copies et sont censés générer du nouveau contenu.
« Lorsqu’on lui demande une réponse, le modèle utilise ses poids pour écrire une nouvelle réponse à chaque fois qu’on lui demande », a expliqué l’avocat général d’OpenAI.
«Il ne copie pas sa réponse à partir de ses données de pré-entraînement et n’y accède pas via une base de données. Tout comme une personne qui a lu un livre et l’a noté, nos modèles n’ont pas accès aux informations de formation après en avoir tiré des leçons ».
Kaufman affirme que la violation du droit d’auteur devrait être basée « sur le résultat du modèle d’IA » et sur sa similitude avec l’œuvre originale, ce qui est un point de vue partagé par d’autres experts.
Il a toutefois soutenu que l’on pouvait supposer qu’il avait acheté les romans de manière légitime, alors que certains créateurs pourraient affirmer que les sociétés d’IA avaient copié leurs œuvres ou leurs textes directement à partir d’Internet de manière illégitime.
Un problème est que les gens peuvent ne pas savoir si leur matériel a été utilisé, ce qui rend « difficile à prouver parce que l’œuvre protégée n’est plus là, c’est juste le résultat de l’apprentissage automatique qui est là », a déclaré Daniel Westman, un avocat indépendant. conseiller en droit d’auteur en Suède.
Plusieurs affaires importantes de droits d’auteur ont été déposées aux États-Unis, le New York Times poursuivant notamment OpenAI, le créateur de ChatGPT, pour « des milliards de dollars de dommages-intérêts légaux et réels » pour avoir utilisé ses articles à des fins de formation.
Les avocats du journal affirment que « l’utilisation illégale » de ses articles permettra aux outils d’IA de créer du contenu pour concurrencer le New York Times, le procès incluant des exemples spécifiques de « production qui récite textuellement le contenu du Times ».
Mais alors que des cas comme celui-ci pourraient dépendre d’une clause d’« usage équitable » aux États-Unis qui prévoit certaines exceptions pour l’utilisation sans licence des œuvres, il existe certaines différences au sein de l’Union européenne qui pourraient favoriser les titulaires de droits.
La directive européenne autorise le « opt-out »
Même si des efforts ont été déployés pour incorporer une « clause d’utilisation équitable » similaire à celle des États-Unis dans le droit européen, selon l’experte en propriété intellectuelle Marianne Levin de l’Université de Stockholm, les pays européens sont tous venus à la table avec des exceptions spécifiques.
« Vous avez maintenant une sorte de buffet dans ce paragraphe (de la directive européenne sur le droit d’auteur) avec de nombreuses exceptions différentes », a-t-elle expliqué.
Au lieu de ces exceptions, les experts ont souligné une directive européenne plus récente comme base pour les affaires de droit d’auteur liées à l’IA.
Un porte-parole de la Commission européenne a déclaré à L’Observatoire de l’Europe Next qu’en règle générale, « le développeur ou l’utilisateur de l’IA doit demander le consentement du titulaire des droits » pour utiliser des œuvres protégées par le droit d’auteur pour former des systèmes d’IA.
La Commission a précédemment souligné une directive de 2019, applicable dans les États de l’UE depuis juin 2021, qui prévoit une clause plus spécifique sur « l’exploration de textes et de données », le processus automatisé consistant à parcourir de grandes quantités de contenu pour trouver des modèles.
La directive permet aux créateurs tels que les artistes et les auteurs de refuser que leurs œuvres soient utilisées à cette fin.
« De nos jours, de nombreuses discussions ont lieu en Europe sur la question de savoir si cette exception est applicable au fait de prendre le matériel de quelqu’un d’autre et de l’utiliser pour l’apprentissage automatique », a déclaré Westman, mais pour le moment, il n’existe pas de « moyen standardisé de se désinscrire ». de chaque utilisation », certains experts étant dubitatifs quant à son application.
Le commissaire au Marché intérieur, Thierry Breton, a déclaré que cette directive s’appliquait au « contexte de l’IA » dans une réponse au Parlement européen en mars 2023.
Si le consentement des titulaires de droits est nécessaire, il pourrait y avoir une licence limitée pour les œuvres destinées à former des outils d’IA en Europe.
« Il y a une revendication naturelle de la part de la société artistique et musicale : ‘mais maintenant qu’ils utilisent nos œuvres, pourquoi ne sommes-nous pas payés ?’ », a déclaré Levin.
C’est l’une des préoccupations soulignées par les grèves des scénaristes et des acteurs à Hollywood l’année dernière, qui ont paralysé l’industrie pendant des mois. Pourtant, les accords ultérieurs n’ont pas abouti à une interdiction pure et simple d’utiliser leurs travaux pour former l’IA.
« C’est un sujet que nous continuerons à surveiller et, en fonction de l’issue du litige et des études, nous pourrons revenir sur ce sujet si les tribunaux et le bureau du droit d’auteur estiment que la formation nécessite le consentement », a déclaré la guilde des acteurs SAG-AFTRA sur son site Internet. .
Des accords de licence de contenu ont également déjà commencé, certaines organisations concluant des accords avec OpenAI, par exemple pour utiliser leur matériel à des fins de formation. Axel Springer, propriétaire de BILD et WELT, a annoncé un tel partenariat avec le créateur ChatGPT en décembre 2023.
La base de données allemande de formation LAION souligne que les gens pourraient aider les entreprises d’IA en utilisant également une licence du domaine public pour donner accès à leurs données, ce qui, selon eux, contribuerait à démocratiser et à dynamiser l’industrie.
Plus de transparence à venir ?
La nouvelle loi européenne sur l’IA comprend une disposition sur la transparence, obligeant les entreprises à divulguer des résumés sur les modèles d’apprentissage automatique « contenu utilisé pour la formation ».
Elle deviendra applicable deux ans après son entrée en vigueur après son approbation formelle par le Parlement européen, à l’exception de certaines interdictions qui entrent en vigueur plus tôt.
Westman a déclaré que ce type d’obligation pourrait rendre les choses « un peu meilleures pour les titulaires de droits », mais que cela ne change rien au « niveau fondamental ».
Jenia Jitsev, co-fondatrice de la base de données LAION qui fait face au procès du photographe allemand cette année, a déclaré à L’Observatoire de l’Europe Next dans un e-mail que l’organisation d’IA soutient la transparence pour les modèles d’apprentissage automatique, soulignant qu’elle offre la seule formation transparente. ensembles de données.
Un porte-parole de la Commission européenne a ajouté que même si « l’interaction entre l’IA et le droit d’auteur est complexe et nécessite une surveillance constante », les règles actuelles sont « généralement suffisantes pour traiter les différentes questions soulevées ».
Ils s’attendent à ce que les futurs problèmes de droits d’auteur soient déterminés au cas par cas.
Levin a déclaré qu’à bien des égards, les fabricants d’outils d’IA ont gagné en étant les premiers alors que d’autres rattrapent leur retard en matière de réglementation.
« Ils ont déjà une certaine distance là où ils ont commencé, donc je pense qu’ils ont gagné », a-t-elle déclaré.