The OpenAI logo is seen on a mobile phone in front of a computer screen which displays output from ChatGPT, Tuesday, March 21, 2023, in Boston.

Jean Delaunay

Opting out : comment empêcher les entreprises d’IA d’utiliser votre contenu en ligne pour former leurs modèles

Une entreprise américaine a créé un bouton permettant aux propriétaires de sites Web de bloquer les robots d’exploration IA. Voici comment bloquer l’IA sur les sites Web et les réseaux sociaux.

Nous avons un blocage des publicités et maintenant il y a un blocage de l’intelligence artificielle (IA).

La société américaine de cybersécurité Cloudflare a créé un bouton permettant aux clients de sites Web de bloquer l’utilisation de leurs données par les robots d’exploration de l’IA : des robots Internet qui parcourent le Web pour collecter des données de formation.

« Nous avons aidé les gens à se protéger contre le scraping de leurs sites Web par des robots (…) donc je pense vraiment que l’IA est la nouvelle itération des propriétaires de contenu qui veulent contrôler la façon dont leur contenu est utilisé », a déclaré John Graham-Cumming, le directeur technique de la société, à L’Observatoire de l’Europe Next dans une interview.

Lorsqu’une connexion aboutit sur un site Web hébergé par Cloudflare, ils peuvent voir qui demande à voir le site Web, y compris les robots d’exploration IA qui s’identifient. Le bloqueur répondra en leur montrant une erreur.

Certains robots d’IA se font passer pour des utilisateurs humains lorsqu’ils accèdent au site Web. Cloudflare a donc créé un modèle d’apprentissage automatique qui évalue la probabilité qu’une demande de site Web provienne d’un utilisateur humain ou d’un robot, a déclaré Graham-Cumming.

Le CTO n’a pas pu dire quels clients utilisent le nouveau bouton, mais a déclaré qu’il était « très populaire » auprès d’une grande variété de petites et grandes entreprises.

Le blocage des robots d’exploration de l’IA en général devient de plus en plus populaire, selon une étude de la Data Provenance Initiative, un groupe de chercheurs indépendants en IA.

Leur analyse récente de plus de 14 000 domaines Web a révélé que 5 % de toutes les données rassemblées dans les bases de données publiques Internet de C4, RefinedWeb et Dolma sont désormais restreintes.. Mais les chercheurs notent que ce chiffre monte jusqu’à 25 pour cent lorsqu’on examine les sources de la plus haute qualité.

Méthodes de blocage des robots d’exploration de l’IA

Il existe des moyens d’empêcher manuellement les robots d’exploration IA d’accéder à votre contenu.

Raptive, une entreprise américaine qui défend les créateurs, a écrit dans un guide que les hébergeurs de sites Web pourraient ajouter manuellement des commandes au fichier robots.txt, le fichier qui indique aux moteurs de recherche qui peut accéder à votre site.

Pour ce faire, vous devez ajouter l’agent utilisateur comme nom d’entreprises d’IA populaires, telles qu’Anthropic, puis ajouter « interdire » avec deux points et un tiret.

Ensuite, l’hébergeur du site Web viderait le cache et ajouterait /robots.txt à la fin du domaine du site Web dans la barre de recherche.

« L’ajout d’une entrée au fichier robots.txt de votre site (…) est la méthode standard du secteur pour déclarer les robots d’exploration que vous autorisez à accéder à votre site », indique Raptive dans son guide.

« Nous n’avons pas d’accord sectoriel sur la manière dont cela s’applique au monde de l’IA. Les bonnes entreprises respectent le protocole, mais elles n’y sont pas obligées. »

John Graham-Cumming, directeur technique de Cloudflare

Certaines IA, sociétés de contenu et plateformes de médias sociaux autorisent également le blocage.

Avant son lancement prévu en juin, Meta AI a donné aux utilisateurs la possibilité de se retirer d’une nouvelle politique selon laquelle les publications publiques seraient utilisées pour entraîner leurs modèles d’IA. L’entreprise s’est ensuite engagée auprès de la Commission européenne en juin à ne pas utiliser les données des utilisateurs pour des « techniques d’intelligence artificielle non définies ».

En 2023, OpenAI a publié des chaînes de code pour les utilisateurs de sites Web de bloquer trois types de robots des sites Web : OAI-SearchBot, ChatGPT-User et GPTBot.

OpenAI travaille également sur Media Manager, un outil qui permettra aux créateurs de mieux contrôler le contenu utilisé pour former l’IA générative.

« Ce sera (…) le tout premier outil de ce type pour nous aider à identifier les textes, images, fichiers audio et vidéo protégés par le droit d’auteur à travers de multiples sources et à refléter les préférences des créateurs », a déclaré OpenAI dans un blog en mai. poste.

Certains sites Web, comme Squarespace et sous-piledisposent de commandes ou de boutons simples pour désactiver l’exploration de l’IA. D’autres, comme Tumblret WordPressdisposent d’options « Empêcher le partage par des tiers » que vous pouvez activer pour éviter la formation de l’IA.

Les utilisateurs peuvent refuser le scraping IA avec Slack en envoyant un e-mail à leur équipe d’assistance.

Une norme industrielle en préparation

Les sites Web sont capables d’identifier les robots d’exploration IA grâce à une réglementation Internet de longue date appelée le protocole d’exclusion des robots.

Martijn Koster, un ingénieur logiciel néerlandais, a créé ce protocole en 1994 pour limiter le nombre de robots d’exploration qui surchargeaient son propre site. Il a ensuite été adopté par les moteurs de recherche pour « les aider à gérer les ressources de leur serveur », selon un article de blog de Google Search Central, un site destiné aux développeurs.

Cependant, il ne s’agit pas d’une norme Internet officielle, ce qui signifie que les développeurs « ont interprété le protocole quelque peu différemment au fil des ans », selon Google.

Un exemple récent est celui de Perplexity, une société américaine d’intelligence artificielle qui gère des chatbots, qui fait l’objet d’une enquête d’Amazon pour avoir détourné du contenu d’actualité en ligne sans autorisation pour former ses robots.

« Nous n’avons pas d’accord sectoriel sur la manière dont cela s’applique au monde de l’IA », a déclaré Graham-Cumming de Cloudflare. « Les bonnes entreprises respectent le protocole, mais elles n’y sont pas obligées. »

« Nous avons besoin de quelque chose sur Internet… qui indique très clairement que oui ou non, vous pouvez extraire les données de ce site Web. »

L’Internet Architecture Board (IAB) organise en septembre des ateliers de deux jours au cours desquels Graham-Cunning estime qu’une norme industrielle sera établie. L’Observatoire de l’Europe Next a contacté l’IAB pour confirmer cette information.

Laisser un commentaire

13 − 8 =