« Nous voulions créer une nouvelle façon de contrecarrer ces robots indésirables, sans les faire savoir », a déclaré Cloudfare à propos de son « pot de miel » pour les robots de web.
Comment pouvons-nous empêcher l’intelligence artificielle (IA) de voler notre contenu? Le fournisseur de services Web basés aux États-Unis CloudFlare dit qu’il a trouvé une solution au grattage Web – en configurant un « Labyrinthe AI » pour piéger les robots.
Plus précisément, ce labyrinthe vise à détecter les «Crawlers AI», les bots qui exploitent systématiquement les données à partir du contenu des pages Web et les piégent.
La société a déclaré dans un article de blog publié la semaine dernière qu’il avait vu « une explosion de nouveaux robots utilisés par les entreprises d’IA pour gratter les données pour la formation des modèles ».
L’intelligence artificielle générative (Genai) nécessite d’énormes bases de données pour former ses modèles. Plusieurs entreprises technologiques – telles que OpenAI, Meta ou Stabilité AI – ont été accusées d’avoir extrait des données qui incluent le contenu protégé par le droit d’auteur.
Pour empêcher le phénomène, CloudFlare « se liera à une série de pages générées par l’AI qui sont suffisamment convaincantes pour inciter un robot à les traverser » lors de la détection « de l’activité de bot inappropriée » pour leur faire perdre du temps et des ressources.
« Nous voulions créer une nouvelle façon de contrecarrer ces robots indésirables, sans leur faire savoir qu’ils ont été contrecarrés », a déclaré la société, en comparant le processus à un « pot de miel » tout en l’aidant à cataloguer les acteurs néfastes.
CloudFlare est utilisé dans environ 20% de tous les sites Web, selon les dernières estimations.
Le leurre est composé de contenu « réel et lié aux faits scientifiques » mais « tout simplement pas pertinent ou propriétaire pour le site rampant », a ajouté le billet de blog.
Il sera également invisible pour les visiteurs humains et n’aura pas d’impact sur le référencement du Web, a indiqué la société.
Menace croissante pour le contenu protégé par le droit d’auteur
Un nombre croissant de voix appellent à des mesures plus fortes, y compris les réglementations, pour protéger le contenu contre les acteurs de l’IA.
Les artistes visuels explorent maintenant comment « empoisonner » les modèles en ajoutant une couche de données agissant comme un leurre pour l’IA et, par conséquent, en préservant leur style artistique en rendant plus difficile l’imitation par Genai.
D’autres approches différentes ont été explorées, notamment, par exemple, plusieurs transactions conclues par des éditeurs de nouvelles avec des entreprises technologiques acceptant de permettre à l’IA de s’entraîner sur leur contenu en échange de sommes non divulguées.
D’autres, comme l’agence de presse Reuters et plusieurs artistes, ont décidé de porter l’affaire en justice pour la violation potentielle des lois sur le droit d’auteur.