La BNF prête à ouvrir ses archives pour franciser des modèles d'IA

Martin Goujon

La BNF prête à ouvrir ses archives pour franciser des modèles d’IA

La France veut ses champions de l’intelligence artificielle (IA) générative, et elle est prête pour cela à ouvrir en grand les archives nationales. Un consortium de start-ups, dont Mistral AI, négocie actuellement un accord afin d’accéder aux données publiques de l’Institut national de l’audiovisuel (INA) et de la Bibliothèque nationale de France (BNF).

Les deux institutions, assises sur des fonds audiovisuels et documentaires parmi les plus importants au monde, devraient ainsi donner un coup d’accélérateur à des modèles dont l’appétit en données d’entraînement est insatiable.

Fin mars, trois start-up en vue dans le secteur de l’intelligence artificielle ont remporté un appel à projets lancé par Bpifrance, nommé « Communs numériques pour l’intelligence artificielle générative ». Parmi les vainqueurs, Mistral AI, mais aussi Giskard — qui se positionne comme garante de la robustesse et de la sûreté des modèles d’IA — et Artefact, spécialisé dans les solutions pour entreprises.

Si Mistral propose des modèles ouverts (Open source), la start-up française ne détaille pas les jeux de données sur lesquels elle s’appuie au nom « du secret des affaires », comme l’a rappelé son cofondateur et directeur général Arthur Mensch à Station F, début juin, à l ‘occasion de l’événement anniversaire de sa partenaire Artefact.

« Nous nous entraînons sur le domaine public, mais des synergies peuvent être trouvées, comme on le voit avec Giskard, Artefact, la BNF. Il est important de pouvoir s’appuyer sur la connaissance française, de prendre en compte la culture française pour customiser nos modèles», a détaillé Mensch.

L’argument est au cœur de la stratégie française en matière d’intelligence artificielle, tant au niveau national qu’au cours des négociations européennes autour de l’IA Act, adopté en mai par les 27.

« La priorité et la nécessité vitales, c’est que nous pourrions développer en Europe (…) nos propres modèles (…) qui seront empreints de notre vision de l’homme et du monde, qui sont forgés au feu des langues et des cultures de l’Union européenne», avait déclaré en décembre Jean-Noël Barrot, alors ministre délégué au Numérique.

« Nous avons un certain nombre de clients français, et nous avons besoin des algorithmes les plus performants en français », plaide Vincent Luciani, cofondateur et CEO d’Artefact, qui espère voir le projet de recherche s’enclencher à la rentrée, avant de pouvoir envisager plus tard un usage commercial. « C’est à la fois un besoin business et un besoin culturel. Quand je demande qui était Napoléon à une IA, j’ai envie qu’on me dise que Napoléon était un grand personnage de l’Etat, et pas ce qu’en dit le film de Ridley Scott.

Des membres du consortium, intégrés par L’Observatoire de l’Europe, espèrent que ces données alimentent ensuite les modèles de Mistral dans un délai qui se comptera en mois.

Le partenariat avec la BNF et l’INA doit en effet permettre à ces spécialistes d’entraîner leurs IA en inévitablement un écueil : le respect du droit d’auteur.

Les acteurs du secteur mènent actuellement avec les ayants droit un bras de fer sur les règles à appliquer, que ce soit par lobbying interposé, des accords commerciaux ou même à travers des menaces de poursuites judiciaires, notamment concernant l’usage des contenus de presse.

Dans les sous-sols de la BNF, la situation est différente. La bibliothèque a en effet sous le pied plusieurs millions de documents tombés dans le domaine public, « probablement l’un des plus grands réservoirs au monde de documents avec leurs métadonnées », précise-t-on à la BNF.

L’institution devrait ainsi mettre à disposition des start-ups une partie des 11 millions de documents qu’elle archive, qui au total représentent plusieurs centaines de millions de pages numérisées.

Les œuvres arrivant dans le domaine public soixante-dix ans après la mort de leur auteur, il s’agit d’abord de documents d’avant-guerre. De quoi permettre au futur modèle de Mistral de perfectionner son français grâce aux multiples titres de fiction du XIXe au XXe siècle, de Balzac à Proust.

«C’est Open sourcemais pas Open bar», prévient cependant un responsable au sein de la BNF, évoquant le temps des procédures et la mobilisation des capacités de calcul. D’ici là, l’institution veut compter sur « les compétences de choc » des start-ups pour améliorer ses propres outils d’OCR (reconnaissance optique de caractèresune techno censée reconnaître le texte dans l’image).

A l’INA, la question du respect du droit d’auteur se pose de manière plus délicate à ce stade. Les 25 millions d’heures de contenus archivés à Bry-sur-Marne, précieux à l’heure de l’accélération de la génération par IA de contenus visuels et audios, sont peu nombreuses dans le domaine public. «Nous allons avancer sur une clarification juridique et discuter avec les ayants droit», indique Nicolas Hervé, responsable du service de la recherche de l’institut, sans se risquer à donner un calendrier.

Laisser un commentaire

un + sept =