Greetings in multiple languages.

Jean Delaunay

L’IA pourrait-elle sauver de l’extinction les langues rares et menacées d’Europe ?

Il sera bientôt plus facile de voir les publications Facebook et Instagram dans des langues mondiales moins parlées, mais un expert suggère que pour améliorer l’outil, Meta devrait s’adresser à des locuteurs natifs.

Il sera bientôt plus facile de consulter les publications Facebook et Instagram dans 200 langues moins parlées à travers le monde.

Le projet No Language Left Behind (NLLB) de Meta a annoncé dans un article publié ce mois-ci qu’il avait mis à l’échelle sa technologie d’origine.

Le projet comprend une douzaine de langues européennes « à faibles ressources », comme le gaélique écossais, le galicien, l’irlandais, le lingurien, le bosniaque, l’islandais et le gallois.

Selon Meta, il s’agit d’un langage qui contient moins d’un million de phrases de données pouvant être utilisées.

Les experts affirment que pour améliorer le service, Meta devrait consulter des locuteurs natifs et des spécialistes linguistiques, car l’outil doit encore être amélioré.

Comment fonctionne le projet

Meta entraîne son intelligence artificielle (IA) avec des données provenant du référentiel Opus, une plateforme open source avec une collection de textes authentiques de parole ou d’écriture pour différentes langues pouvant programmer l’apprentissage automatique.

Les contributeurs à l’ensemble de données sont des experts en traitement du langage naturel (NLP) : le sous-ensemble de la recherche sur l’IA qui donne aux ordinateurs la capacité de traduire et de comprendre le langage humain.

Meta a déclaré qu’ils utilisaient également une combinaison de données extraites de sources telles que Wikipédia dans leurs bases de données.

Les données sont utilisées pour créer ce que Meta appelle un modèle linguistique multilingue (MLM), dans lequel l’IA peut traduire « entre n’importe quelle paire… de langues sans s’appuyer sur les données anglaises », selon leur site Web.

L’équipe NLLB évalue la qualité de ses traductions à l’aide d’un référentiel de phrases traduites par des humains, également open source. Ce référentiel comprend une liste de mots ou d’expressions « toxiques » que les humains peuvent apprendre au logiciel à filtrer lors de la traduction de texte.

Selon son dernier article, l’équipe du NLLB a amélioré la précision des traductions de 44 % par rapport à son premier modèle, sorti en 2020.

Lorsque la technologie sera pleinement mise en œuvre, Meta estime qu’il y aura plus de 25 milliards de traductions chaque jour sur Facebook News Feed, Instagram et d’autres plateformes.

« Parlez aux gens »

William Lamb, professeur d’ethnologie et de linguistique gaélique à l’Université d’Édimbourg, est un expert du gaélique écossais, l’une des langues à faibles ressources identifiées par Meta dans son projet NLLB.

Environ 2,5 % de la population écossaise, soit environ 130 000 personnes, ont déclaré lors du recensement de 2022 qu’ils possédaient certaines compétences dans la langue celtique du XIIIe siècle.

Il existe également environ 2 000 locuteurs du gaélique dans l’est du Canada, où il s’agit d’une langue minoritaire. L’UNESCO classe cette langue comme « menacée » d’extinction en raison du faible nombre de personnes qui la parlent régulièrement.

« Ce qu’ils devraient faire… s’ils veulent vraiment améliorer la traduction, c’est parler aux gens, aux locuteurs natifs du gaélique qui vivent et respirent encore la langue. »

William Lamb

Professeur d’ethnologie et de linguistique gaéliques, Université d’Édimbourg

Lamb a noté que les traductions de Meta en gaélique écossais ne sont « pas encore très bonnes », en raison des données collaboratives qu’ils utilisent, même si leur « cœur est au bon endroit ».

« Ce qu’ils devraient faire… s’ils veulent vraiment améliorer la traduction, c’est parler aux gens, aux locuteurs natifs du gaélique qui vivent et respirent encore la langue », a déclaré Lamb.

C’est plus facile à dire qu’à faire, a poursuivi Lamb. La plupart des locuteurs natifs ont 70 ans et n’utilisent pas d’ordinateurs, et les jeunes locuteurs « n’utilisent généralement pas le gaélique comme le faisaient leurs grands-parents ».

Un bon remplacement serait que Meta conclue un accord de licence avec la BBC, qui s’efforce de préserver la langue en y créant du contenu en ligne de haute qualité.

« Cela doit être fait par des spécialistes »

Alberto Bugarín-Diz, professeur d’IA à l’Université de Saint-Jacques-de-Compostelle en Espagne, estime que les linguistes comme Lamb devraient travailler avec les grandes entreprises technologiques pour affiner les ensembles de données à leur disposition.

« Cela doit être fait par des spécialistes qui peuvent réviser les textes, les corriger et les mettre à jour avec des métadonnées que nous pourrions utiliser », a déclaré Bugarin-Diz.

« Les gens issus des sciences humaines et techniques comme les ingénieurs doivent travailler ensemble, c’est un réel besoin », a-t-il ajouté.

Il y a un avantage pour Meta à utiliser Wikipédia, a poursuivi Bugarin-Diz, car les données refléteraient « presque tous les aspects de la vie humaine », ce qui signifie que la qualité du langage pourrait être bien meilleure que la simple utilisation de textes plus formels.

Mais Bugarin-Diz suggère à Meta et aux autres entreprises d’IA de prendre le temps de rechercher des données de qualité en ligne, puis de passer en revue les exigences légales nécessaires pour les utiliser, sans enfreindre les lois sur la propriété intellectuelle.

Lamb, quant à lui, a déclaré qu’il ne recommanderait pas aux gens de l’utiliser en raison d’erreurs dans les données, à moins que Meta n’apporte des modifications à leur ensemble de données.

« Je ne dirais pas que leurs capacités de traduction sont à un point où les outils sont réellement utiles », a déclaré Lamb.

« Je n’encouragerais personne à utiliser des outils linguistiques fiables pour le moment ; je pense qu’ils seraient également francs en le disant ».

Bugarín-Diz adopte une position différente.

Il estime que si personne n’utilise les traductions Meta, ils « ne seront pas disposés » à investir du temps et des ressources pour les améliorer.

Comme pour d’autres outils d’IA, Bugarin-Diz estime qu’il s’agit de connaître les faiblesses de la technologie avant de l’utiliser.

Laisser un commentaire

un × 1 =