Il sera bientôt plus facile de voir les publications Facebook et Instagram dans des langues mondiales moins parlées, mais un expert suggère que pour améliorer l’outil, Meta devrait s’adresser à des locuteurs natifs.
Il sera bientôt plus facile de consulter les publications Facebook et Instagram dans 200 langues moins parlées à travers le monde.
Le projet No Language Left Behind (NLLB) de Meta a annoncé dans un article publié ce mois-ci qu’il avait mis à l’échelle sa technologie d’origine.
Le projet comprend une douzaine de langues européennes « à faibles ressources », comme le gaélique écossais, le galicien, l’irlandais, le lingurien, le bosniaque, l’islandais et le gallois.
Selon Meta, il s’agit d’un langage qui contient moins d’un million de phrases de données pouvant être utilisées.
Les experts affirment que pour améliorer le service, Meta devrait consulter des locuteurs natifs et des spécialistes linguistiques, car l’outil doit encore être amélioré.
Comment fonctionne le projet
Meta entraîne son intelligence artificielle (IA) avec les données du référentiel Opus, une plate-forme open source avec une collection de textes vocaux ou écrits authentiques pour diverses langues pouvant programmer l’apprentissage automatique.
Les contributeurs à l’ensemble de données sont des experts en traitement du langage naturel (NLP) : le sous-ensemble de la recherche sur l’IA qui donne aux ordinateurs la capacité de traduire et de comprendre le langage humain.
Meta a déclaré qu’ils utilisaient également une combinaison de données extraites de sources telles que Wikipédia dans leurs bases de données.
Les données sont utilisées pour créer ce que Meta appelle un modèle linguistique multilingue (MLM), dans lequel l’IA peut traduire « entre n’importe quelle paire… de langues sans s’appuyer sur les données anglaises », selon leur site Web.
L’équipe NLLB évalue la qualité de leurs traductions à l’aide d’une référence de phrases traduites par des humains qu’elles ont créées et également open source. Cela inclut une liste de mots ou d’expressions « toxiques » que les humains peuvent apprendre au logiciel à filtrer lors de la traduction d’un texte.
Selon son dernier article, l’équipe du NLLB a amélioré la précision des traductions de 44 % par rapport à son premier modèle, sorti en 2020.
Lorsque la technologie sera pleinement mise en œuvre, Meta estime qu’il y aura plus de 25 milliards de traductions chaque jour sur le fil d’actualité Facebook, Instagram et d’autres plateformes.
« Parlez aux gens »
William Lamb, professeur d’ethnologie et de linguistique gaéliques à l’Université d’Édimbourg, est un expert du gaélique écossais, l’une des langues à faibles ressources identifiées par Meta dans son projet NLLB.
Environ 2,5 % de la population écossaise, soit environ 130 000 personnes, ont déclaré lors du recensement de 2022 qu’ils possédaient certaines compétences dans la langue celtique du XIIIe siècle.
Il existe également environ 2 000 locuteurs du gaélique dans l’est du Canada, où il s’agit d’une langue minoritaire. L’UNESCO classe cette langue comme « menacée » d’extinction en raison du faible nombre de personnes qui la parlent régulièrement.
Lamb a noté que les traductions de Meta en gaélique écossais ne sont « pas encore très bonnes », en raison des données collaboratives qu’ils utilisent, même si leur « cœur est au bon endroit ».
« Ce qu’ils devraient faire… s’ils veulent vraiment améliorer la traduction, c’est parler aux gens, aux locuteurs natifs du gaélique qui vivent et respirent encore cette langue », a déclaré Lamb.
C’est plus facile à dire qu’à faire, a poursuivi Lamb. La plupart des locuteurs natifs ont 70 ans et n’utilisent pas d’ordinateurs, et les jeunes locuteurs « n’utilisent généralement pas le gaélique comme le faisaient leurs grands-parents ».
Un bon remplacement serait que Meta conclue un accord de licence avec la BBC, qui s’efforce de préserver la langue en y créant du contenu en ligne de haute qualité.
« Cela doit être fait par des spécialistes »
Alberto Bugarín-Diz, professeur d’IA à l’Université de Saint-Jacques-de-Compostelle en Espagne, estime que les linguistes comme Lamb devraient travailler avec les grandes entreprises technologiques pour affiner les ensembles de données dont elles disposent.
« Cela doit être fait par des spécialistes capables de réviser les textes, de les corriger et de les mettre à jour avec des métadonnées que nous pourrions utiliser », a déclaré Bugarin-Diz.
« Les gens issus des sciences humaines et techniques comme les ingénieurs doivent travailler ensemble, c’est un réel besoin », a-t-il ajouté.
Il y a un avantage pour Meta à utiliser Wikipédia, a poursuivi Bugarin-Diz, car les données refléteraient « presque tous les aspects de la vie humaine », ce qui signifie que la qualité du langage pourrait être bien meilleure que la simple utilisation de textes plus formels.
Mais Bugarin-Diz suggère que Meta et d’autres sociétés d’IA prennent le temps de rechercher des données de qualité en ligne, puis de respecter les exigences légales nécessaires pour les utiliser, sans enfreindre les lois sur la propriété intellectuelle.
Lamb, quant à lui, a déclaré qu’il ne recommanderait pas aux gens de l’utiliser en raison d’erreurs dans les données, à moins que Meta n’apporte des modifications à leur ensemble de données.
« Je ne dirais pas que leurs capacités de traduction en sont au point où les outils sont réellement utiles », a déclaré Lamb.
« Je n’encourage personne pour l’instant à utiliser des outils linguistiques fiables ; Je pense qu’ils seraient également francs en le disant.
Bugarín-Diz adopte une position différente.
Il estime que si personne n’utilise les traductions Meta, ils « ne seront pas disposés » à investir du temps et des ressources pour les améliorer.
Comme d’autres outils d’IA, Bugarin-Diz estime qu’il s’agit de connaître les faiblesses de la technologie avant de l’utiliser.