La technologie d’apprentissage profond pourrait vous aider à filtrer les bruits de fond indésirables tout en conservant ceux que vous aimez.
L’intelligence artificielle (IA) pourrait-elle vous aider à filtrer le bruit des pleurs des bébés ou des sirènes tout en gardant le chant des oiseaux ?
Une équipe de l’Université de Washington pense avoir trouvé comment atténuer à volonté les bruits de fond.
Ils ont développé des algorithmes utilisant une technologie d’apprentissage profond qui permettent aux utilisateurs de choisir les sons qu’ils peuvent écouter lorsqu’ils portent leurs écouteurs. Ils ont appelé ce système « l’audition sémantique ».
« À un niveau élevé, nous utilisons des écouteurs antibruit pour supprimer tous les sons de l’environnement. Mais nous utilisons un réseau neuronal sur le smartphone pour extraire les sons qui nous intéressent et les restituer en temps réel dans l’oreille via les écouteurs », a déclaré Shyam Gollakota, professeur d’informatique et d’ingénierie, à L’Observatoire de l’Europe Next.
Alors, comment ça marche? Les écouteurs envoient les sons enregistrés à un smartphone connecté, bloquant ainsi les autres bruits. Les utilisateurs peuvent sélectionner des sons parmi 20 catégories – comme le chant des oiseaux – à l’aide de commandes vocales ou d’une application, seuls les sons choisis étant joués.
« Les sons cibles que nous diffusons via les haut-parleurs devraient être cohérents avec ce que l’utilisateur voit dans l’environnement. Pour cette raison, nous ne disposons que de 20 millisecondes pour traiter le son d’entrée, extraire les sons cibles et les lire au casque », a déclaré Bandhav Veluri, doctorant en informatique, expliquant qu’ils devaient créer « un modèle d’apprentissage profond très efficace. ».
Cette contrainte de temps explique pourquoi le système s’appuie sur des smartphones plutôt que sur des serveurs cloud.
« Ce qui est intéressant ici, c’est que lorsque les gens parlent généralement de réseaux de neurones et d’intelligence artificielle, ils sont familiers avec les grands modèles de langage comme ChatGPT », a déclaré Gollakota.
« Cela nécessite de très grands modèles qui s’exécutent dans d’énormes centres de données, ce qui n’est vraiment pas possible pour notre application. Nous avons conçu un réseau neuronal spécial pouvant fonctionner sur un smartphone ».
Testé dans des endroits comme les bureaux, les rues et les parcs, le système a pu détecter les sirènes, les bruits d’oiseaux, les alarmes et les bruits spécifiques tout en éliminant tous les autres bruits de fond.
Lorsque 22 personnes ont donné leur avis sur la sortie sonore du système, elles ont généralement déclaré que le son était meilleur que l’enregistrement original, selon les résultats de l’étude.
Cependant, dans certaines situations, le système avait du mal à faire la différence entre des sons assez similaires, comme chanter et parler. Les chercheurs suggèrent que former les modèles avec davantage de données réelles pourrait contribuer à améliorer ces résultats.
Le système « est mûr pour être lancé sur le marché de consommation », a déclaré Veluri.
« Ces deux tendances (la technologie de suppression du bruit et l’apprentissage profond) présentent des opportunités pour créer l’avenir des appareils portables intelligents, avec des capacités réelles qui relevaient jusqu’à présent du domaine de la science-fiction », a déclaré Gollakota.
« Je suis très heureux que ce soit le bon moment pour créer ces casques intelligents et que nous commencerons à voir de l’intelligence dans nos casques au cours des cinq prochaines années », a-t-il ajouté.