Sora est le nouveau générateur de texte en vidéo du créateur ChatGPT OpenAI. Voici ce que nous savons du nouvel outil qui suscite à la fois inquiétude et enthousiasme.
Le créateur de ChatGPT plonge désormais dans le monde de la vidéo créée par l’intelligence artificielle (IA).
Découvrez Sora – le nouveau générateur de texte en vidéo d’OpenAI. L’outil, dévoilé jeudi par la société basée à San Francisco, utilise l’IA générative pour créer instantanément de courtes vidéos basées sur des commandes écrites.
Sora n’est pas le premier à démontrer ce type de technologie. Mais les analystes du secteur soulignent la haute qualité des vidéos de l’outil affichées jusqu’à présent et notent que son introduction marque un pas significatif à la fois pour OpenAI et pour l’avenir de la génération texte-vidéo en général.
Néanmoins, comme pour tout ce qui se passe aujourd’hui dans le domaine de l’IA en croissance rapide, une telle technologie suscite également des craintes quant à ses potentielles implications éthiques et sociétales. Voici ce que vous devez savoir.
Que peut faire Sora et puis-je l’utiliser déjà ?
Sora est un générateur de texte en vidéo qui crée des vidéos d’une durée maximale de 60 secondes sur la base d’invites écrites utilisant l’IA générative. Le modèle peut également générer une vidéo à partir d’une image fixe existante.
L’IA générative est une branche de l’IA qui peut créer quelque chose de nouveau. Les exemples incluent les chatbots, comme ChatGPT d’OpenAI, et les générateurs d’images tels que DALL-E et Midjourney.
Obtenir un système d’IA pour générer des vidéos est plus récent et plus difficile, mais repose sur une partie de la même technologie.
Sora n’est pas encore disponible pour un usage public (OpenAI dit qu’il s’engage auprès des décideurs politiques et des artistes avant de publier officiellement l’outil) et il y a encore beaucoup de choses que nous ne savons pas. Mais depuis l’annonce de jeudi, la société a partagé une poignée d’exemples de vidéos générées par Sora pour montrer ce qu’elle peut faire.
Le PDG d’OpenAI, Sam Altman, s’est également adressé à X, la plateforme anciennement connue sous le nom de Twitter, pour demander aux utilisateurs des réseaux sociaux d’envoyer des idées rapides.
Il a ensuite partagé des vidéos réalistes et détaillées qui répondaient à des invites telles que « deux golden retrievers podcastant au sommet d’une montagne » et « une course cycliste sur l’océan avec différents animaux en tant qu’athlètes faisant du vélo avec une vue de caméra de drone ».
Bien que les vidéos générées par Sora puissent représenter des scènes complexes et incroyablement détaillées, OpenAI note qu’il existe encore certaines faiblesses, notamment certains éléments spatiaux et de cause à effet.
Par exemple, OpenAI ajoute sur son site Internet : « une personne peut mordre dans un cookie, mais par la suite, le cookie peut ne pas avoir de marque de morsure ».
Quels autres outils vidéo générés par l’IA existent ?
Sora d’OpenAI n’est pas le premier du genre. Google, Meta et la startup Runway ML font partie des entreprises qui ont démontré une technologie similaire.
Pourtant, les analystes du secteur soulignent la qualité apparente et la longueur impressionnante des vidéos Sora partagées jusqu’à présent.
Fred Havemeyer, responsable de la recherche américaine sur l’IA et les logiciels chez Macquarie, a déclaré que le lancement de Sora marque un grand pas en avant pour l’industrie.
« Non seulement vous pouvez faire des vidéos plus longues, je comprends jusqu’à 60 secondes, mais en plus les vidéos créées semblent plus normales et semblent réellement respecter davantage la physique et le monde réel », a déclaré Havemeyer.
« Vous n’obtenez pas autant de vidéos ou de fragments de ‘l’étrange vallée’ sur les flux vidéo qui semblent… contre nature ».
Bien qu’il y ait eu « d’énormes progrès » dans la vidéo générée par l’IA au cours de l’année dernière – y compris l’introduction de Stable Video Diffusion en novembre dernier – Rowan Curran, analyste principal de Forrester, a déclaré que de telles vidéos ont nécessité davantage de « montage » pour assurer la cohérence des personnages et des scènes.
La cohérence et la longueur des vidéos de Sora représentent cependant « de nouvelles opportunités pour les créatifs d’incorporer des éléments de vidéo générées par l’IA dans un contenu plus traditionnel, et même maintenant de générer des vidéos narratives complètes à partir d’une ou de quelques invites », a déclaré Curran. Associated Press par e-mail vendredi.
Quels sont les risques potentiels ?
Bien que les capacités de Sora aient stupéfié les observateurs depuis son lancement jeudi, l’inquiétude quant aux implications éthiques et sociétales des utilisations de la vidéo générée par l’IA demeure également.
Havemeyer souligne par exemple les risques importants liés au cycle électoral potentiellement chargé de 2024.
Disposer d’un moyen « potentiellement magique » de générer des vidéos qui peuvent paraître réalistes pose un certain nombre de problèmes en politique et au-delà, a-t-il ajouté – soulignant des problèmes de fraude, de propagande et de désinformation.
« Les externalités négatives de l’IA générative seront un sujet de débat crucial en 2024 », a déclaré Havemeyer. « C’est un problème de taille auquel chaque entreprise et chaque personne devra faire face cette année ».
Les entreprises technologiques continuent de prendre les devants lorsqu’il s’agit de gouverner l’IA et ses risques, alors que les gouvernements du monde entier s’efforcent de rattraper leur retard.
En décembre, l’Union européenne est parvenue à un accord sur les premières règles globales au monde en matière d’IA, mais la loi n’entrera en vigueur que deux ans après son approbation finale.
Jeudi, OpenAI a déclaré qu’elle prenait des mesures de sécurité importantes avant de rendre Sora largement disponible.
« Nous travaillons avec des équipes rouges – des experts dans des domaines tels que la désinformation, les contenus haineux et les préjugés – qui testeront le modèle de manière contradictoire », a écrit la société.
« Nous construisons également des outils pour aider à détecter les contenus trompeurs, tels qu’un classificateur de détection capable de déterminer quand une vidéo a été générée par Sora ».
La vice-présidente des affaires mondiales d’OpenAI, Anna Makanju, l’a réitéré lors de son discours vendredi lors de la conférence sur la sécurité de Munich, au cours de laquelle OpenAI et 19 autres entreprises technologiques se sont engagées à travailler volontairement ensemble pour lutter contre les deepfakes électoraux générés par l’IA.
Elle a noté que la société libérait Sora « d’une manière assez prudente ».
Dans le même temps, OpenAI a révélé des informations limitées sur la façon dont Sora a été construit.
Le rapport technique d’OpenAI n’a pas révélé quelles sources d’images et de vidéos ont été utilisées pour entraîner Sora – et la société n’a pas immédiatement répondu à une demande de commentaires supplémentaires vendredi.
La version de Sora arrive également dans un contexte de poursuites judiciaires contre OpenAI et son partenaire commercial Microsoft par certains auteurs et le New York Times pour son utilisation d’œuvres d’écriture protégées par le droit d’auteur pour former ChatGPT.