Il y a quelques semaines à peine, j’écrivais que nous sommes probablement encore loin de pouvoir créer un film à partir d’une invite en langage naturel.
Maintenant, il semble que cela pourrait arriver beaucoup plus tôt que je ne le pensais. OpenAI – créateur de ChatGPT, le chatbot qui a lancé l’engouement actuel pour l’IA générative – vient d’annoncer son propre modèle de conversion texte-vidéo, Sora.
Dire que les résultats ont stupéfié la communauté de l’IA est un euphémisme. Bien que nous ne puissions pas encore l’utiliser pour nous-mêmes, les vidéos montrent une séquence proche du photoréalisme d’une femme marchant dans une ville et une ville américaine de l’époque de la ruée vers l’or, générée à partir de simples invites textuelles.
Selon les personnes à qui j’ai parlé, cela leur donne deux ou trois ans d’avance sur ce qu’elles étaient censées être en matière de vidéo générative. Ce n’est qu’un signe supplémentaire que la révolution de l’IA va se dérouler à un rythme beaucoup plus rapide que ce que beaucoup prévoient.
Mais la vidéo générative – bien que techniquement étonnante – crée des défis éthiques et sociétaux qui vont au-delà de ceux posés par la création automatisée de textes, d’images et de sons.
Voyons donc ce que c’est, ce que cela fait et peut-être plus important encore, ce que cela signifie pour un monde dans lequel il deviendra inévitablement de plus en plus difficile de faire la différence entre le réel et le numérique.
Alors, qu’est-ce que Sora ?
Fondamentalement, Sora est à la vidéo ce que ChatGPT est à l’écriture, et Dall-E 3 est à la génération d’images. Vous tapez ce que vous voulez voir et cela apparaît, en plein mouvement, devant vos yeux.
Aucune des vidéos diffusées jusqu’à présent n’a de son, mais compte tenu des progrès réalisés dans la génération de sons et de musique par l’IA, nous ne pouvons que supposer que cela arrivera bientôt.
À ce stade précoce, aussi impressionnant soit-il, cela ne nous donnera pas le prochain Toy Story à partir d’une invite. Mais le potentiel est pratiquement illimité. Les cinéastes peuvent l’utiliser pour visualiser des concepts et des scènes ou générer des effets spéciaux. Les enseignants peuvent créer des reconstitutions historiques immersives et les fabricants peuvent les utiliser pour créer des prototypes et des démonstrations.
Pour le moment, Sora peut générer des vidéos d’une durée maximale d’une minute. Et c’est plus qu’une simple génération d’images (si nous devons considérer cela comme simple maintenant) : créer un ensemble d’images consécutives pour donner l’impression de mouvement ; il est capable de suivre le positionnement des objets afin qu’ils se déplacent de manière réaliste et cohérente avec d’autres objets, se déplaçant devant ou derrière eux, par exemple.
Il peut même effectuer des opérations complexes telles que « se souvenir » d’objets lorsqu’ils quittent la caméra afin qu’ils soient recréés avec précision lorsqu’ils reviennent dans la vue.
Ce n’est bien sûr pas parfait et OpenAI admet que cela générera des incohérences, comme des objets qui ne suivent pas les lois de la physique ou de la causalité.
Mais d’après ce que nous avons vu, c’est une technologie étonnante qui donne un aperçu alléchant de ce que nous pourrons bientôt faire !
Comment ça marche?
Comme Dall-E et d’autres générateurs d’images, Sora est essentiellement un modèle de diffusion, ce qui signifie qu’il crée des images à partir de « bruit » aléatoire et les dérandomise progressivement en les transformant en une image qui correspond à leur invite.
Au fil de milliers ou de dizaines de milliers d’étapes, les images qui composent la vidéo deviennent plus définies.
Ce qui le rend vraiment spécial, c’est la capacité de comprendre comment les objets – les personnes ou quoi que ce soit d’autre – dans le décor interagiraient de manière réaliste avec tout le reste. Cela pourrait signifier que l’eau rend les objets mouillés lorsqu’ils la traversent ou qu’une balle tombe et se déplace sur le sol de manière réaliste lorsqu’elle tombe.
Tout comme ChatGPT comprend les mots à partir de leur contexte et apprend comment ils s’assemblent avec d’autres mots pour communiquer un sens, Sora comprend comment les choses agissent et se comportent dans des contextes du monde réel. OpenAI n’a pas donné de détails sur les données sur lesquelles il est formé, mais il s’agira probablement de très nombreuses heures de séquences vidéo du monde réel à partir desquelles il pourra apprendre comment les objets, les personnes, les animaux et les paysages bougent et interagissent.
En plus de générer des séquences entièrement nouvelles, il peut poursuivre une vidéo existante et recréer des séquences existantes sous de nouveaux angles.
Le monde est-il prêt pour la vidéo générative à la demande ?
Sora offre des possibilités étonnantes. Mais permettre à chacun de créer des vidéos réalistes de tout ce qu’il veut ne sera clairement pas sans danger.
Les escroqueries et les attaques de phishing pourraient devenir plus sophistiquées, par exemple en utilisant des vidéos deepfake pour rendre les activités frauduleuses plus légitimes ou plausibles. Nous l’avons déjà vu avec les voix off de l’IA superposées aux images de célébrités pour donner l’impression qu’elles donnent leur soutien.
Il deviendra inévitablement plus facile de créer des vidéos non consensuelles présentant des ressemblances convaincantes avec des personnes réelles, qui pourraient être utilisées pour causer du tort ou à des fins de chantage.
Je suis sûr que nous le verrons également utilisé pour tenter de renverser les processus démocratiques et de diffuser de fausses nouvelles et de la désinformation, dans le but de saper la confiance dans les politiciens, les gouvernements ou les institutions.
OpenAI nous indique qu’elle a intégré des protections dans ses algorithmes afin d’empêcher bon nombre de ces utilisations et qu’elle développe également ses propres outils pour aider à identifier les contenus nuisibles. Mais comme nous l’avons vu avec ChatGPT, il est fort probable que des solutions de contournement soient trouvées, ou que des produits copiés émergent sans garanties en place.
La résolution de ces problèmes nécessitera un effort concerté impliquant l’éducation, la législation et l’adoption de cadres solides autour d’une utilisation responsable et éthique de l’IA. Malheureusement, comme cela a été le cas pour toute technologie transformatrice, depuis la mécanisation jusqu’à l’automobile et l’informatique, il semble inévitable que des dommages soient causés.
Mais le génie est désormais sorti de la bouteille, ce qui signifie qu’il appartient aux utilisateurs et défenseurs responsables de l’IA de garantir que la société gère efficacement ces risques tout en permettant également à son potentiel de transformation de se réaliser.