Nouvelles Du Monde

Comment fonctionne Sora, la nouvelle frontière de la génération vidéo OpenAI

Comment fonctionne Sora, la nouvelle frontière de la génération vidéo OpenAI

2024-02-16 21:59:02

L’intelligence artificielle entre dans une nouvelle ère : celui de la simulation du monde physique en mouvement. Parmi les pionniers de ce progrès technologique se trouve Sora à OpenAIun modèle d’intelligence artificielle qui promet de révolutionner la façon dont nous générons des vidéos.

Une percée dans l’IA : Sora déploie ses ailes

Comme annoncé sur le site officiel d’OpenAI, Sora n’est pas seulement un modèle de génération de texte en vidéo ; est un projet ambitieux qui vise à apprendre à l’intelligence artificielle à comprendre et à simuler le monde physique en mouvement. Cela ouvre des portes auparavant fermées à des problèmes du monde réel qui nécessitent une interaction dans le monde physique, avec un objectif clair : aider les gens à résoudre des questions pratiques complexes.

Principales caractéristiques de Sora

  • Qualité visuelle et conformité rapide : Sora peut générer des vidéos d’une durée maximale d’une minute tout en conservant une excellente qualité visuelle et en respectant étroitement les spécifications de l’utilisateur.
  • Commentaires professionnels : Actuellement disponible pour les équipes rouges pour évaluer les zones critiques de risque ou de dommages, Sora est également accessible à un certain nombre d’artistes visuels, de designers et de cinéastes, dans le but de recueillir des commentaires pour améliorer le modèle au profit des professionnels de la création.
  • Ouvrir la recherche : Le partage précoce des progrès de la recherche vise à collaborer et à recevoir des commentaires de personnes extérieures à OpenAI, donnant ainsi au public un aperçu des capacités de l’IA à l’horizon.

Le principal concurrent de Sora

Runway’s Gen 2 est le principal concurrent de Sora, qui est également une technologie de pointe dans le domaine de l’intelligence artificielle générative, spécialisée dans la création de vidéos à partir de saisies textuelles, d’images ou de vidéos. Cette plateforme se distingue par sa capacité à interpréter et transformer différents types d’entrées en contenu vidéo dynamique et personnalisable, couvrant des modes créatifs tels que texte en vidéo, texte et image en vidéo et image en vidéo.

Lire aussi  Préparez-vous pour les vacances avec les bons plans du week-end : maillots de bain, chaussures de rando et accessoires indispensables. Découvrez également les offres intéressantes sur Amazon et Gamesplanet.

À première vue, il peut sembler que Sora ait un net avantage sur la génération 2.. Il faudra cependant attendre que Sora soit accessible au public pour pouvoir faire une comparaison objective basée sur des critères solides. Cette évaluation nous permettra de bien comprendre les capacités et les performances des deux systèmes dans des contextes réels d’utilisation.

Une précision jamais vue auparavant

À partir des vidéos disponibles, nous pouvons voir comment Sora est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis sur le sujet et l’arrière-plan. Les vidéos partagées par OpenAI accompagnées du prompt qui les a générées témoignent de la puissance de ce nouvel outil. Une chose sur laquelle OpenAI se concentre est que le modèle comprend non seulement ce qui est demandé via l’invite, mais également comment ces éléments existent dans le monde physique. En particulier, OpenAI met en avant deux caractéristiques :

  • Compréhension de la langue : Le modèle possède une compréhension approfondie du langage, ce qui lui permet d’interpréter les invites avec précision et de générer des personnages qui expriment des émotions vibrantes.
  • Persistance visuelle : Sora peut créer plusieurs plans dans une seule vidéo générée, en conservant avec précision les personnages et le style visuel.

Les défis de Sora

Malgré ses capacités impressionnantes, Sora a certaines limites :

  • Simulation physique : Vous pourriez avoir des difficultés à simuler avec précision la physique d’une scène complexe, comme un biscuit mordu ne montrant aucune marque de morsure.
  • Détails spatiaux et temporels : Le modèle peut confondre les détails spatiaux, tels que l’inversion de la gauche et de la droite, et avoir du mal à décrire avec précision les événements qui se déroulent au fil du temps.
Lire aussi  Samsung fournit des instructions détaillées sur l'utilisation de la fonction Quick Share pour un partage rapide de fichiers - SamsungMania.cz

Sécurité et innovation : les avancées de Sora

Alors que Sora ouvre de nouvelles frontières en matière de génération vidéo via l’intelligence artificielle, la sécurité reste un pilier central de son évolution, selon la société de développement. OpenAI prend des mesures de sécurité cruciales avant de rendre Sora disponible dans ses produits, abordant de manière proactive les défis liés à la désinformation, aux contenus haineux et aux préjugés.

Collaborations stratégiques pour la sécurité et outils innovants pour la véracité du contenu

Selon OpenAI, la collaboration avec équipe rouge (professionnels de la cybersécurité spécialisés dans l’imitation d’attaques contre les systèmes informatiques d’une organisation pour évaluer leur sécurité et leurs défenses.), experts dans divers domaines tels que la désinformation, les contenus haineux et les préjugés, est une étape cruciale. Ces professionnels sont chargés de tester le modèle de manière contradictoire, garantissant une évaluation critique de ses capacités et des domaines de risque potentiels.

OpenAI développe des outils dédiés à la détection des contenus trompeurs, dont un classificateur de détection capable d’identifier les vidéos générées par Sora. À l’avenir, nous prévoyons d’inclure les métadonnées C2PA dans les produits OpenAI utilisant Sora, améliorant ainsi encore la transparence et la sécurité.

Techniques de sécurité héritées et nouvelles

Les méthodologies de sécurité développées pour DALL·E 3 (l’outil texte en image disponible dans la suite ChatGPT plus) sont également appliqués dans Sora, intégrant de nouvelles techniques préparatoires à son utilisation. Une fois intégré à un produit OpenAI, un classificateur de texte examinera et rejettera les invites textuelles qui violent les politiques d’utilisation, telles que les appels à une violence extrême ou à un contenu sexuel. Les classificateurs d’images avancés examineront chaque image vidéo générée, garantissant le respect des directives d’utilisation avant de la présenter à l’utilisateur.

L’engagement avec les décideurs politiques, les éducateurs et les artistes du monde entier est essentiel pour comprendre les préoccupations et identifier les cas d’utilisation positifs de cette nouvelle technologie. Malgré des recherches et des tests approfondis, il est impossible de prédire toutes les manières bénéfiques ou néfastes dont notre technologie sera utilisée. En tant que tel, l’apprentissage de l’utilisation réelle est considéré comme un élément essentiel pour créer et publier des systèmes d’IA de plus en plus sécurisés au fil du temps.

Lire aussi  Windows 11 n'a plus Cortana alors que Microsoft débranche l'assistant numérique

Techniques de recherche et développement Sora

Sora utilise un modèle de diffusion, qui commence par une vidéo statique de type bruit et la transforme progressivement en supprimant le bruit en plusieurs étapes. Capable de générer des vidéos entières à la fois ou d’étendre des vidéos existantes, Sora exploite une architecture de transformateur similaire aux modèles GPT, garantissant des performances d’évolutivité supérieures.

En représentant les vidéos et les images sous forme de collections d’unités de données plus petites, appelées correctifs, similaires aux jetons dans GPT, Sora unifie la façon dont nous représentons les données. Cela permet de s’entraîner sur un plus large éventail de données visuelles, couvrant différentes durées, résolutions et formats d’image. S’appuyant sur des recherches antérieures sur les modèles DALL·E et GPT, Sora représente une base pour des modèles capables de comprendre et de simuler le monde réel, une étape importante vers l’atteinte de l’AGI (intelligence générale artificielle).

L’avènement de Sora marque une avancée importante dans la génération de contenu visuel grâce à l’intelligence artificielle. Même si des défis demeurent, le chemin emprunté ouvre de nouvelles possibilités créatives et professionnelles, promettant de transformer le paysage de production vidéo. Il ne reste plus qu’à attendre la version accessible au public pour vérifier le potentiel de ce nouvel outil.



#Comment #fonctionne #Sora #nouvelle #frontière #génération #vidéo #OpenAI
1708111310

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

ADVERTISEMENT