Après 72 heures, les vidéos de Sora ne semblent plus si étonnantes

Après 72 heures, les vidéos de Sora ne semblent plus si étonnantes

2024-02-19 19:12:39

La jeune fille à la veste en cuir noire, à la longue robe rouge et aux lunettes de soleil marcher dans une rue de Tokyola nuit.

L’asphalte mouillé reflète les néons des panneaux lumineux derrière lui. Il peut s’agir de n’importe quelle fille ou d’un influenceur populaire. Mais en réalité ça n’existe pas: a été créé par la nouvelle intelligence artificielle de OpenAIappel Soraqui génère des vidéos réalistes à partir de texte.

La “Femme en rouge” de Tokyo a été le premier exemple de vidéos produites par Sora – dévoilées le 15 février dernier par OpenAI – une devenir viral. C’est aussi le plus long sorti jusqu’à présent : il dure une minute, le maximum que l’on peut atteindre avec la nouvelle IA. texte en vidéo. La qualité de l’image est impressionnante. Ainsi que la « direction » de l’IA, qui va du total au très gros plan.

Intelligence artificielle

OpenaAI a dévoilé Sora, une nouvelle IA pour créer des vidéos réalistes

par Pier Luigi Pise


Le seul défaut de la vidéo, à première vue, concerne la façon dont la femme avance. Ses pas semblent incertains. Mais il a fallu regarder le clip encore et encore pour finalement se rendre compte qu’il était là. une erreur bien plus grave dans les images produites par l’IA: regardez attentivement la seconde 00h15 et la seconde 00h30 et vous remarquerez que les pieds de la femme s’inversent “comme par magie”.

Soixante-douze heures après le lancement de Sora, après la gueule de bois provoquée par une IA que le New York Times l’ont appelé “époustouflant”, ils sont sortis les premiers défauts – certains cachés, d’autres bien plus évidents – de l’outil créé par OpenAI.

En réalité, l’entreprise dirigée par Sam Altman avait mis la main à la pâte dès le début, écrivant le jour de l’annonce de Sora Que le nouveau modèle a quelques « points faibles »: “Il peut avoir des difficultés à simuler avec précision les développements d’une scène complexe et peut ne pas comprendre des cas spécifiques de cause à effet”, a écrit OpenAI sur son blog. “Par exemple, une personne peut prendre une bouchée dans un cookie, mais alors le cookie il ne peut pas laisser de marque de morsure.

“Le modèle peut également confondre les détails spatiaux d’une invite, par exemple en confondant la gauche et la droite”, a ajouté OpenAi, montrant la vidéo générée par Sora d’un homme courant sur le tapis roulant en marche arrière.

Parallèlement à cette vidéo, OpenAI en a publié d’autres dans lesquelles il met délibérément en évidence les limites de son intelligence artificielle. Ce qui est en fait évident. Mais dans certains cas, juste parce que nous savons que des défauts existent.

Dans un clip, trois louveteaux se multiplient. Dans une autre, largement diffusée sur les réseaux sociaux, une dame devant un gâteau d’anniversaire manque dramatiquement les bougies alors qu’elle s’apprête à les souffler. Et derrière lui, on voit clairement une personne qui bouge une main déformée. La scène est ci-dessous :

Une main semble pendre, à la place de ce qui devrait être un tissu, dans une autre vidéo générée par Sora et publiée sur le réseau social X par l’un des chercheurs d’OpenAI qui ont travaillé sur la nouvelle IA : Tim Brooks. Le détail apparaît dans cette vidéo, derrière la chaise longue de gauche sur laquelle repose l’homme.

Dans le clip ci-dessus tous les regards sont évidemment tournés vers le requin, qui sort de l’eau de manière réaliste. Ce n’est qu’après avoir vu et examiné les images que nous remarquons la main “fantôme” et la manière peu naturelle avec laquelle la femme de gauche tourne la tête. pour exprimer son étonnement.

Sora, nous le savons, n’est pas ouvert au public car La piste est Pikadeux outils similaires qui permettent depuis quelques temps – avec des résultats pas si extraordinaires – de produire des vidéos à partir d’un texte.

Les contenus que vous voyez circuler sur les réseaux sociaux, portant la marque OpenAI (en bas à droite), ont été uniquement générés par l’entreprise californienne et ses employés. Aussi Sam Altman, le PDG d’OpenAIil en a diffusé quelques-uns, transformant les invites qu’il a reçues de ses abonnés sur X. L’un d’eux représente une « grand-mère influenceuse » engagé dans un didacticiel vidéo sur la façon de préparer des gnocchis “dans une cuisine toscane rustique”.

Deux choses frappent dans la vidéo ci-dessus : la manière dont les mains ont été recréées – avec lesquelles l’IA générative a immédiatement eu de gros problèmes – et le fait que soudain une cuillère apparaît (puis disparaît) dans le bol.

Malgré quelques imperfections, les scènes réalistes semblent être le point fort de Sora. Le court extrait obtenu avec l’invite “plan subjectif d’une fourmi se déplaçant à l’intérieur d’une fourmilière” est par exemple étonnant. Ou même la vidéo qu’il montre un train microscopique qui se déplace dans les nervures d’une feuille.

Mais ensuite Sora tombe inexorablement, encore une fois à cause d’un détail apparemment négligeable, lorsqu’il produit une scène dans laquelle un chat réveille une fille endormie. L’attention du spectateur, dans ce cas, est dirigée vers la patte de l’animal qui appuie sur le nez de la jeune fille.

Mais si vous mettez de côté l’émerveillement initial, vous remarquerez que la patte du chat se dédouble pendant quelques instants. Et ça entre les draps, en bas à droite, une main apparaît anormalement ce qui n’est pas bien lié au mouvement du corps de la femme.

C’est justement sur « l’émerveillement » que vise OpenAI. Les vidéos de Sora publiées sur les réseaux sociaux ont été soigneusement sélectionnées, elles sont certainement les meilleures réalisées jusqu’à présent. Ou alors ce sont ceux-là plus surprenant à première vue.

C’est facile tromper le spectateur, car l’évaluation des vidéos de Sora a lieu bien avant de cliquer sur « Play » : elle commence par lire l’invite, ce qui rend les images auxquelles elle est associée plus « magiques » qu’elles ne le sont réellement. Le « truc », si on peut parler de truc, réside dans notre rationalité : on ne peut pas croire qu’une machine, en utilisant juste une poignée de mots fantaisistesest capable de reproduire si harmonieusement les mouvements d’une métropole ou de la nature.

Nous parlons après tout de des machines qui ne comprennent pas le sens de ce qu’elles font: ils sont tout simplement extrêmement doués pour prédire, dans un contexte donné, quel contenu est le plus susceptible d’apparaître l’un après l’autre. ChatGpt réussit avec les mots. Et si cela nous paraissait extraordinaire, que penser d’une technologie capable de prédire le déroulement d’une scène image par image ce qui implique des variables infinies (et complexes) ?

Bref, difficile de ne pas être surpris.

Prenons par exemple la vidéo ci-dessous, obtenue à partir de l’invite « La ville de New York submergée comme l’Atlantide ». Ceux qui regardent se concentrent sur la myriade de poissons qui « nagent » entre les gratte-ciel, comme s’ils étaient réellement en présence d’une ville submergée. Mais à y regarder de plus près, on ne manquera pas, ci-dessous, le vrai niveau d’eauqui n’a en fait pas submergé la métropole.

La « Stratégie » OpenAI. – qui a démontré son savoir-faire en matière de marketing – a apparemment également travaillé avec des investisseurs. Quelques heures seulement après avoir annoncé Sora, OpenAI a conclu un accord économique qui lui a permis de se démarquer. valorisation boursière à plus de 80 milliards de dollars.

Mais Sora est encore une technologie jeune. Exactement comme c’était le cas, il y a un an, Lui donnerl’IA d’OpenAI qui génère des photos réalistes à partir de texte.

Même les exemples publiés par la société de Sam Altman pour promouvoir ce modèle – qui était connu à l’époque sous le nom de Dall-E 2 – ils étaient extraordinaires. Mais au début, les utilisateurs obtenaient, dans la plupart des cas, des résultats insatisfaisants. Seulement à partir de Dall-E 3le modèle texte-image actuel d’OpenAI, les images générées ont fait un grand pas en avant en termes de cohérence et de qualité.

Le sentiment est que Sora, une fois ouvert au public, sera confronté aux mêmes problèmes – et probablement à la même évolution – que Dall-E.




#Après #heures #les #vidéos #Sora #semblent #étonnantes
1708359502

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.