2024-02-16 14:51:04
MADRID, 16 février (Portaltic/EP) –
OpenAI a présenté Sora, son nouveau modèle alimenté par l’intelligence artificielle (IA) générative capable de créer scènes vidéo réalistes jusqu’à 60 secondes depuis instructions textuellesavec un résultat détaillé, des mouvements de caméra complexes et de multiples personnages pleins d’émotions.
L’entreprise technologique américaine entend continuer à progresser dans les capacités de l’IA, notamment dans la formation. des modèles qui aident les gens à résoudre des problèmes nécessitant une interaction avec le monde réel. Pour ce faire, l’entreprise travaille sur les moyens d’apprendre à l’IA à comprendre et à simuler le monde physique en mouvement.
En conséquence, OpenAI a introduit Sora, son nouveau modèle d’IA texte-vidéo, avec lequel permet la création de vidéos réalistes d’une durée maximale d’une minute durée en fonction des indications textuelles fournies par l’utilisateur.
Ainsi, comme le détaille le entreprise sur son site internet et a partagé à travers un publier sur (ancien Twitter), Sora permet la création de vidéos avec des scènes “très détaillées”“, ainsi qu’avec un mouvement de caméra “complexe” et la intégration de plusieurs personnages même que montrer des émotions.
Présentation de Sora, notre modèle texte-vidéo.
Sora peut créer des vidéos d’une durée maximale de 60 secondes présentant des scènes très détaillées, des mouvements de caméra complexes et plusieurs personnages aux émotions vibrantes. https://t.co/7j2JN27M3W
Invite : « Magnifique, enneigé… pic.twitter.com/ruTEWn87vf
-OpenAI (@OpenAI) 15 février 2024
Pour créer ces vidéos, les utilisateurs n’auront qu’à rédiger une série d’instructions détaillant les caractéristiques doit inclure la scène, comme le personnages et les Actions qu’ils réaliseront, le autouril climatet les Mouvements de caméra qu’il faut recréer.
Par exemple, l’un des exemples de vidéos partagés par OpenAI porte les indications suivantes : gros plan sur le clignement des yeux d’une femme de 24 ans, debout à Marrakech au coucher du soleil, film cinématographique tourné en 70 mm, profondeur de champ, couleurs. vivant, cinématographique.
Plus précisément, la société dirigée par Sam Altman a souligné que le modèle peut réaliser des scènes aussi précises car il comprend non seulement ce que l’utilisateur demande dans ses instructions textuelles, mais aussi Il est également capable de comprendre comment ces choses existent dans le monde physique.
En suivant cette ligne, il faut prendre en compte son connaissance approfondie de la langue, permettant à Sora interpréter toutes les invites textuelles « avec précision », par exemple, créer des personnages réalistes qui expriment des « émotions vibrantes ».
Sora est même capable de générer une vidéo à partir d’une image fixe existante, animant le contenu de l’image avec précision et sans perte de détails. De la même manière, cela permet également prolonger la durée d’une vidéo existante o compléter quelques cadres.
Concernant son fonctionnement, Sora génère une vidéo à partir d’autres vidéos qui, selon OpenAI, semblent “bruit statique“. De cette façon, le modèle se transforme progressivement en éliminant le bruit en plusieurs étapes, jusqu’à atteindre la visualisation d’images réalistes.
De même, comme les modèles GPT, il utilise un “architecture transformateur” avec lequel, selon l’entreprise, débloque des performances de mise à l’échelle supérieures. Plus précisément, les images vidéo sont représentées comme “collections d’unités de données plus petites”qui sont appelés des correctifs. Ainsi, chaque patch est le équivalent toujours jeton pas GPT.
Pour le moment, l’utilisation du nouveau le modèle n’est disponible que pour les membres de l’équipe rouge OpenAIl’équipe dédiée à la recherche du service, afin de le tester et de vérifier quelles erreurs il présente et quels sont ses risques possibles.
De même, Sora est également Testé par un groupe d’artistes visuels, designers et cinéastesafin de connaître les améliorations possibles du modèle et de le rendre le plus utile possible aux professionnels de la création, comme l’explique l’entreprise.
En fait, comme OpenAI l’a partagé, le modèle est toujours présente quelques difficultés représenter des problèmes liés à l’espace, à la physique ou aux actions de cause à effet. Par exemple, s’il est précisé que la vidéo doit montrer une personne mordant un cookie, il est possible que le cookie apparaisse plus tard dans une autre scène sans la morsure.
De la même manière, des erreurs peuvent également survenir, comme le modèle mélangeant gauche et droite, ou ne pouvant pas suivre un chemin de caméra spécifique.
MESURES DE SÉCURITÉ CONTRE LES CONTENUS TROMPEURS OU NUISIBLES
Avec tout cela, OpenAI a souligné qu’ils prenaient diverses mesures de sécurité qu’ils implémenteront dans Sora avant que le modèle ne soit généralement disponible pour un plus grand nombre d’utilisateurs. Pour ce faire, ils travaillent en collaboration avec l’équipe rouge, qui compte également des experts dans les domaines de la désinformation, des contenus incitant à la haine et au préjudice.
D’un autre côté, la société d’Altman est développer des outils pour détecter les contenus trompeurs. Il s’agit d’une série de fonctions qui permettront de classer les vidéos générées par Sora, de les identifier par rapport à d’autres types de vidéos ou de vidéos réelles. L’une de ces fonctions est Implémentation des métadonnées C2PAune norme qui vérifie l’origine du contenu et des informations associées.
En plus de tout cela, actuellement le méthodes de sécurité déjà utilisées par d’autres produits technologiques alimentés par DALL·E 3 qui, comme il l’a dit, s’appliquent également à Sora.
Ces méthodes de sécurité vérifier et rejeter les demandes de saisie de texte qui violent les politiques d’utilisation, comme c’est le cas des questions liées à la violence extrême, aux contenus sexuels, aux images haineuses ou aux images personnelles. De même, également Ils disposent de classificateurs d’images qui examinent les images de chaque vidéo pour garantir le respect des politiques de l’entreprise, avant de le montrer à l’utilisateur.
#OpenAI #présente #Sora #nouveau #modèle #dIA #capable #créer #des #scènes #vidéo #réalistes #partir #dinstructions #textuelles
1708257594