Les chercheurs de Runway dévoilent Gen-1 : un nouveau modèle d’IA générative qui utilise le langage et les images pour générer de nouvelles vidéos à partir de vidéos existantes

Les chercheurs de Runway dévoilent Gen-1 : un nouveau modèle d’IA générative qui utilise le langage et les images pour générer de nouvelles vidéos à partir de vidéos existantes
Source : https://research.runwayml.com/gen1

L’environnement médiatique actuel est rempli d’effets visuels et de montage vidéo. En conséquence, à mesure que les plates-formes centrées sur la vidéo ont gagné en popularité, la demande d’outils de montage vidéo plus conviviaux et efficaces a explosé. Cependant, comme les données vidéo sont temporelles, l’édition dans le format est toujours difficile et prend du temps. Les modèles d’apprentissage automatique modernes se sont révélés très prometteurs pour améliorer l’édition, bien que les techniques compromettent fréquemment les détails spatiaux et la cohérence temporelle. L’émergence de puissants modèles de diffusion entraînés sur d’énormes ensembles de données a récemment provoqué une forte augmentation de la qualité et de la popularité des techniques génératives pour la synthèse d’images. Les utilisateurs simples peuvent produire des images détaillées à l’aide de modèles textuels tels que DALL-E 2 et Stable Diffusion avec uniquement une invite de texte en entrée. Les modèles de diffusion latente synthétisent efficacement les images dans un environnement perceptuellement contraint. Ils recherchent des modèles génératifs adaptés aux applications interactives en montage vidéo grâce au développement des modèles de diffusion en synthèse d’images. Les techniques actuelles propagent les ajustements à l’aide de méthodologies qui calculent des correspondances directes ou, en affinant chaque vidéo unique, re-posent des modèles d’image existants.

Ils essaient d’éviter une formation coûteuse par film et des calculs de correspondance pour une inférence rapide pour chaque vidéo. Ils suggèrent un modèle de diffusion vidéo sensible au contenu avec une structure configurable formée sur un ensemble de données important de données texte-image appariées et de films sans sous-titres. Ils utilisent des estimations de profondeur monoculaire pour représenter la structure et des réseaux de neurones pré-formés pour anticiper les incorporations afin de représenter le contenu. Leur méthode donne plusieurs contrôles puissants sur le processus créatif. Ils forment d’abord leur modèle, un peu comme les modèles de synthèse d’images, de sorte que le contenu des films déduits, comme leur apparence ou leur style, corresponde aux images ou aux signaux textuels fournis par l’utilisateur (Fig. 1).

Figure 1 : Synthèse vidéo avec guidage Nous introduisons une méthode basée sur des modèles de diffusion vidéo latente qui synthétise des vidéos (haut et bas) dirigées par du contenu décrit par du texte ou des images tout en préservant la structure de la vidéo originale (milieu).

Pour choisir à quel point le modèle ressemble à la structure fournie, ils appliquent une technique d’obscurcissement de l’information à la représentation de la structure inspirée du processus de diffusion. Pour réguler la cohérence temporelle des clips créés, ils modifient le processus d’inférence à l’aide d’une technique de guidage unique influencée par un guidage sans classificateur.

En résumé, ils apportent les contributions suivantes :

• En ajoutant des couches temporelles à un modèle d’image déjà entraîné et en entraînant sur des images et des vidéos, ils étendent les modèles de diffusion latente à la production vidéo.

• Ils fournissent un modèle qui ajuste les films en fonction d’exemples de textes ou d’images qui tiennent compte de la structure et du contenu. Sans autre formation ou prétraitement par vidéo, la procédure de montage complète est effectuée au moment de l’inférence.

• Ils maîtrisent parfaitement la cohérence en termes de temps, de substance et de structure. Ils démontrent pour la première fois comment le contrôle du temps d’inférence sur la cohérence temporelle est rendu possible en s’entraînant simultanément sur des données d’image et de vidéo. L’entraînement sur plusieurs degrés de détail dans la représentation permet de choisir la configuration préférée lors de l’inférence, garantissant ainsi la cohérence structurelle.

• Ils démontrent dans la recherche d’utilisateurs que leur technique est préférable à plusieurs approches alternatives.

• En se concentrant sur un petit groupe de photos, ils montrent comment le modèle formé peut être encore modifié pour produire des films plus précis d’un sujet particulier.

Plus de détails peuvent être trouvés sur leur site Web de projet avec des démos interactives.


Vérifiez Papier et Page du projet. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire notre sous-reddit 14k+ ML, Chaîne discorde, et Courrieloù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.

Aneesh Tickoo est consultante stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l’Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l’apprentissage automatique. Son intérêt de recherche est le traitement d’images et est passionné par la construction de solutions autour de celui-ci. Il aime se connecter avec les gens et collaborer sur des projets intéressants.

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.