Cet article sur l’IA propose un modèle de diffusion latente pour la 3D (LDM3D) qui génère à la fois des données d’image et de carte de profondeur à partir d’une invite de texte donnée

Cet article sur l’IA propose un modèle de diffusion latente pour la 3D (LDM3D) qui génère à la fois des données d’image et de carte de profondeur à partir d’une invite de texte donnée

Dans le domaine de l’IA générative, la vision par ordinateur a fait d’énormes progrès ces dernières années. Stable Diffusion a transformé la production de contenu en génération d’images en proposant un logiciel gratuit pour produire des images RVB aléatoires haute fidélité à partir d’invites de texte. Cette recherche suggère un modèle de diffusion latente pour 3D (LDM3D) basé sur la diffusion stable v1.4. Contrairement au modèle précédent, la figure 1 illustre comment LDM3D peut produire des cartes de profondeur et des données d’image à partir d’une invite de texte donnée. Les utilisateurs peuvent créer des représentations RGBD complètes des invites de texte, leur donnant vie dans des perspectives à 360° vibrantes et captivantes. Sur un ensemble de données d’environ 4 millions de tuples comprenant une image RVB, une carte de profondeur et une description, leur modèle LDM3D a été affiné.

Une partie de l’ensemble de données LAION-400M, un grand ensemble de données de légendes d’images avec plus de 400 millions de paires de légendes d’images, a été utilisée pour créer cet ensemble de données. Le modèle d’estimation de profondeur DPT-Large, qui offre des estimations de profondeur relative extrêmement précises pour chaque pixel d’une image, a été utilisé pour créer les cartes de profondeur utilisées pour le réglage fin. Il était essentiel d’utiliser des cartes de profondeur correctes pour créer des vues à 360° réalistes et immersives et permettre aux utilisateurs de découvrir leurs invites textuelles de manière très détaillée. Des chercheurs d’Intel Labs et de Blockade Labs créent en plus de LDM3D développent DepthFusion, une application qui exploite les photos RVB 2D et les cartes de profondeur pour calculer une projection à 360° à l’aide de TouchDesigner, démontrant ainsi les possibilités de LDM3D.

Figure 1: Vue d’ensemble de LDM3D : Les cartes de profondeur en niveaux de gris 16 bits sont compressées en images de profondeur de type RVB à 3 canaux, qui sont ensuite concaténées avec les images RVB le long de la dimension du canal, pour démontrer le flux de travail de formation. Le KL-AE modifié est utilisé pour mapper l’entrée RGBD concaténée à l’espace latent. La représentation latente reçoit du bruit avant d’être débruitée à plusieurs reprises par le modèle U-Net. Un encodeur de texte CLIP gelé est utilisé pour crypter l’invite de texte, et l’attention croisée est utilisée pour le mapper à différentes couches U-Net. Le décodeur KL reçoit la sortie débruitée de l’espace latent et la renvoie à l’espace pixel sous la forme d’une sortie RGBD à 6 canaux. Le résultat est ensuite divisé en une carte de profondeur en niveaux de gris 16 bits et une image RVB. Voie d’inférence texte-image affichée dans un cadre bleu.

DepthFusion a le pouvoir de changer complètement la façon dont les gens interagissent avec le matériel numérique. Un cadre flexible appelé TouchDesigner permet de créer des expériences multimédias interactives et immersives. Leur programme utilise le potentiel créatif de touchdesigner pour produire de fascinants panoramas à 360° qui dépeignent de manière vivante des invites de texte. Avec l’aide de DepthFusion, les utilisateurs peuvent désormais découvrir leurs invites de texte d’une manière auparavant inconcevable, qu’il s’agisse d’une description d’une forêt sereine, d’un paysage urbain animé ou d’un univers de science-fiction. Cette technologie peut potentiellement révolutionner divers secteurs, notamment les jeux, le divertissement, le design et l’architecture.

Ils ont fait trois contributions différentes dans l’ensemble. (1) Ils suggèrent LDM3D, un nouveau modèle de diffusion qui, à partir d’une invite de texte, génère des images RGBD (images RVB avec des cartes de profondeur correspondantes). (2) Ils ont construit DepthFusion, un programme qui utilise des photos RGBD produites par LDM3D pour offrir des expériences immersives à 360°. (3) Ils évaluent l’efficacité de leurs photos RGBD produites et de leurs films immersifs à 360 vues grâce à des études approfondies. L’étude présente LDM3D, un modèle de diffusion de pointe qui produit des visuels RGBD à partir d’indices textuels. Ils ont également créé DepthFusion, un programme qui utilise les images RGBD produites par TouchDesigner pour fournir des expériences immersives et interactives à 360 degrés afin d’illustrer davantage les possibilités de LDM3D.

Lire aussi  Conclusion du test du Samsung Galaxy S24+ après 4 semaines – paresseux technologique

Les résultats de cette étude pourraient fondamentalement modifier la façon dont les gens interagissent avec le matériel numérique, transformant tout, du divertissement et des jeux à l’architecture et au design. Les contributions de ce travail ouvrent de nouvelles opportunités pour la recherche en IA générative multivue et en vision par ordinateur. Ils s’intéressent à la façon dont ce domaine va se développer davantage et souhaitent que la communauté bénéficie du travail présenté.


Vérifiez Papier. N’oubliez pas de rejoindre notre 21k+ ML SubReddit, Chaîne discorde, et Courriel, où nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore. Si vous avez des questions concernant l’article ci-dessus ou si nous avons manqué quelque chose, n’hésitez pas à nous envoyer un courriel à [email protected]

???? Découvrez les outils d’intelligence artificielle de 100 dans AI Tools Club

Aneesh Tickoo est consultante stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l’Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l’apprentissage automatique. Son intérêt de recherche est le traitement d’images et est passionné par la construction de solutions autour de celui-ci. Il aime se connecter avec les gens et collaborer sur des projets intéressants.

Lire aussi  Netflix commande la série "Forever" de Judy Blume à Mara Brock Akil

2023-05-21 11:14:32
1684661404


#Cet #article #sur #lIA #propose #modèle #diffusion #latente #pour #LDM3D #qui #génère #fois #des #données #dimage #carte #profondeur #partir #dune #invite #texte #donnée

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.