Stability AI lance Stable Diffusion XL, son modèle de synthèse d’images nouvelle génération

Stability AI lance Stable Diffusion XL, son modèle de synthèse d’images nouvelle génération
Agrandir / Plusieurs exemples d’images générées avec Stable Diffusion XL 1.0.

Diffusion stable

Mercredi, Stability AI a publié Diffusion Stable XL 1.0 (SDXL), sa nouvelle génération poids ouverts Modèle de synthèse d’images IA. Il peut générer de nouvelles images à partir de descriptions textuelles et produit des images plus détaillées et à plus haute résolution que les versions précédentes de Stable Diffusion.

Comme pour Stable Diffusion 1.4, qui a fait des vagues en août dernier avec une version open source, toute personne disposant du matériel et du savoir-faire technique appropriés peut télécharger les fichiers SDXL et exécuter gratuitement le modèle localement sur sa propre machine.

Le fonctionnement local signifie qu’il n’y a pas besoin de payer pour accéder au modèle SDXL, il y a peu de problèmes de censure et les fichiers de pondérations (qui contiennent les données de réseau neutres qui font fonctionner le modèle) peuvent être affinés pour générer des types spécifiques de l’imagerie par les amateurs à l’avenir.

Par exemple, avec Stable Diffusion 1.5, le modèle par défaut (formé sur un échantillon d’images téléchargées sur Internet) peut générer un large éventail d’images, mais il ne fonctionne pas aussi bien avec des sujets plus spécialisés. Pour compenser cela, les amateurs ont affiné SD 1.5 dans des modèles personnalisés (et plus tard, LoRA modèles) qui ont amélioré la capacité de Stable Diffusion à générer certaines esthétiques, y compris Art à la Disney, Dessin animé, paysages, de la pornographie sur mesure, des images d’acteurs ou de personnages célèbres, et plus encore. Stability AI s’attend à ce que cette tendance de développement communautaire se poursuive avec SDXL, permettant aux gens d’étendre ses capacités de rendu bien au-delà du modèle de base.

Améliorations sous le capot

Comme d’autres générateurs d’images à diffusion latente, SDXL commence par un bruit aléatoire et “reconnaît” les images dans le bruit en se basant sur les conseils d’une invite de texte, affinant l’image étape par étape. Mais SDXL utilise un “trois fois plus grand Réseau fédérateur UNet“, selon Stability, avec plus de paramètres de modèle pour réussir ses astuces que les modèles de diffusion stables précédents. En langage clair, cela signifie que l’architecture SDXL effectue plus de traitement pour obtenir l’image résultante.

Pour générer des images, SDXL utilise un “ensemble d’experts” architecture qui guide une diffusion latente processus. L’ensemble d’experts fait référence à une méthodologie dans laquelle un modèle unique initial est formé, puis divisé en modèles spécialisés qui sont spécifiquement formés pour différentes étapes du processus de génération, ce qui améliore la qualité de l’image. Dans ce cas, il existe un modèle SDXL de base et un modèle en option modèle “raffineur” qui peut s’exécuter après la génération initiale pour améliorer l’apparence des images.

Stable Diffusion XL comprend deux encodeurs de texte qui peuvent être combinés.  Dans cet exemple de Xander Steenbrugge, un éléphant et une pieuvre se combinent parfaitement en un seul concept.
Agrandir / Stable Diffusion XL comprend deux encodeurs de texte qui peuvent être combinés. Dans cet exemple de Xander Steenbrugge, un éléphant et une pieuvre se combinent parfaitement en un seul concept.

Notamment, SDXL utilise également deux encodeurs de texte différents qui donnent un sens à l’invite écrite, aidant à identifier les images associées encodées dans les poids du modèle. Les utilisateurs peuvent fournir une invite différente à chaque encodeur, ce qui se traduit par de nouvelles combinaisons de concepts de haute qualité. Sur Twitter, Xander Steenbrugge montré un exemple d’éléphant et de pieuvre combinés utilisant cette technique.

Et puis il y a des améliorations dans les détails et la taille de l’image. Alors que Stable Diffusion 1.5 a été formé sur des images de 512 × 512 pixels (ce qui en fait la taille d’image de génération optimale mais manque de détails pour les petites fonctionnalités), Stable Diffusion 2.x l’a augmenté à 768 × 768. Désormais, Stability AI recommande de générer des images de 1024 × 1024 pixels avec Stable Diffusion XL, ce qui donne plus de détails qu’une image de taille similaire générée par SD 1.5.


2023-07-28 01:59:09
1690506285


#Stability #lance #Stable #Diffusion #son #modèle #synthèse #dimages #nouvelle #génération

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.