Stability AI a récemment présenté deux modèles texte-image : Stable Cascade disponible en prévisualisation de recherche sous une licence non commerciale et la nouvelle génération de son modèle phare Stable Diffusion 3.0. Alors que le premier est basé sur l’architecture Würstchen pour améliorer les performances et la précision, la dernière version de Stable Diffusion utilise une nouvelle architecture combinant transformateur de diffusion et appariement de flux.
Stable Cascade est un modèle très efficace, selon Stability AI, qui est “exceptionnellement facile à entraîner et à affiner sur du matériel grand public grâce à son approche en trois étapes”, l’architecture Hot-dog.
Il est construit sur un pipeline composé de trois modèles distincts : les étapes A, B et C. Cette architecture permet une compression hiérarchique :
- Le générateur latent (Étape C) transforme les entrées textuelles en latents compacts de 24×24 ;
- Le décodeur latent (Étapes A et B) décompresse les latents en images à haute résolution ;
- Le réseau de contrôle (ControlNet) permet d’ajuster les caractéristiques des images générées.
Le modèle est capable de gérer des descriptions complexes, de générer des détails fins et de suivre les variations de style et de couleur. Il dépasse largement les autres modèles en termes de qualité perçue, selon une évaluation humaine.
Chaque étape de la cascade peut être ajustée pour des besoins spécifiques, permettant de contrôler le niveau de détail, la résolution, le style et la couleur des images. De plus, le modèle dispose d’un réseau de contrôle (ControlNet), qui permet d’effectuer des modifications fines sur les images générées, telles que le changement de position, de taille, de forme ou de couleur des objets.
Stable Cascade est disponible en prévisualisation de recherche sous une licence non commerciale, le code pour l’inférence, l’entraînement, l’affinage et le ControlNet est publié sur la page GitHub de Stability. On peut l’essayer sur Hugging face ici
Diffusion stable 3
Stability AI a annoncé le 22 février dernier l’ouverture de la liste d’attente pour une prévisualisation anticipée de son dernier modèle. Selon la start-up, il offrirait une nette amélioration des performances sur les requêtes multi-sujets, de la qualité de l’image et des capacités orthographiques.
La suite Stable Diffusion 3 comprend des modèles allant de 800M à 8B de paramètres, offrant aux utilisateurs un éventail d’options adaptées à leurs besoins créatifs spécifiques. Stablity AI précise seulement que le modèle utilise une architecture de transformateur de diffusion et un appariement de flux, un rapport détaillé est prévu.
Voici quelques exemples d’images générées par le modèle partagées par la start-up :
Prompt : Une œuvre d’art épique d’anime d’un sorcier au sommet d’une montagne la nuit lançant un sort cosmique dans le ciel sombre qui dit “Stable Diffusion 3” fait d’énergie colorée .
Prompt : photo de studio en gros plan d’un caméléon sur un fond noir.
Prompt : Un tableau d’un astronaute chevauchant un cochon portant un tutu tenant un parapluie rose, sur le sol à côté du cochon se trouve un oiseau rouge-gorge portant un haut-de-forme, dans le coin sont les mots “stable diffusion”.
#Stable #Cascade #Stable #Diffusion #les #deux #derniers #modèles #texttoimage #Stability
publish_date] pt]