La capacité à générer rapidement des images de haute qualité est essentielle pour produire des environnements simulés réalistes. Ces environnements peuvent être utilisés pour entraîner les voitures autonomes à éviter les dangers imprévisibles, les rendant plus sûres dans les rues.
Les techniques d’intelligence artificielle générative, de plus en plus utilisées pour produire de telles images, présentent des inconvénients. Un type de modèle populaire, appelé modèle de diffusion, peut créer des images d’un réalisme saisissant, mais il est trop lent et gourmand en ressources informatiques pour de nombreuses applications.Les modèles autorégressifs, qui alimentent les LLM comme ChatGPT, sont beaucoup plus rapides, mais ils produisent des images de moins bonne qualité, souvent truffées d’erreurs.
Une nouvelle approche combine le meilleur des deux méthodes. Cet outil hybride de génération d’images utilise un modèle autorégressif pour capturer rapidement l’ensemble, puis un petit modèle de diffusion pour affiner les détails de l’image.
Cet outil, connu sous le nom de HART (pour hybrid autoregressive transformer), peut générer des images d’une qualité égale ou supérieure à celle des modèles de diffusion de pointe, mais environ neuf fois plus rapidement.
le processus de génération consomme moins de ressources informatiques que les modèles de diffusion classiques, ce qui permet à HART de fonctionner localement sur un ordinateur portable ou un smartphone standard. Un utilisateur n’a besoin que d’entrer une requête en langage naturel dans l’interface HART pour générer une image.
HART pourrait avoir un large éventail d’applications,comme aider les chercheurs à entraîner des robots à effectuer des tâches complexes du monde réel et aider les concepteurs à produire des scènes saisissantes pour les jeux vidéo.
« Si vous peignez un paysage et que vous peignez toute la toile une seule fois, cela ne rendra peut-être pas très bien. Mais si vous peignez l’ensemble, puis affinez l’image avec des coups de pinceau plus petits, votre peinture pourrait être bien meilleure. C’est l’idée de base de HART.»
Le meilleur des deux mondes
Les modèles de diffusion populaires, tels que Stable Diffusion et DALL-E, sont connus pour produire des images très détaillées.Ces modèles génèrent des images par un processus itératif où ils prédisent une certaine quantité de bruit aléatoire sur chaque pixel, soustraient le bruit, puis répètent le processus de prédiction et de “débruitage” plusieurs fois jusqu’à ce qu’ils génèrent une nouvelle image totalement exempte de bruit.
Le modèle de diffusion débruite tous les pixels d’une image à chaque étape,et il peut y avoir 30 étapes ou plus,le processus est lent et coûteux en calcul. Le modèle a de multiples chances de corriger les détails erronés, les images sont de haute qualité.
Les modèles autorégressifs, couramment utilisés pour prédire du texte, peuvent générer des images en prédisant des portions d’une image séquentiellement, quelques pixels à la fois. Ils ne peuvent pas revenir en arrière et corriger leurs erreurs, mais le processus de prédiction séquentielle est beaucoup plus rapide que la diffusion.
Ces modèles utilisent des représentations appelées tokens pour faire des prédictions. Un modèle autorégressif utilise un auto-encodeur pour compresser les pixels bruts de l’image en tokens discrets et pour reconstruire l’image à partir des tokens prédits. Cela augmente la vitesse du modèle, la perte d’informations qui se produit pendant la compression provoque des erreurs lorsque le modèle génère une nouvelle image.
Avec HART, une approche hybride utilise un modèle autorégressif pour prédire les tokens d’image compressés et discrets, puis un petit modèle de diffusion pour prédire les tokens résiduels. Les tokens résiduels compensent la perte d’informations du modèle en capturant les détails omis par les tokens discrets.
« Nous pouvons obtenir une énorme amélioration en termes de qualité de reconstruction.Nos tokens résiduels apprennent les détails à haute fréquence,comme les bords d’un objet,ou les cheveux,les yeux ou la bouche d’une personne. Ce sont des endroits où les tokens discrets peuvent faire des erreurs. »
le modèle de diffusion ne prédit que les détails restants une fois que le modèle autorégressif a fait son travail, il peut accomplir la tâche en huit étapes, au lieu des 30 ou plus qu’un modèle de diffusion standard nécessite pour générer une image entière. Cette surcharge minimale du modèle de diffusion supplémentaire permet à HART de conserver l’avantage de vitesse du modèle autorégressif tout en améliorant considérablement sa capacité à générer des détails d’image complexes.
« Le modèle de diffusion a une tâche plus facile à accomplir, ce qui conduit à plus d’efficacité »,
Surpasser les modèles plus grands
au cours du développement de HART, des difficultés ont été rencontrées pour intégrer efficacement le modèle de diffusion afin d’améliorer le modèle autorégressif. L’incorporation du modèle de diffusion dans les premières étapes du processus autorégressif entraînait une accumulation d’erreurs. L’submission du modèle de diffusion pour prédire uniquement les tokens résiduels comme étape finale a considérablement amélioré la qualité de la génération.
Cette méthode, qui utilise une combinaison d’un modèle de transformateur autorégressif avec 700 millions de paramètres et d’un modèle de diffusion léger avec 37 millions de paramètres, peut générer des images de la même qualité que celles créées par un modèle de diffusion avec 2 milliards de paramètres, mais environ neuf fois plus rapidement. Il utilise environ 31 % de calcul en moins que les modèles de pointe.
De plus, HART utilise un modèle autorégressif pour effectuer l’essentiel du travail, le même type de modèle qui alimente les LLM, il est plus compatible pour l’intégration avec la nouvelle classe de modèles génératifs unifiés vision-langage. À l’avenir, il serait possible d’interagir avec un modèle génératif unifié vision-langage, en lui demandant par exemple de montrer les étapes intermédiaires nécessaires à l’assemblage d’un meuble.
« Les LLM sont une bonne interface pour toutes sortes de modèles, comme les modèles multimodaux et les modèles capables de raisonner. C’est une façon de pousser l’intelligence vers une nouvelle frontière. Un modèle efficace de génération d’images ouvrirait de nombreuses possibilités. »
À l’avenir, les chercheurs souhaitent s’engager dans cette voie et construire des modèles vision-langage au-dessus de l’architecture HART. HART étant évolutif et généralisable à de multiples modalités,ils souhaitent également l’appliquer à la génération de vidéos et aux tâches de prédiction audio.
HART : La Révolution de la Génération d’images Rapide et de Haute Qualité
Table of Contents
La génération d’images réalistes est cruciale pour de nombreuses applications, des voitures autonomes aux jeux vidéo. Cependant,les méthodes existantes présentent des compromis entre vitesse et qualité. HART, un nouvel outil hybride, surmonte ces limitations.
Le Problème : Vitesse vs. Qualité
Les modèles de diffusion,comme Stable Diffusion et DALL-E,produisent des images de haute qualité,mais sont lents et gourmands en ressources. Les modèles autorégressifs, plus rapides, offrent une qualité inférieure.
| Modèle | Qualité | Vitesse | Ressources |
|———————-|————-|————–|————-|
| Diffusion | Haute | Lente | Élevées |
| Autorégressif | Faible | Rapide | Faible |
| HART (Hybride) | Haute | Très rapide | Faible |
La Solution : HART – Le Meilleur des Deux Mondes
HART combine un modèle autorégressif rapide avec un petit modèle de diffusion pour affiner les détails. Ce processus en deux étapes permet de générer des images de qualité supérieure à celle des modèles de diffusion de pointe, neuf fois plus rapidement et avec une consommation de ressources considérablement réduite.
Comment ça marche ?
- Modèle Autorégressif: Génère une image de base rapidement en utilisant des tokens.
- Modèle de Diffusion (léger): Affine les détails, corrigeant les erreurs du modèle autorégressif en prédisant les tokens résiduels.
Ce processus permet à HART de fonctionner localement sur un ordinateur portable ou un smartphone.
Applications de HART
HART ouvre des perspectives dans de nombreux domaines :
Entraînement de voitures autonomes: Simulation d’environnements réalistes pour un entraînement plus sûr.
robotique: Entraînement de robots pour des tâches complexes.
Jeux vidéo: Création de scènes saisissantes et détaillées.
Modèles Vision-Langage: intégration facile grâce à sa compatibilité avec les LLM.
Surpasser les Modèles Plus Grands
HART, utilisant un modèle autorégressif de 700 millions de paramètres et un modèle de diffusion de 37 millions, rivalise avec des modèles de diffusion de 2 milliards de paramètres en termes de qualité, tout en étant neuf fois plus rapide et en utilisant 31% de calcul en moins.
FAQ
Q: Quelle est la différence principale entre HART et les autres modèles de génération d’images ?
R: HART combine la vitesse des modèles autorégressifs avec la qualité des modèles de diffusion pour une solution rapide et haute-fidélité.
Q: HART peut-il fonctionner sur mon smartphone ?
R: Oui, grâce à sa faible consommation de ressources.
Q: Quelles sont les prochaines étapes pour HART ?
R: Extension à la génération de vidéos et audio,ainsi qu’intégration avec des modèles vision-langage plus avancés.
Q: Comment utiliser HART ?
R: En entrant une requête en langage naturel dans l’interface.