Le nouveau générateur d’images IA d’OpenAI repousse les limites en matière de détail et de fidélité rapide – Ars Technica

Le nouveau générateur d’images IA d’OpenAI repousse les limites en matière de détail et de fidélité rapide – Ars Technica

Mercredi, OpenAI annoncé DALL-E 3, la dernière version de son modèle de synthèse d’images IA qui offre une intégration complète avec ChatGPT. DALL-E 3 restitue les images en suivant de près les descriptions complexes et en gérant la génération de texte dans l’image (comme les étiquettes et les panneaux), ce qui remettait en question les modèles précédents. Actuellement en aperçu de recherche, il sera disponible pour les clients ChatGPT Plus et Enterprise début octobre.

Comme son prédécesseur, DALLE-3 est un générateur de texte en image qui crée de nouvelles images basées sur des descriptions écrites appelées invites. Bien qu’OpenAI n’ait publié aucun détail technique sur DALL-E 3, le modèle d’IA au cœur des versions précédentes de DALL-E a été formé sur des millions d’images créées par des artistes et des photographes humains, dont certains sous licence de sites Web tels que Shutterstock. Il est probable que DALL-E 3 suive cette même formule, mais avec de nouvelles techniques de formation et plus de temps de formation informatique.

À en juger par les exemples fournis par OpenAI sur son blog promotionnel, DALL-E 3 semble être un modèle de synthèse d’image radicalement plus performant que tout autre modèle disponible en termes d’invites suivantes. Bien que les exemples d’OpenAI aient été sélectionnés pour leur efficacité, ils semblent suivre fidèlement les instructions rapides et restituer les objets de manière convaincante avec un minimum de déformations. Par rapport à DALL-E 2, OpenAI affirme que DALL-E 3 affine plus efficacement les petits détails comme les mains, créant des images attrayantes par défaut sans « aucun piratage ni ingénierie rapide requise ».

En comparaison, Midjourney, un modèle de synthèse d’image IA concurrent d’un autre fournisseur, restitue bien les détails photoréalistes, mais il nécessite encore beaucoup de bricolage contre-intuitif avec des invites pour obtenir un contrôle sur la sortie de l’image.

DALL-E 3 semble également gérer le texte dans les images d’une manière que son prédécesseur ne pouvait pas (certains modèles concurrents comme Stable Diffusion XL et DeepFloyd on s’améliore). Par exemple, une invite qui incluait les mots « Une illustration d’un avocat assis dans la chaise d’un thérapeute, disant “Je me sens si vide à l’intérieur” avec un trou de la taille d’une fosse en son centre » créait parfaitement un avocat de dessin animé avec la citation du personnage. encapsulé dans une bulle.

Notamment, OpenAI indique que DALL-E 3 a été « construit nativement » sur ChatGPT et arrivera en tant que fonctionnalité intégrée de ChatGPT Plus, permettant d’affiner la conversation sur les images de manière à utiliser l’assistant IA comme partenaire de brainstorming. Cela signifie également que ChatGPT sera capable de générer des images basées sur le contexte de la conversation en cours, ce qui pourrait conduire à de nouvelles fonctionnalités. L’assistant Bing Chat AI de Microsoft, également basé sur la technologie OpenAI, est capable de générer des images lors d’une conversation depuis mars.

La théière qui a créé une tempête

Une image générée par l'IA DALL-E 3 de
Agrandir / Une image générée par l’IA DALL-E 3 de « Un rendu 3D d’une tasse à café placée sur un rebord de fenêtre pendant une journée de tempête. La tempête à l’extérieur de la fenêtre se reflète dans le café, avec des éclairs miniatures et des vagues turbulentes visibles à l’intérieur de la tasse. ” La pièce est faiblement éclairée, ce qui ajoute à l’atmosphère dramatique. “

OpenAI

La version originale de DALL-E émergé en janvier 2021, et OpenAI a lancé sa suite considérablement plus performante en avril 2022, lançant une nouvelle ère d’images générées par l’IA avec un bang surprenant qui a captivé ses premiers testeurs bêta fermés. Les modèles DALL-E utilisent une technique appelée diffusion latente qui affine le bruit en images qu’il « reconnaît » à partir des connaissances acquises grâce à la formation sur un ensemble de données et aux conseils d’une invite. La même technologie a permis l’émergence du modèle Stable Diffusion à poids ouvert en août de l’année dernière.

En raison de la façon dont DALL-E a appris des concepts sur les images lors de la formation en récupérant un ensemble massif de données d’œuvres d’art produites par l’homme, la technologie de génération d’images par l’IA a été extrêmement controversée depuis son introduction grand public l’année dernière. La technologie a engendré des protestations d’artistes qui craignent qu’elle ne les remplace ou ne reproduise de manière contraire à l’éthique leurs styles, des poursuites pour violation du droit d’auteur basées sur des images récupérées utilisées comme données de formation sans consultation des détenteurs de droits d’auteur, et de nouvelles décisions sur le droit d’auteur du US Copyright Office et d’un organisme américain. juge du tribunal de grande instance.

En clin d’œil à ces controverses, OpenAI affirme que DALL-E 3 est conçu pour décliner les demandes qui demandent une image dans le style d’un artiste vivant. OpenAI aussi fournit un formulaire où les créateurs peuvent refuser que leurs images soient utilisées pour former les futurs modèles. Il semble peu probable que ces mesures satisfassent les artistes qui pensent généralement que la formation à l’IA devrait être volontaire plutôt qu’incluse par défaut dans les ensembles de données d’images.

Une comparaison de
Agrandir / Une comparaison de “Une peinture à l’huile expressive d’un joueur de basket-ball en train de plonger, représentée comme une explosion d’une nébuleuse” telle que générée par DALL-E 2 (à gauche) et DALL-E 3 (à droite).

OpenAI

À l’heure actuelle, la politique américaine en matière de droits d’auteur stipule que les œuvres d’art purement générées par l’IA ne peuvent pas bénéficier de la protection du droit d’auteur. Par conséquent, techniquement, toute image créée avec DALL-E 3 relèvera du domaine public. Bien qu’OpenAI ne le reconnaisse pas explicitement, il indique que “les images que vous créez avec DALL-E 3 vous appartiennent et vous n’avez pas besoin de notre autorisation pour les réimprimer, les vendre ou les commercialiser”. C’est un changement marqué par rapport à l’année dernière, lorsque OpenAI utilisation restreinte des images DALLE-2 basé sur une licence qui dit qu’OpenAI “possède toutes les générations”.

Concernant la sécurité, OpenAI indique que, comme DALL-E 2, il a implémenté des filtres de détection de mots clés et d’images dans DALL-E 3 pour limiter sa capacité à produire du contenu violent, sexuel ou haineux. Le système est également programmé pour refuser les demandes qui génèrent des images de personnalités publiques par leur nom, ce qui a causé des problèmes avec le générateur d’images IA concurrent Midjourney lorsqu’il a généré de fausses images d’arrestation de Donald Trump.

OpenAI affirme avoir travaillé avec des experts connus sous le nom de « équipes rouges » pour identifier et atténuer les risques potentiels, tels que les préjugés nuisibles ou la génération de propagande et de désinformation. OpenAI n’a donné aucun mot sur le potentiel de son outil à plier le dossier historique avec des fabrications convaincantes, bien qu’il affirme expérimenter un outil de « classificateur de provenance » qui peut aider à identifier si une image a été générée ou non par DALL-E 3.

Dans l’état actuel des choses, nous n’avons pas encore accès à DALL-E 3 pour le tester, mais OpenAI indique que le générateur d’images AI est actuellement en cours de tests fermés. Il prévoit de le rendre disponible pour les clients ChatGPT Plus et Enterprise “en octobre via l’API et dans les laboratoires plus tard cet automne”.

2023-09-21 01:35:55
1695255077


#nouveau #générateur #dimages #dOpenAI #repousse #les #limites #matière #détail #fidélité #rapide #Ars #Technica

Facebook
Twitter
LinkedIn
Pinterest

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.