Le nouveau générateur d’images IA d’OpenAI repousse les limites en matière de détail et de fidélité rapide – Ars Technica

Home » Sciences et technologies » Le nouveau générateur d’images IA d’OpenAI repousse les limites en matière de détail et de fidélité rapide – Ars Technica

Mercredi, OpenAI annoncé DALL-E 3, la dernière version de son modèle de synthèse d’images IA qui offre une intégration complète avec ChatGPT. DALL-E 3 restitue les images en suivant de près les descriptions complexes et en gérant la génération de texte dans l’image (comme les étiquettes et les panneaux), ce qui remettait en question les modèles précédents. Actuellement en aperçu de recherche, il sera disponible pour les clients ChatGPT Plus et Enterprise début octobre.

Comme son prédécesseur, DALLE-3 est un générateur de texte en image qui crée de nouvelles images basées sur des descriptions écrites appelées invites. Bien qu’OpenAI n’ait publié aucun détail technique sur DALL-E 3, le modèle d’IA au cœur des versions précédentes de DALL-E a été formé sur des millions d’images créées par des artistes et des photographes humains, dont certains sous licence de sites Web tels que Shutterstock. Il est probable que DALL-E 3 suive cette même formule, mais avec de nouvelles techniques de formation et plus de temps de formation informatique.

À en juger par les exemples fournis par OpenAI sur son blog promotionnel, DALL-E 3 semble être un modèle de synthèse d’image radicalement plus performant que tout autre modèle disponible en termes d’invites suivantes. Bien que les exemples d’OpenAI aient été sélectionnés pour leur efficacité, ils semblent suivre fidèlement les instructions rapides et restituer les objets de manière convaincante avec un minimum de déformations. Par rapport à DALL-E 2, OpenAI affirme que DALL-E 3 affine plus efficacement les petits détails comme les mains, créant des images attrayantes par défaut sans « aucun piratage ni ingénierie rapide requise ».

Une image DALL-E 3 fournie par OpenAI avec l’invite : “Une illustration d’un avocat assis sur la chaise d’un thérapeute, disant ‘Je me sens tellement vide à l’intérieur’ avec un trou de la taille d’une fosse en son centre. Le thérapeute, une cuillère, gribouille des notes. »

OpenAI
Une image DALL-E 3 fournie par OpenAI avec l’invite : “Un vaste paysage entièrement composé de viandes diverses s’étend devant le spectateur. Des collines tendres et succulentes de rosbif, des pilons de poulet, des rivières de bacon et des rochers de jambon créent un décor surréaliste, scène pourtant appétissante. le ciel est orné de soleil de pepperoni et de nuages de salami.

OpenAI
Une image DALL-E 3 fournie par OpenAI avec l’invite : “Un diorama mini-carte d’un café orné de plantes d’intérieur. Des poutres en bois s’entrecroisent au-dessus et une station d’infusion froide se démarque avec de minuscules bouteilles et verres.”

OpenAI
Une image DALL-E 3 fournie par OpenAI avec l’invite : “Photographie rapprochée d’un bernard-l’ermite niché dans du sable humide, avec de l’écume de mer à proximité et les détails de sa coquille et la texture du sable accentués.”

OpenAI
Une image DALL-E 3 fournie par OpenAI avec l’invite : “Un art en papier représentant une fille faisant un doux câlin à son chat. Tous deux sont assis au milieu de plantes en pot, le chat ronronnant de contentement pendant que la fille sourit. La scène est ornée d’objets fabriqués à la main. fleurs et feuilles en papier.

OpenAI
Une image DALL-E 3 fournie par OpenAI avec l’invite : “Scène de pixel art de la Coit Tower debout sur Telegraph Hill, avec une vue panoramique sur la ville en contrebas et les oiseaux qui volent autour.”

OpenAI
Une image DALL-E 3 fournie par OpenAI avec l’invite : “De minuscules rois de la pomme de terre portant des couronnes majestueuses, assis sur des trônes, supervisant leur vaste royaume de la pomme de terre rempli de sujets et de châteaux de pommes de terre.”

OpenAI
Une image DALL-E 3 fournie par OpenAI avec l’invite : “Une illustration d’un cœur humain en verre translucide, debout sur un piédestal au milieu d’une mer agitée. Les rayons du soleil percent les nuages, illuminant le cœur, révélant un petit univers à l’intérieur. La citation « Trouvez l’univers en vous » est gravée en lettres grasses à l’horizon. »

OpenAI
Une image DALL-E 3 fournie par OpenAI avec l’invite : “Une femme d’âge moyen d’origine asiatique, ses cheveux noirs striés d’argent, semblent fracturés et éclatés, finement noyés dans une mer de porcelaine brisée. La porcelaine scintille d’éclaboussures de peinture. des motifs dans un mélange harmonieux de bleus, de verts, d’oranges et de rouges brillants et mats, capturant sa danse dans une juxtaposition surréaliste de mouvement et d’immobilité. Son teint, une teinte claire comme la porcelaine, ajoute une qualité presque mystique à sa forme. ”

OpenAI

En comparaison, Midjourney, un modèle de synthèse d’image IA concurrent d’un autre fournisseur, restitue bien les détails photoréalistes, mais il nécessite encore beaucoup de bricolage contre-intuitif avec des invites pour obtenir un contrôle sur la sortie de l’image.

DALL-E 3 semble également gérer le texte dans les images d’une manière que son prédécesseur ne pouvait pas (certains modèles concurrents comme Stable Diffusion XL et DeepFloyd on s’améliore). Par exemple, une invite qui incluait les mots « Une illustration d’un avocat assis dans la chaise d’un thérapeute, disant “Je me sens si vide à l’intérieur” avec un trou de la taille d’une fosse en son centre » créait parfaitement un avocat de dessin animé avec la citation du personnage. encapsulé dans une bulle.

Notamment, OpenAI indique que DALL-E 3 a été « construit nativement » sur ChatGPT et arrivera en tant que fonctionnalité intégrée de ChatGPT Plus, permettant d’affiner la conversation sur les images de manière à utiliser l’assistant IA comme partenaire de brainstorming. Cela signifie également que ChatGPT sera capable de générer des images basées sur le contexte de la conversation en cours, ce qui pourrait conduire à de nouvelles fonctionnalités. L’assistant Bing Chat AI de Microsoft, également basé sur la technologie OpenAI, est capable de générer des images lors d’une conversation depuis mars.

La théière qui a créé une tempête

Une image générée par l'IA DALL-E 3 de — Agrandir / Une image générée par l’IA DALL-E 3 de « Un rendu 3D d’une tasse à café placée sur un rebord de fenêtre pendant une journée de tempête. La tempête à l’extérieur de la fenêtre se reflète dans le café, avec des éclairs miniatures et des vagues turbulentes visibles à l’intérieur de la tasse. ” La pièce est faiblement éclairée, ce qui ajoute à l’atmosphère dramatique. “
OpenAI

La version originale de DALL-E émergé en janvier 2021, et OpenAI a lancé sa suite considérablement plus performante en avril 2022, lançant une nouvelle ère d’images générées par l’IA avec un bang surprenant qui a captivé ses premiers testeurs bêta fermés. Les modèles DALL-E utilisent une technique appelée diffusion latente qui affine le bruit en images qu’il « reconnaît » à partir des connaissances acquises grâce à la formation sur un ensemble de données et aux conseils d’une invite. La même technologie a permis l’émergence du modèle Stable Diffusion à poids ouvert en août de l’année dernière.

En raison de la façon dont DALL-E a appris des concepts sur les images lors de la formation en récupérant un ensemble massif de données d’œuvres d’art produites par l’homme, la technologie de génération d’images par l’IA a été extrêmement controversée depuis son introduction grand public l’année dernière. La technologie a engendré des protestations d’artistes qui craignent qu’elle ne les remplace ou ne reproduise de manière contraire à l’éthique leurs styles, des poursuites pour violation du droit d’auteur basées sur des images récupérées utilisées comme données de formation sans consultation des détenteurs de droits d’auteur, et de nouvelles décisions sur le droit d’auteur du US Copyright Office et d’un organisme américain. juge du tribunal de grande instance.

En clin d’œil à ces controverses, OpenAI affirme que DALL-E 3 est conçu pour décliner les demandes qui demandent une image dans le style d’un artiste vivant. OpenAI aussi fournit un formulaire où les créateurs peuvent refuser que leurs images soient utilisées pour former les futurs modèles. Il semble peu probable que ces mesures satisfassent les artistes qui pensent généralement que la formation à l’IA devrait être volontaire plutôt qu’incluse par défaut dans les ensembles de données d’images.

Agrandir / Une comparaison de “Une peinture à l’huile expressive d’un joueur de basket-ball en train de plonger, représentée comme une explosion d’une nébuleuse” telle que générée par DALL-E 2 (à gauche) et DALL-E 3 (à droite).
OpenAI

À l’heure actuelle, la politique américaine en matière de droits d’auteur stipule que les œuvres d’art purement générées par l’IA ne peuvent pas bénéficier de la protection du droit d’auteur. Par conséquent, techniquement, toute image créée avec DALL-E 3 relèvera du domaine public. Bien qu’OpenAI ne le reconnaisse pas explicitement, il indique que “les images que vous créez avec DALL-E 3 vous appartiennent et vous n’avez pas besoin de notre autorisation pour les réimprimer, les vendre ou les commercialiser”. C’est un changement marqué par rapport à l’année dernière, lorsque OpenAI utilisation restreinte des images DALLE-2 basé sur une licence qui dit qu’OpenAI “possède toutes les générations”.

Concernant la sécurité, OpenAI indique que, comme DALL-E 2, il a implémenté des filtres de détection de mots clés et d’images dans DALL-E 3 pour limiter sa capacité à produire du contenu violent, sexuel ou haineux. Le système est également programmé pour refuser les demandes qui génèrent des images de personnalités publiques par leur nom, ce qui a causé des problèmes avec le générateur d’images IA concurrent Midjourney lorsqu’il a généré de fausses images d’arrestation de Donald Trump.

OpenAI affirme avoir travaillé avec des experts connus sous le nom de « équipes rouges » pour identifier et atténuer les risques potentiels, tels que les préjugés nuisibles ou la génération de propagande et de désinformation. OpenAI n’a donné aucun mot sur le potentiel de son outil à plier le dossier historique avec des fabrications convaincantes, bien qu’il affirme expérimenter un outil de « classificateur de provenance » qui peut aider à identifier si une image a été générée ou non par DALL-E 3.

Dans l’état actuel des choses, nous n’avons pas encore accès à DALL-E 3 pour le tester, mais OpenAI indique que le générateur d’images AI est actuellement en cours de tests fermés. Il prévoit de le rendre disponible pour les clients ChatGPT Plus et Enterprise “en octobre via l’API et dans les laboratoires plus tard cet automne”.

2023-09-21 01:35:55
1695255077

#nouveau #générateur #dimages #dOpenAI #repousse #les #limites #matière #détail #fidélité #rapide #Ars #Technica

Nouvelles Du Monde

Le nouveau générateur d’images IA d’OpenAI repousse les limites en matière de détail et de fidélité rapide – Ars Technica

La théière qui a créé une tempête

Leave a Comment Cancel Reply

Dans quelles villes européennes est-il plus facile de trouver un bon emploi ? Voici ce que pensent les habitants

Révolution dans le restaurant étoilé « Alois » à Munich

Le club des mamans infatigables qui gagnent les marathons de montagne

Bundesliga : prochain revers pour Gladbach – 1:2 à Augsbourg

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Comment trouver l’amour en 2022 ?

ADVERTISEMENT

Nouvelles Du Monde

Le nouveau générateur d’images IA d’OpenAI repousse les limites en matière de détail et de fidélité rapide – Ars Technica

La théière qui a créé une tempête

Share this:

Leave a Comment Cancel Reply

Dans quelles villes européennes est-il plus facile de trouver un bon emploi ? Voici ce que pensent les habitants

Share this:

Révolution dans le restaurant étoilé « Alois » à Munich

Share this:

Le club des mamans infatigables qui gagnent les marathons de montagne

Share this:

Bundesliga : prochain revers pour Gladbach – 1:2 à Augsbourg

Share this:

RECENT POSTS

7 conseils efficaces pour communiquer avec les gens et établir des contacts utiles

Comment trouver l’amour en 2022 ?

ADVERTISEMENT

Tags