Chatgpt vient de recevoir une énorme mise à niveau de la génération d’images

Personne écrivant sur un tableau blanc des concepts d'IA avec vue sur un pont.

Plongée dans les transformations multimodales avec l'intelligence artificielle.

26 mars 2025

5 min de lecture

Table des matières

Images plus réalistes et précises
Le texte et les diagrammes sont considérablement améliorés
Cohérence et édition
Problèmes de droit d'auteur et de sécurité

OpenAI a considérablement accéléré les capacités de génération d’images de ChatGPT, ajoutant la mise à jour dans le cadre du modèle GPT-4O introduit en mai dernier. Le nouveau générateur d’IA amélioré se déroule maintenant pour tous les utilisateurs de ChatGPT, sur les plans payants et le niveau gratuit (bien que les utilisateurs gratuits soient plus restreints dans la quantité qu’ils peuvent l’utiliser).

Il a été possible de générer des images via l’interface Chatgpt depuis un certain temps maintenant, bien que dans les coulisses, le travail a été cultivé sur le modèle d’image de Dall-E 3. Maintenant, tout sera géré par GPT-4O, pour une expérience plus cohérente et native.

Il y a beaucoup d’améliorations ici, qui couvrent certains des domaines avec lesquels les outils de créateur d’images AI ont généralement des difficultés: rendu du texte, gardant des caractères cohérents sur les images et des diagrammes de dessin. Openai dit que vous pouvez désormais vous attendre à des résultats plus « précis, précis et photoréalistes » de vos invites.

Images plus réalistes et précises

Les images faites avec l’IA sont souvent livrées avec un éclat artificiel qui vous dit qu’ils ont été rêvés par des algorithmes, et qui devrait être moins évident avec les images GPT-4O. L’une des images de démonstration présentées par Openai a une femme écrivant sur un tableau blanc, avec une vue qui y est reflété – toutes assez réalisées, bien que notez la petite légende en bas qui vous indique que c’était la meilleure des huit tentatives que Chatgpt a eues à l’invite.

Les utilisateurs d’art de l’IA devraient également rester plus étroitement aux invites données, explique Openai. Donc, si vous voulez des objets spécifiques dans des endroits spécifiques, ou si vous avez besoin de personnes dans certaines positions, ces instructions seront apparemment effectuées plus fidèlement. L’une des images d’exemples les plus impressionnantes montre une bande dessinée à quatre panneaux rendue par Chatgpt, sans aucune erreur ou incohérence évidente.

J’ai essayé d’obtenir un chatppt pour transformer un roman d’Austen en bande dessinée et produire une image photoréaliste d’une maison majestueuse avec un jardin, et les résultats étaient impressionnants, sinon tout à fait parfaits. Ils sont certainement considérablement meilleurs que les images qui produisaient auparavant, bien que le rendu prend plus de temps (généralement quelques minutes plutôt que des secondes).

Le texte et les diagrammes sont considérablement améliorés

Essayer de faire en sorte que l’IA rend le texte et les diagrammes soit un défi depuis longtemps: la façon dont ces outils sont construits signifie qu’ils sont bien meilleurs pour inventer et remixer les images sur lesquelles ils ont été formés, plutôt que de reproduire une copie exacte de l’alphabet ou une série de rectangles et de flèches.

Le nouveau modèle GPT-4O peut rendre le texte et les diagrammes à un niveau élevé de détail et de précision, vous ne devriez donc pas voir autant d’erreurs et d’incohérences étranges. Le showreel d’Openai comprenait un menu, une invitation, une carte d’embarquement et un diagramme expliquant l’expérience Prism de Newton, tous générés à partir d’une seule invite de texte.

Lorsque j’ai demandé à Chatgpt de produire une infographie expliquant l’ADN en termes simples, et une couverture de livre avec un titre et un auteur spécifié, il a suivi le mémoire assez exactement – le graphique était basique mais précis (selon l’invite), et la couverture du livre ressemblait à quelque chose que vous pourriez voir dans un magasin. Tout aussi important, il n’y avait pas d’artefacts ou d’incohérences étranges dans les images.

Cohérence et édition

J’ai déjà écrit sur les limites de l’édition d’images Chatgpt, et c’est un autre domaine qui a été mis à niveau. Il est désormais plus facile de garder les personnages et les scènes cohérents entre les images, pour ne pas modifier des parties d’une image et laisser le reste intact, et pour construire différentes couches d’une image. Vous pouvez même créer des arrière-plans transparents, si nécessaire, ou spécifier des couleurs à l’aide de codes hexagonaux.

D’autres améliorations se présentent dans la façon dont Chatgpt peut accepter et remixer vos propres images, et intégrer d’autres informations (à partir du Web et de ses données de formation): donc l’une des images de démonstration OpenAI a été construite à partir de l’invite « Faire une infographie visuelle décrivant pourquoi SF est si brumeux » et Chatgpt a fait cela (enfin, le meilleur des trois).

Dans mes propres tests, j’ai trouvé Chatgpt beaucoup mieux dans l’édition d’images et assez compétent pour remixer des images dans différents styles. Il a encore du mal dans une certaine mesure en gardant la cohérence entre les images, en particulier avec des objets et des caractères complexes. C’est certainement mieux qu’il ne l’était à ce sujet, mais il y a toujours une tendance à trop faire trop les modifications, à rendre l’IA moins utile pour modifier les images ou faire une série de plusieurs images qui doivent correspondre.

Problèmes de droit d’auteur et de sécurité

Comme pour toute annonce génératrice de l’IA, les problèmes concernant le droit d’auteur, la mauvaise utilisation et les demandes d’énergie sont à nouveau évoqués. Openai a déclaré qu’il est impossible de construire ces outils sans s’entraîner sur des images protégées par le droit d’auteur, bien qu’elle ait récemment commencé à signer des accords de contenu avec des fournisseurs tels que Shutterstock. Brad Lightcap, directeur de l’exploitation d’Openai, a déclaré au Wall Street Journal que le générateur d’images GPT-4O rejeterait les demandes pour imiter le travail de tout artiste vivant.

En ce qui concerne la sécurité, Openai dit que les images générées sont toutes livrées avec des métadonnées C2PA pour les identifier comme générées par l’AI – bien que ces métadonnées puissent être facilement supprimées avec quelque chose d’aussi simple qu’une capture d’écran. Le générateur d’IA est également conçu pour repousser toute tentative de création de « matériaux d’abus sexuels et de fous sexuels », explique Openai, ainsi que d’autres invites qui violent ses politiques de contenu.

Il s’agit clairement d’un pas en avant majeur pour les images de l’IA: la technologie améliorée est parfois véritablement à couper le souffle, et de nombreux signes révélateurs de l’IA et les erreurs commises par la technologie disparaissent. Cela soulève de grandes questions sur l’avenir vers lequel nous sommes tous en train de faire un tas, celui où les contrefaçons sont si facilement faites, où le travail créatif se fait par des robots plutôt que par des gens – et où nous perdons collectivement notre capacité à esquisser une image, à élaborer une phrase ou à écrire une ligne de code. Et puis comment une IA générative trouvera-t-elle plus de données de formation?

Maxence Rose

Un couple souriant s'embrasse en dansant

Quoi de neuf sur Paramount + avec Showtime en avril 2025

Interface audio avec titre et contrôles de lecture

Vous pouvez désormais générer des « apersements audio ‘de style podcast directement dans Gemini AI