Disiz Yyov
Posts
Google Imagen 3 est enfin sorti

Google Imagen 3 est enfin sorti

Est-ce le meilleur générateur d’images IA ?

Disiz Yyov & Inès Carion
11th octobre 2024

Hello à tous et à toutes !

Aujourd’hui, je continue avec ce même format qu’il y a quelques jours avec les TedX.

Beaucoup ont apprécié alors c’est parti ! Je ferai un peu de contenu comme ça et pour les actualités, je resterai sur le format de base, pour le plaisir de tous !

On va parler du dernier générateur d'images IA de Google: Imagen 3.

Cinq mois après son annonce initiale lors du Google I/O 2024, le générateur d'images IA le plus puissant de Google est enfin disponible dans Gemini.

Quelles sont les nouveautés et comment se compare-t-il aux autres générateurs d'images ?

Imagen 3 est notre modèle de génération d'images à partir de texte le plus performant, capable de créer des images avec encore plus de détails, une lumière plus riche et moins d'artéfacts distrayants que nos précédents modèles.”

— Google

L'un des principaux objectifs de ce modèle d'image mis à jour est sa capacité considérablement améliorée à comprendre les instructions.

Cette amélioration permet au modèle de générer une large gamme de styles visuels et de capturer de petits détails à partir de descriptions plus longues et complexes.

Qu'est-ce qu'Imagen 3 ?

Voilà les fonctionnalités qui lui ont été ajoutées :

Générer des images avec de meilleurs détails, une lumière plus riche et moins d'artéfacts distrayants que les modèles précédents.
Comprendre des instructions rédigées en langage naturel, ce qui facilite la génération d'images alignées sans prompts complexes.
Générer des images dans une large gamme de formats et de styles, allant des paysages photoréalistes aux peintures à l'huile texturées ou encore des scènes fantaisistes en pâte à modeler.
Rendre le texte de manière plus efficace que les modèles précédents, ouvrant de nouvelles possibilités pour des usages comme des cartes d'anniversaire stylisées, des présentations, et bien plus encore.

Comment essayer Imagen 3 ?

Rendez-vous sur le chatbot Gemini de Google
Active ton VPN (pas encore disponible en France)
Connecte-toi avec ton compte Google et commence à taper n'importe quelle description d'image.

Voici un exemple :

Prompt : Trois femmes debout ensemble en train de rire, avec une femme légèrement floue au premier plan. Le soleil se couche derrière les femmes, créant un effet de lumineux et une lueur chaude.

Le résultat est vraiment photoréaliste. L'image capture non seulement les sujets, mais aussi les conditions d'éclairage nuancées décrites dans la description.

Une fois l'image générée, Gemini affichera un aperçu de 512x512. Pour obtenir l'image en pleine taille, survolez le coin supérieur droit de l'image et cliquez sur le bouton "Télécharger en taille réelle".

Le résultat final est un fichier d'image de 2048x2048 pixels au format JFIF.

Astuce : Si l'image générée ne correspond pas tout à fait à vos attentes, essayez d'ajouter plus de détails à votre description. Plus vous êtes spécifique, mieux Imagen 3 pourra ajuster l'image à vos attentes.

Essayons un autre exemple. Cette fois-ci, je voulais voir comment Imagen 3 rend de petits détails complexes.

Prompt : Un mini éléphant marchant dans la savane, une photographie professionnelle, arrière-plan flou.

Le niveau de détail est époustouflant — la texture du tissu tricoté est capturée de manière vivante, et le flou de l'arrière-plan ajoute une touche photographique professionnelle. L'éclairage et la composition sont vraiment bons, donnant à l'image l'apparence d'une photo prise avec un appareil de haute qualité.

Ensuite, voyons comment Imagen 3 rend du texte sur des images.

Prompt : Le mot "disiz yyov" composé de plumes colorées sur fond noir.

La création de texte est probablement l'un des problèmes les plus difficiles auxquels de nombreux modèles d'image sont confrontés. Cependant, Imagen 3 le gère remarquablement bien. Le mot "disiz yyov" est clair et lisible, avec des plumes colorées détaillées et non déformées sur le fond noir.

Point négatif : absence de contrôle d'édition d'image

Tu ne peux pas ajuster le ratio d'aspect ni la résolution.
Il n'y a aucun moyen d'ajouter des styles ou des filtres.
Il n'y a pas de capacités d'inpainting ou d'outpainting.

Tu es limité à un format carré 1:1 pour toutes tes images.

Ces limitations pourraient être un frein pour certains, en particulier les professionnels qui ont besoin de plus de contrôle sur le résultat final. Si ces fonctionnalités sont essentielles pour toi, Midjourney ou Flux Labs seront dans ce cas plus appropriées.

Imagen 3 vs Midjourney vs Flux

Ce qui est sûr, c’est que beaucoup se demandent comment Imagen 3 se compare à d'autres générateurs d'images IA populaires comme Midjourney, Dall-E 3 et Flux.

Pour les tester, voici quelques exemples :

Prompt : Photo d'une femme souriante, pleine d'énergie, allongée sur un canapé et lisant un livre, réaliste, photo prise avec un iPhone 11.

Prompt: dans le style d'Anthony Burrill, fête, portrait d'un british shorthair soufflant du chewing-gum, fond blanc

Prompt: Polaroid photo with VSCO filter, 1990, gorgeous woman, night, flash photo, blonde, cute, young face, beautiful shadows, tropical plants, urban clothing, inside an apartment, DSLR, holding a sign written in ballpoint pen on a notebook saying "Imagen 3"

Il est vraiment difficile de dire quel modèle d'image est le meilleur. Tous ces résultats sont très bons et cohérents avec la description donnée.

Bon, au final, Imagen 3 est génial par rapport à Imagen 2 et les résultats sont bluffants.

Par contre, je le trouve pas encore à la hauteur de Flux ou de Midjourney. Il y a encore des progrès à faire !