Google a-t-il tué Photoshop ? La puissance de Gemini 2.0 pour la génération et l’édition d’images
Google semble avoir développé quelque chose de révolutionnaire que vous pouvez explorer sur AI Studio (ai.google.com). Dans cet article, nous allons examiner les capacités impressionnantes de Gemini 2.0 en matière de génération et d’édition d’images, et nous interroger sur son potentiel à remplacer des outils traditionnels comme Photoshop.
Gemini 2.0 Flash : Création d’environnements de jeux vidéo
Commençons par tester la capacité de Gemini à créer des environnements de jeux à partir d’une simple feuille de sprites. En utilisant le modèle Gemini 2.0 Flash (expérimental) avec le format de sortie « images et texte », nous avons soumis une feuille de sprites de jeu vidéo trouvée en ligne.
La réponse du modèle a été étonnante. Il a procédé méthodiquement :
- Établissement de la couche de sol avec de la terre brune et des pierres
- Création de pentes et de transitions
- Ajout optionnel de grottes souterraines
- Implémentation de caractéristiques aquatiques
Le résultat était phénoménal – au lieu d’une vue aérienne attendue, Gemini a créé une vue de côté cohérente avec la feuille de sprites fournie, parfaite pour un jeu de plateforme.
En continuant l’expérience, nous avons demandé de créer un village peuplé de personnages. Le modèle a intelligemment identifié les éléments essentiels et généré un groupe de maisons où les villageois pourraient vivre. La qualité était impressionnante, sans filigrane ni défauts évidents.
Ajout de personnages et problèmes de sécurité
Lorsque nous avons essayé d’ajouter des personnages de la feuille de sprites, nous avons rencontré un message d’erreur : « contenu non autorisé » avec une probabilité de « contenu dangereux ». Malgré la désactivation des paramètres de sécurité, certaines requêtes ont continué d’être bloquées pour des raisons peu claires.
Animation et modification de personnages
Passons à l’animation de personnages. Nous avons testé la capacité de Gemini à modifier l’expression d’un personnage féminin :
- Expression en colère : Le modèle a réussi à transformer l’expression faciale avec précision
- Expression joyeuse : Le résultat était convenable, bien que pas parfait
- Expression neutre avec yeux rouges lumineux : Le modèle a bien géré cette demande plus complexe
Malgré la perspective inhabituelle du visage, Gemini a réussi à manipuler les expressions faciales de manière impressionnante.
Édition de photos réelles
Les capacités d’édition de photos réelles sont particulièrement intéressantes. Nous avons utilisé une photo d’une personne sur une moto et demandé à Gemini de la modifier :
- Saut par-dessus une rangée de voitures : Le résultat était étonnamment bon
- Conduite sur un toit de ville la nuit : La qualité variait, avec un excellent arrière-plan de ville mais des modifications moins réussies sur le sujet
Un autre exemple remarquable : nous avons modifié l’image de la célèbre « Lo-fi beats girl » en remplaçant la fille par un homme buvant du café. Le résultat était impressionnant, avec une reconstruction presque parfaite de l’image tout en conservant les détails de l’environnement.
Création d’assets pour jeux vidéo
La génération d’assets pour jeux vidéo est une autre force de Gemini. Nous avons demandé de créer une feuille de sprites pour un RPG en vue isométrique :
Créer une feuille de sprites d'assets pour un RPG Dungeon Crawler en vue isométrique
Le modèle a réfléchi étape par étape et créé une image complète avec des murs, des armes, des barils, des potions et des pièces d’or. Un conseil utile : ajouter « réfléchis étape par étape puis crée une image » aide considérablement le modèle à produire des résultats de qualité.
Nous avons pu affiner l’image en ajoutant des potions, des pièces et des torches avec effets d’éclairage. Cependant, nous avons constaté que lorsque plusieurs éléments sont ajoutés simultanément, il devient plus difficile de modifier ensuite des éléments spécifiques.
Création de mondes de jeu complets
Gemini peut même créer des mondes de jeu fictifs complets avec une interface utilisateur cohérente, un éclairage et une direction artistique à travers plusieurs captures d’écran. Les résultats incluaient :
- Un pont à traverser
- Un puzzle à résoudre
- Une plateforme centrale avec des touches d’interaction
- Un combat contre un boss imposant
- Une vaste bibliothèque
Lorsque nous avons demandé une version similaire mais en 3D à la manière de Deus Ex, le modèle a parfaitement capturé l’esthétique cyberpunk et biopunk, créant des environnements urbains futuristes et des laboratoires high-tech.
Création d’images 3D et techniques
Gemini peut également générer des images techniques convaincantes. Nous avons demandé une capture d’écran de Blender avec le cube par défaut visible, puis de remplacer ce cube par une tête de loup-garou. Les résultats étaient remarquablement réalistes.
Édition d’objets dans les photos
L’édition d’objets dans les photos est particulièrement impressionnante. Voici quelques exemples :
- Remplacement d’une canette par un iPhone dans une scène de « Once Upon a Time in Hollywood »
- Ajout d’une canette de café Kirkland dans la main d’un mannequin
- Modification pour faire boire le mannequin directement à la canette
Ce dernier exemple était particulièrement réussi – à première vue, l’image générée était presque indiscernable d’une photo réelle. En examinant de plus près, on pouvait noter quelques imperfections mineures comme un texte légèrement déformé sur la canette et une fusion de l’ongle du petit doigt, mais la représentation volumétrique de la canette et l’intégration globale étaient exceptionnelles.
Génération de séquences d’images
Nous avons testé la capacité de Gemini à créer une séquence d’images montrant une personne buvant du café puis savourant son goût. Le modèle a généré trois images distinctes :
- Une femme tenant la canette (qualité exceptionnelle)
- La femme savourant le goût (expression faciale moins naturelle)
- La femme appréciant l’arrière-goût (qualité acceptable)
La première image était particulièrement impressionnante, presque indiscernable d’une photo réelle.
Photos de type passeport et portraits
Nous avons également testé la génération de photos de type passeport à partir d’images existantes. Les résultats étaient corrects mais pas exceptionnels. En revanche, la création et l’itération sur des portraits étaient plus impressionnantes :
- Création d’une femme debout sur une plage
- Ajout d’une planche de surf (avec quelques erreurs comme une main supplémentaire)
- Ajout d’un chapeau de surfeur
- Modification de la pose pour pointer vers la caméra
Conclusion : Le futur de l’édition d’image par IA
Les capacités d’édition d’image de Gemini 2.0 sont remarquablement impressionnantes, surtout pour un modèle expérimental. Sa capacité à itérer sur une image et à y apporter des modifications précises est particulièrement notable. Bien que la qualité des sorties ne soit pas toujours parfaite, les meilleurs résultats sont véritablement étonnants.
Google déploie de nombreux produits passionnants, notamment une fonctionnalité de type « canvas » pour ses modèles Gemini, similaire à ce que propose OpenAI avec Canvas. Ces développements vont certainement permettre aux utilisateurs d’effectuer des modifications de type Photoshop sans avoir besoin de maîtriser des logiciels complexes.
Il est important de noter que ce modèle est expérimental, non destiné à un usage en production mais plutôt aux tests et aux retours d’expérience. Si l’on considère les 50% meilleurs résultats, ils sont incroyables et montrent d’excellentes capacités de raisonnement visuel et de transformation d’instructions textuelles en images personnalisées.
Avec le temps et les améliorations continues, il sera fascinant de voir l’évolution de cette technologie. La puissance, la vitesse, la capacité de raisonnement de Gemini sont très prometteuses, même à ce stade expérimental.
Alors, Google a-t-il tué Photoshop ? Pas encore, mais les fondations sont posées pour une révolution dans l’édition d’images assistée par IA qui pourrait un jour rivaliser avec les outils professionnels traditionnels.

