Ce Nouveau Générateur d’Images Dont Tout le Monde Parle : Google Gemini 2.0 Flash

Un nouveau modèle de génération d’images fait sensation sur Twitter, et vous pourriez être surpris de découvrir de quoi il s’agit. Bienvenue dans notre analyse détaillée de cette innovation qui bouleverse le paysage de l’IA générative.

La nouvelle mise à jour de Google Gemini qui change tout

Cette semaine, Google a déployé une mise à jour majeure pour Gemini 2.0 Flash. La plupart des nouvelles fonctionnalités étaient importantes mais relativement ordinaires : le modèle a désormais accès à une mémoire, il peut consulter l’historique de recherche d’un utilisateur pour obtenir un contexte supplémentaire, et la fonction de recherche approfondie a été mise à jour pour prendre en charge le dernier modèle.

Cependant, la fonctionnalité qui a capté toute l’attention est une nouvelle fonction native de génération d’images. L’un des grands éléments différenciateurs des modèles LLM de Google est leur architecture multimodale native. Pour certains modèles, cela a même été la norme pendant un certain temps.

Si un utilisateur demande au modèle d’interpréter une image, celle-ci doit habituellement être convertie en description textuelle avant de pouvoir être introduite dans le LLM. Les modèles Gemini, quant à eux, peuvent traiter des images et de la voix sans conversion intermédiaire.

Les nouvelles capacités de génération d’images impressionnantes

Google a présenté cette nouvelle fonctionnalité avec quelques exemples d’utilisation concrets :

Les utilisateurs peuvent demander à Gemini de créer une histoire illustrée, en entremêlant texte et images

Le modèle peut également éditer des images à l’aide de commandes en langage naturel (c’est de loin l’aspect le plus discuté)
Par exemple, Google a démontré comment le modèle pouvait ajouter un bouquet de fleurs sur une table de salle à manger

Il y a également eu une démonstration combinant raisonnement et génération d’images, avec Gemini créant une recette accompagnée d’images illustrant chaque étape. Google a aussi souligné – et c’est une fonctionnalité extrêmement importante – que ce type de génération d’images peut produire du texte vraiment clair et net dans les images.

La réaction immédiate de la communauté Internet

La puissance de cet ensemble d’outils a été immédiatement évidente, et internet s’est empressé de découvrir quelles autres possibilités offraient cette nouvelle fonctionnalité :

Le professeur Ethan Mollik a pris une photo d’un kit de crochet Taylor Swift sur une étagère et a demandé au modèle de le transformer en quelque chose sur Napoléon, y compris en modifiant le texte
Lionus Ekinstam a changé l’arrière-plan d’un selfie, tourné son visage sur le côté, puis ajouté un chapeau à hélice

Chris, ancien développeur d’Anthropic, a supprimé les cheveux de Dario Amodei

Nous avons déjà vu cette fonctionnalité d’édition d’image par texte théoriquement intégrée dans d’autres applications, mais les gens semblent réagir à la perfection de cette version.

Applications professionnelles et créatives

Christian Panis, concepteur de jeux vidéo, a généré un personnage d’anime. Il a ensuite demandé au modèle de placer le personnage dans un environnement de jeu vidéo, de le faire courir un peu et grimper sur un mur. Gemini a créé des images fixes suivant les instructions, maintenant une cohérence tout au long du processus.

Il a également démontré que Gemini peut réaliser une simple animation pixel par pixel, image par image, avec suffisamment d’instructions. Ce type de stabilité stylistique représente un déblocage majeur pour les cas d’utilisation professionnels.

Cela ne signifie pas, bien sûr, que le modèle soit parfait. Ferrer a essayé une animation similaire en commençant par un visage de fille réaliste mais généré par IA. Sur environ 20 itérations, les images se sont, selon ses propres mots, « lentement dégradées en un spectacle d’horreur ».

Néanmoins, il s’agit d’une avancée majeure dans l’état de l’art de la génération d’images, en particulier en termes de contrôlabilité. Et pouvoir le faire directement depuis une session de chatbot Gemini représentera, pour beaucoup d’utilisateurs, une amélioration significative de l’expérience utilisateur.

Toriel a fait remarquer : « Quand Sam Altman a dit ‘Attendez-vous à de grandes améliorations dans la génération d’images’, il parlait de Gemini. »

Maya : l’assistant vocal viral désormais open source

En parlant de modèles d’IA viraux qui ont récemment attiré beaucoup d’attention, Sesame a rendu open source leur assistant vocal viral Maya.

Lorsque Maya a été présenté il y a deux semaines, il a pris d’assaut internet. Les utilisateurs chronométraient leurs conversations et vivaient ce qui était, selon tous les témoignages, une expérience de chat IA très engageante. C’est devenu un cliché de qualifier certaines innovations de « moment ChatGPT pour X », mais beaucoup ont soutenu que c’était exactement ce que Maya représentait pour la voix IA.

Le modèle était capable d’avoir des conversations fluides, il gérait les interruptions de manière transparente, il utilisait des tics vocaux humains subtils comme des pauses et des changements de rythme. Tout cela a conduit Sesame à affirmer qu’ils avaient franchi la vallée dérangeante de la parole IA et atteint ce qu’ils appellent la « présence vocale ».

Ce modèle est maintenant open source, ce qui signifie qu’il est librement disponible pour les développeurs qui souhaitent l’ajouter à leurs applications. Maya est sous licence Apache 2.0, qui impose très peu de restrictions à l’utilisation commerciale.

Le modèle est livré avec une petite sélection de voix, mais les utilisateurs peuvent ajouter les leurs en utilisant seulement quelques phrases d’échantillons vocaux. En utilisant la démo sur Hugging Face, Kyle Wiggers de TechCrunch a déclaré avoir pu cloner sa voix en moins d’une minute et commencer à générer de la parole.

Sesame a toutefois noté que le modèle ne dispose actuellement d’aucune protection. Ils fonctionnent sur le système de l’honneur et demandent aux utilisateurs de ne pas cloner la voix des gens sans consentement ou de se livrer à des activités nuisibles.

Alibaba ajoute des capacités agentiques à son assistant IA

Enfin, le géant chinois de la technologie Alibaba a dévoilé une nouvelle version de son application d’assistant IA, ajoutant pour la première fois des fonctionnalités agentiques de base à la plateforme.

La nouvelle version de l’application Quark a été mise à jour pour tirer parti du dernier modèle de raisonnement Quen d’Alibaba. L’assistant peut désormais effectuer des recherches IA ainsi que des recherches approfondies et l’exécution de tâches.

Nous prêtons attention à Alibaba car l’entreprise a déployé ses innovations extrêmement rapidement cette année et a progressé rapidement avec des partenariats. Elle a annoncé plus tôt cette semaine, par exemple, qu’elle travaillait avec l’agent viral Manis pour apporter cette expérience au marché chinois.

Au-delà de la rivalité Chine-États-Unis, c’est également une autre indication que l’IA agentique devient rapidement l’interface utilisateur par défaut dans tous les domaines. Cette version d’Alibaba vise explicitement à remplacer l’expérience de navigation habituelle par un assistant agentique.

Un phénomène similaire se produit aux États-Unis avec des outils comme Perplexity et Deep Research qui gagnent des parts de marché dans la recherche. Les assistants de codage agentiques deviennent omniprésents, et les améliorations des modèles vocaux réduisent également les frictions.

Aditus Shirana, constructeur d’agents, écrit : « À mon avis, la seconde moitié de 2025 sera consacrée à déterminer qui crée les meilleures interfaces d’agents IA pour un usage quotidien. Le véritable gagnant sera celui qui le rendra open source. »

Conclusion

Les avancées dans la génération d’images de Google Gemini 2.0 Flash marquent une étape importante dans l’évolution des capacités de l’IA générative. La combinaison de la génération d’images, de l’édition basée sur le texte et de l’intégration transparente dans une interface de chatbot offre un aperçu de l’avenir des interactions homme-machine.

Parallèlement, des développements comme l’assistant vocal Maya de Sesame et les fonctionnalités agentiques de Quark d’Alibaba soulignent la tendance croissante vers des assistants IA plus naturels et capables. Ces innovations convergent vers un futur où l’IA devient non seulement plus puissante, mais aussi plus accessible et intégrée dans notre vie quotidienne.

Featured image by Possessed Photography on Unsplash