Midjourney v7 face à ChatGPT ImageGen : Le duel des titans de la génération d’images par IA

Midjourney vient de lancer son dernier modèle, la version 7, mais comment se positionne-t-il après la sortie virale du modèle de génération d’images de ChatGPT par OpenAI il y a seulement quelques semaines ? Plongeons dans cette analyse détaillée des nouvelles technologies de génération d’images qui révolutionnent le paysage de l’IA créative.

Le nouveau Midjourney v7 : Évolution plutôt que révolution

C’est un jour important pour les amateurs d’IA générative avec la sortie de Midjourney v7, leur premier nouveau modèle depuis presque un an. Ce modèle est, sans surprise, visuellement époustouflant. Il offre des capacités impressionnantes tant en photoréalisme qu’en modes stylisés. Parmi ses fonctionnalités, on retrouve :

La possibilité de formuler des prompts vocaux

La personnalisation d’images basée sur vos préférences
Plusieurs réglages de vitesse de génération

Cependant, ce nouveau modèle n’introduit pas vraiment de fonctionnalités révolutionnaires. Il s’agit essentiellement d’une version améliorée de l’expérience Midjourney qui a fait son succès jusqu’à présent.

Un contexte radicalement différent après ChatGPT ImageGen

Le contexte de cette sortie est très différent suite au lancement de la génération d’images par OpenAI. Quand cette dernière est sortie avec une approche différente de la diffusion, beaucoup se sont demandé si l’approche d’IA qui sous-tend Midjourney allait disparaître, supplantée par la génération d’images nativement multimodale.

Swix a même interpellé David Holtz, le fondateur de Midjourney, en disant : « J’essaie de ne pas céder à l’hyperbole, mais Midjourney va-t-il suivre le même chemin maintenant que nous avons cela dans Gemini 40 ? Je ne vois pas comment je pourrais revenir à autre chose. »

La réponse laconique de David ? Un simple « nah ».

Lors du lancement de v7, il a écrit : « C’est un modèle entièrement nouveau avec des forces uniques et probablement quelques faiblesses. Nous voulons apprendre de vous ce qui est bon et mauvais, mais gardez à l’esprit qu’il peut nécessiter différents styles de prompting, alors expérimentez un peu. »

Réactions mitigées de la communauté

Les réactions à cette sortie ont été franchement mitigées. Le créateur de contenu Freebitar a écrit : « En tant qu’utilisateur chevronné de Midjourney, je dois dire que je suis plutôt déçu. OpenAI a placé la barre très haut avec son système de génération d’images conversationnel. MJ7 semble plus réaliste, mais en avions-nous vraiment besoin ? Midjourney + Magnific avaient déjà tout ce qu’il fallait. Je pourrais mettre mon abonnement en pause, pour être honnête. »

Yavi Lopez, fondateur de Magnific, a ajouté : « Oui, je suis plutôt d’accord, mais Midjourney a toujours cette esthétique artistique super cool et cette richesse de styles. Cependant, pour être juste, ils avaient déjà cela dans la version 6.1 et les précédentes. Le problème est que V7 ne ressemble pas vraiment à une V7, mais plutôt à une version 6.2. »

Jimmy Ortega a souligné : « Ils savaient que ce n’était pas encore prêt, c’est pourquoi ce n’était pas sorti. Puis 40 Image Gen a décollé et ils ont été forcés de sortir ce qu’ils avaient pour gagner en dynamique. C’est juste un mouvement de représailles, et un mauvais. »

Le professeur Ethan Mollik a écrit : « Je suis un grand fan de Midjourney pour créer des images visuellement intéressantes avec l’IA et je l’utilise depuis 2022. J’aime leur nouvelle version, mais le problème avec la nouvelle V7 sortie aujourd’hui est que V6 était déjà vraiment bonne. L’expérimentation sera amusante cependant. »

Tatiana, ambassadrice créative chez Perplexity, ne comprend pas les plaintes, postant : « Je suis époustouflée en explorant Midjourney V7. Un énorme bond en qualité, je prévois de m’amuser beaucoup ce week-end. »

Une réflexion personnelle sur l’évolution de Midjourney

Je réfléchis beaucoup à Midjourney depuis la sortie du nouveau générateur d’images d’OpenAI. D’un côté, le style, l’esthétique et la qualité de Midjourney continuent d’être, pour moi, supérieurs aux autres modèles de génération d’images disponibles. Quand j’ai un projet créatif ou artistique profond, c’est toujours mon premier choix.

Cependant, même avant ImageGen, je m’étais retrouvé à utiliser presque exclusivement Ideogram pour mes usages quotidiens. Une grande partie de cette transition était due au fait qu’Ideogram respectait mieux le texte, me permettant de créer des images de couverture pour des podcasts et des vidéos YouTube, ce qui est un cas d’utilisation primordial pour moi. Mais c’était aussi parce qu’il respectait beaucoup mieux mes prompts.

J’ai toujours eu l’impression de me battre avec Midjourney, comme s’il pensait mieux savoir que moi comment créer quelque chose de cool. Quand j’étais prêt à laisser l’IA faire son truc, c’était encore génial pour ça.

Mais c’est de plus en plus difficile maintenant avec la sortie d’ImageGen, car non seulement ces autres outils respectent mieux les prompts, mais vous avez aussi la possibilité d’éditer directement, où vous pouvez simplement parler et l’IA fait réellement les changements que vous souhaitez. C’est tellement transformateur et si différent pour tant de cas d’utilisation différents, cela réduit de plus en plus la gamme de choses pour lesquelles je veux utiliser Midjourney.

J’ai généré des dizaines de milliers d’images sur Midjourney, je l’adore absolument, et je suis une personne qui n’a aucun problème à dépenser de l’argent pour plusieurs abonnements différents. Mais même moi, je me demande à quel moment je vais mettre Midjourney en pause parce que je ne l’utilise tout simplement plus assez.

Midjourney : Une étude de cas entrepreneuriale fascinante

Midjourney est également intéressant comme étude de cas. L’entreprise est autofinancée et très rentable, donc il n’est pas certain qu’ils aient besoin de faire autre chose que de maintenir un modèle utile.

En décembre, David Holtz écrivait : « Selon les standards du capital-risque, nous devrions soit conquérir le monde, soit mourir dans un incendie, et aucune de ces options ne m’attire spirituellement. Je n’ai jamais voulu une entreprise, je voulais juste un foyer. À ce stade, nous avons une grande communauté fidèle et payante, nous construisons des tonnes de fonctionnalités pour eux et ils sont plutôt heureux. Nous avons assez de revenus pour financer des tonnes de R&D fou et nos modèles sont toujours les meilleurs selon les métriques qui nous importent, c’est-à-dire l’apparence des images et le plaisir de créer. Nous avons un énorme arriéré de choses passionnantes pour rendre nos modèles bien meilleurs. Zéro risque. Nous avons fait tout cela sans investisseurs. Honnêtement, j’ai l’impression que nous avons réussi. »

« La prochaine métrique de succès à laquelle je pense le plus est un grand laboratoire de R&D bien financé avec des gens cool libres de travailler sur ce qu’ils veulent. Pouvons-nous maintenant construire quelque chose qui rendrait le petit David fier ? Pouvons-nous maintenant raconter des histoires audacieuses sur un avenir humain dont les gens veulent faire partie ? Je pense que nous le pouvons, et je pense que c’est génial que nous ayons une entreprise qui repousse vraiment les limites en le faisant de cette manière. »

En même temps, je serai intéressé de voir à quel point cette grande communauté fidèle et payante est durable alors que tout change autour d’eux.

Microsoft entre dans la course aux agents IA

Lors d’un événement célébrant leur 50e anniversaire, Microsoft a déployé des fonctionnalités d’agents : Copilot est maintenant capable de gérer l’utilisation d’Internet avec des fonctionnalités agentiques, permettant au modèle de réserver des billets, des restaurants et plus encore.

La fonctionnalité est configurée pour fonctionner en arrière-plan afin que vous puissiez continuer à travailler sur d’autres tâches tout en ayant un agent qui effectue des courses numériques. L’assistant agentique dispose désormais également d’une mémoire, de sorte qu’il peut se souvenir des préférences de l’utilisateur entre les sessions.

Microsoft a également introduit une fonctionnalité de génération de podcasts similaire aux aperçus audio de Google, et Copilot dispose enfin également d’une fonctionnalité de recherche approfondie.

Bien sûr, aucune de ces fonctionnalités ne repousse les limites ; elles représentent essentiellement Microsoft qui se maintient au niveau de ses rivaux en IA. Cela dit, comme nous le voyons avec les difficultés d’Apple et d’Amazon, être capable d’offrir une IA agentique fonctionnelle serait toujours bien meilleur que ce que font certaines autres grandes entreprises technologiques.

De plus, le PDG de Microsoft AI, Mustafa Suleyman, voit clairement l’importance des agents, commentant : « Je pense que cela changera complètement la façon dont nous utilisons les ordinateurs pour toujours. »

Microsoft revisite Quake 2 avec l’IA générative

En parlant de Microsoft, l’entreprise revient dans le jeu avec une version générée par IA de Quake 2. Ils ont publié une démo technique du jeu de tir classique des années 90 alimenté par leur modèle de jeu génératif Muse.

La démo est très basique, avec des ennemis flous, une basse résolution et ne reproduit qu’un seul niveau, mais c’est tout de même un jeu jouable généré image par image en utilisant l’IA.

En février, lorsque Muse a été dévoilé pour la première fois, le PDG de Microsoft Gaming, Phil Spencer, a déclaré : « Vous pourriez imaginer un monde où, à partir de données de gameplay et de vidéos, un modèle pourrait apprendre d’anciens jeux et les rendre portables sur n’importe quelle plateforme où ces modèles pourraient fonctionner. Nous avons parlé de la préservation des jeux comme d’une activité pour nous, et ces modèles et leur capacité à apprendre complètement comment un jeu fonctionne sans la nécessité que le moteur d’origine tourne sur le matériel d’origine ouvrent énormément d’opportunités. »

Beaucoup ont affirmé que ce n’était pas techniquement possible à l’époque, mais la démo de Quake semble être une preuve de concept viable, bien que limitée.

Les chercheurs ont écrit dans un billet de blog : « À notre grand plaisir initial, nous avons pu jouer à l’intérieur du monde que le modèle simulait. Nous pouvions nous promener, déplacer la caméra, sauter, nous accroupir, tirer et même faire exploser des barils, comme dans le jeu original. De plus, puisque cela figure dans nos données, nous pouvons également découvrir certains des secrets cachés dans ce niveau de Quake 2. »

En même temps, ils ont pris soin de ne pas survendre la technologie. Ils ont écrit qu’ils n’avaient pas l’intention de reproduire complètement le jeu original et que la démo devrait être considérée comme « jouer avec le modèle plutôt que jouer au jeu ».

Derek Stricklin a écrit : « J’essaie le truc de Quake et la GenAI est tellement bizarre. C’est comme jouer dans un rêve où vous vous retournez et les choses sont différentes, des couloirs sans fin, etc. Je sais que c’est expérimental, mais c’est quand même bizarre. »

Et en effet, alors que la plupart des conversations autour de cela portent sur son utilité pour la préservation des jeux, je pense que c’est beaucoup plus intéressant comme premier exemple de ce que ce sera de générer des jeux à la volée.

Une grande partie de ma thèse sur l’évolution du monde est qu’il y aura de plus en plus d’expériences personnalisées, et une partie de cela sera, je pense, la génération en direct de ces expériences basées sur l’utilisateur qui les vit. C’est un très petit pas dans cette direction, mais un pas néanmoins.

Cela conclut notre analyse détaillée des dernières avancées en matière d’IA générative d’images et de jeux. Restez à l’affût pour plus d’actualités sur ces technologies qui évoluent rapidement et transforment notre façon d’interagir avec le contenu numérique.

Midjourney v7 face à ChatGPT ImageGen : Quelle est la meilleure IA de génération d’images ?