L’Art IA devient SURRÉEL : Comment GPT-4o Révolutionne la Génération d’Images Style Ghibli
Les serveurs d’OpenAI surchauffent face à la nouvelle fonctionnalité virale
Les serveurs d’OpenAI sont en surchauffe ! Cette situation est due en partie à la dernière addition à leur modèle GPT-4o. Le modèle 4o est multimodal, ce qui signifie qu’il est entraîné non seulement sur du texte, mais aussi sur des visuels, du son, de la parole, etc. Le « O » signifie « Omni », comme dans « tout », tel un modèle unique pour tout gouverner. Et la dernière fonctionnalité permet de transformer n’importe quelle image en style Studio Ghibli.
En réalité, ce n’est pas tout ce qu’il permet de faire. Vous pouvez faire n’importe quoi avec ce modèle, vraiment n’importe quoi. Mais pour une raison que je comprends sans pouvoir l’expliquer précisément, tout le monde crée des images style Ghibli : d’eux-mêmes, de leurs animaux de compagnie, de membres de leur famille, ou de tout événement ayant été photographié. Au passage, je dirais que « Jibli » est également une prononciation acceptable, mais nous y reviendrons peut-être plus tard.
Restrictions temporaires pour les utilisateurs gratuits
La demande pour cette nouvelle fonctionnalité a été si forte qu’OpenAI ne l’a pas encore déployée pour les utilisateurs gratuits. Vous devez disposer d’un abonnement payant pour y participer. La demande a été tellement écrasante qu’ils retardent le déploiement pour les utilisateurs gratuits, qui devront patienter encore un peu.
CNBC a publié un article intitulé « La génération d’images virale de ChatGPT fait fondre les GPU d’OpenAI » et c’est vrai. Sam Altman a publié un message disant : « C’est super amusant de voir les gens adorer les images dans ChatGPT, mais nos GPU sont en train de fondre ». Il a annoncé l’introduction temporaire de limites de taux d’utilisation pendant qu’ils travaillent à rendre la fonctionnalité plus efficiente, en espérant que cela ne dure pas longtemps. Les utilisateurs gratuits de ChatGPT recevront bientôt trois générations d’images par jour.
La controverse du droit d’auteur : Studio Ghibli contre-attaque ?
Malheureusement, cette tendance n’est pas sans conséquences. Un utilisateur de Twitter a déclaré : « J’ai reçu cette mise en demeure de Studio Ghibli. Les créateurs d’IA méritent protection, pas punition. L’expression est sacrée, l’imagination n’est pas illégale. Si je dois être un martyr pour le prouver, qu’il en soit ainsi. Je rassemble une équipe juridique de cabinets qui croient en ce combat, contactez-moi. »
La lettre semblait provenir de Studio Ghibli, le studio derrière des chefs-d’œuvre comme « Le Voyage de Chihiro », « Mon Voisin Totoro », « Kiki la Petite Sorcière » et bien d’autres films d’animation respectés.
Beaucoup d’internautes l’ont attaqué, affirmant qu’il méritait cette mise en demeure pour avoir volé de l’art et cherché à profiter du travail d’autrui. Certains ont même fait remarquer que « leur lettre est bien mieux conçue que votre application ».
Mais voici le rebondissement : à y regarder de plus près, cette lettre n’était pas authentique. Ce n’était pas une vraie entreprise, pas un vrai numéro de téléphone, pas une vraie URL ou email. Rien de tout cela n’était réel. La lettre a probablement été générée par ChatGPT ou simplement rédigée par l’utilisateur lui-même. Un troll hilarant et exceptionnel, très bien exécuté.
Des capacités impressionnantes qui vont au-delà du style Ghibli
Tout le monde est très impressionné par cette nouvelle génération d’images dans ChatGPT. Le fondateur de Shopify a testé sa capacité à recréer le concept de la série « Severance » montrant quelqu’un travaillant sur un ordinateur à l’intérieur de sa propre tête, et le résultat était plutôt réussi.
J’ai demandé au modèle de créer une page Wikipédia sur la récursion avec une capture d’écran de cette page Wikipédia comme image principale. Le résultat crée cet effet infini fascinant. En examinant de près, la première itération de la page semble parfaite, sans fautes d’orthographe évidentes. Mais en zoomant sur la deuxième itération, les choses commencent à devenir un peu plus confuses. On peut encore lire « informatique », « recherche », « Wikipédia », « récursion », mais plus on s’enfonce dans les couches, plus le texte se dégrade et devient flou.
Des applications créatives multiples
Voici quelques exemples impressionnants de ce que les utilisateurs ont réalisé :
- Recréation d’images existantes en style anime
- Génération de mèmes humoristiques (Carlos Perez a partagé un excellent mème sur GPT-4o)
- Création d’un tableau blanc avec l’hypothèse de Riemann résolue (enfin !)
- Ajout de personnes manquantes sur des images officielles comme celle du Prix Nobel de physique 2024
- Transformation de scènes du « Seigneur des Anneaux » en style Ghibli
Le modèle capture remarquablement bien les styles artistiques. Dans certains cas, on pourrait même dire qu’il améliore les illustrations originales en rendant les traits plus fidèles à la réalité.
Capacités techniques avancées
Ce qui est particulièrement impressionnant, c’est que le modèle peut :
- Créer des cartes de profondeur (depth maps) à partir d’images 2D
- Générer des ensembles cohérents de sprites multi-images pour l’animation
- Produire des éléments d’interface utilisateur fonctionnels
- Transformer des personnages animés en versions réalistes (bien que Totoro en vrai serait terrifiant, et le chat-bus encore pire !)
La capacité à créer des cartes de profondeur est particulièrement fascinante. Si vous avez suivi la vidéo sur ce papier de recherche appelé « Beyond Surface Statistics », c’est l’un des aspects les plus étonnants de l’IA. Dans cette expérience, les chercheurs ont alimenté un modèle de génération d’images avec des tonnes d’images 2D sans aucune donnée de profondeur, juste des pixels sur un écran associés à des mots comme « voiture », « voiture rouge », « voiture bleue », etc.
Ce qu’ils ont découvert, c’est qu’au fil du temps, le modèle a développé une compréhension implicite de la profondeur et des objets principaux dans les images. Pour créer des images cohérentes, le modèle a dû développer une sorte de représentation mentale de l’espace 3D, de la lumière et des ombres. OpenAI n’a probablement pas explicitement enseigné à GPT-4o comment créer des cartes de profondeur – il l’a simplement appris implicitement, ce qui est fascinant.
La transformation des vidéos et des applications pratiques
Un autre aspect intéressant est l’utilisation des plateformes d’IA vidéo pour transformer ces images en vidéos. Par exemple, quelqu’un a créé une animation pour podcast en style Ghibli qui serait très agréable à regarder.
Voici d’autres applications pratiques :
- Création d’ensembles d’autocollants personnalisés pour iMessage
- Génération d’assets pour jeux vidéo (les sprites cohérents multi-images peuvent être directement intégrés dans un moteur de jeu)
- Conception d’éléments d’interface utilisateur pour applications et sites web
Controverses et préoccupations éthiques
Bien sûr, tout le monde n’est pas heureux de cette tendance. Beaucoup de personnes, notamment dans la communauté artistique, sont mécontentes. Je ne cherche pas à changer l’opinion de quiconque – je comprends que les gens puissent avoir des sentiments négatifs envers l’art généré par IA.
Ma position a toujours été que nous devons, en tant que société, déterminer où nous nous situons par rapport à cela : comment traitons-nous le texte IA par rapport au texte écrit par des humains ? Comment considérons-nous la musique IA par rapport à la musique humaine ? Etc.
Le seul point sur lequel je suis en désaccord concerne l’idée que nous violons le droit d’auteur en entraînant des modèles sur des textes ou images existants. Lire quelque chose n’a jamais été une violation du droit d’auteur. Prendre un livre et le scanner, faire une photocopie, ce n’est pas une violation du droit d’auteur – c’est essayer de le vendre qui constitue une violation.
Si vous avez un site web, d’innombrables robots le parcourent et « lisent » tout le texte, qu’il s’agisse des robots de Google, Bing ou autres. Personne n’est poursuivi pour violation de droit d’auteur. Nous avons déterminé que les machines peuvent parcourir des données sans que cela constitue une violation. La violation survient lorsque nous reproduisons du contenu, soit pour un gain commercial, soit d’une manière qui empiète sur les droits du détenteur original.
Je suis certain que certaines données sur lesquelles ce modèle a été entraîné incluaient l’art de Studio Ghibli. Personnellement, je ne considère pas cela comme une violation du droit d’auteur. Mais maintenant que des millions de personnes reproduisent cet art à l’aide de simples prompts, c’est là que réside la discussion : qu’est-ce qui est acceptable et qu’est-ce qui ne l’est pas ?
Quel que soit votre point de vue sur la question, je pense que la plupart des gens conviendront que nos lois actuelles sur le droit d’auteur sont peut-être un peu dépassées.
Position du Japon et débat international
Fait intéressant, le Japon a explicitement déclaré qu’il est permis d’entraîner des modèles sur n’importe quelles données sans que cela soit considéré comme une violation du droit d’auteur. Actuellement, OpenAI tient un discours similaire au gouvernement américain, affirmant que pour rester compétitifs, ils doivent pouvoir s’entraîner sur toutes les données publiquement disponibles.
Je doute que nous voyions une résistance à cette idée, mais c’est vraiment au niveau des sorties du modèle que la discussion devient pertinente. Si un modèle reproduisait directement le livre ou le matériel protégé par droit d’auteur de quelqu’un d’autre, c’est là que nous avons besoin de lois plus claires.
Comme l’a demandé Satya Nadella, PDG de Microsoft : « Si j’ai utilisé ChatGPT pour créer quelque chose comme ça, qui détient les droits d’auteur ? Moi ? OpenAI ? Microsoft ? Studio Ghibli ? » Il serait difficile de déterminer exactement ce qui constitue leur droit d’auteur dans ce cas.
L’opinion de Hayao Miyazaki
Hayao Miyazaki, le fondateur de Studio Ghibli, avait une opinion sur l’art créé par machine. En 2016, avant l’existence des modèles d’art génératif et des Transformers, il a déclaré en voyant une démonstration d’IA : « Je ressens un mépris profond pour cela. C’est une insulte à la vie elle-même. » On peut se sentir mal pour lui, bien qu’il serait ironique qu’il travaille maintenant pour une entreprise d’IA essayant de créer la meilleure machine de génération d’images.
Notons que « Ghibli » était à l’origine un avion italien, surnommé d’après un vent du désert libyen. Le fondateur des studios Ghibli a nommé son entreprise en référence à cet avion, avec une prononciation à « J » doux, donc « Jibli ». D’ailleurs, l’un des créateurs de l’avion est présent dans certains films du studio. Je dirais donc que les deux prononciations, « Jibli » ou « Ghibli », sont correctes.
Un coup de chance pour OpenAI ?
Malgré les controverses, certains considèrent que cette tendance est une chance pour OpenAI. Comme l’a fait remarquer Grant Slatton : « Honnêtement, OpenAI a une chance incroyable que les ‘Vibes Positives de Ghibli’ soient la première utilisation virale de leur modèle, et non pas un deepfake horrible. »
Il est important de comprendre que ce modèle est un peu plus « débridé ». OpenAI adopte une nouvelle approche concernant les garde-fous et la sécurité de l’IA. Une chercheuse d’OpenAI a publié un billet de blog expliquant leur nouvelle approche, qui ne consiste plus à imposer des refus généralisés à certaines requêtes. Des utilisateurs ont généré du contenu que je ne peux même pas montrer sur cette chaîne, et lors du livestream d’OpenAI, ils ont mentionné que ce modèle pourrait produire des choses qui auraient été refusées auparavant.
Ce modèle peut certainement créer beaucoup de deepfakes et de contenus potentiellement problématiques, qu’ils soient inappropriés, trompeurs ou susceptibles d’induire les gens en erreur. Mais comme je l’ai souligné, le fait que la tendance dominante soit ces images style Ghibli – qui dégagent des vibrations très positives – atténue en quelque sorte tous les aspects négatifs potentiels. Même lorsque les gens transforment des scènes horribles en style Ghibli, elles semblent moins graves, comme si ce style adoucissait tout.
L’expérience personnelle : quand l’IA ne vous reconnaît pas
À ce stade, presque tous les acteurs du domaine de l’IA ont transformé leur image en style Ghibli. Tout le monde a l’air bien… sauf moi ! Je n’ai pas réussi à générer quoi que ce soit qui me ressemble vraiment. Je ne ressemble à aucune des images générées, et pourquoi ai-je l’air en colère alors que je ne l’étais pas sur la photo originale ?
L’une des versions est assez cool, transformant ma photo de profil avec une attention aux détails comme ma chaîne en or. Ça aurait pu être pire – j’aurais pu ressembler à Totoro !
Conclusion et questions ouvertes
Que pensez-vous de cette dernière tendance ? L’appréciez-vous ? Avez-vous transformé votre image en style Ghibli ? Êtes-vous globalement impressionné par les nouvelles capacités de génération d’images ?
Si vous n’êtes pas d’accord avec la façon dont ces outils d’IA peuvent générer des images dans le style de quelqu’un d’autre en faisant spécifiquement référence au style de cette personne, où pensez-vous que se situe le problème ? Est-ce les personnes qui les utilisent ? Est-ce le fait que l’outil d’IA puisse réellement produire ces résultats ? Ou regardez-vous plus profondément, de manière plus fondamentale, en affirmant que ces modèles ne devraient pas pouvoir s’entraîner sur des œuvres protégées par le droit d’auteur ?
Merci beaucoup d’avoir lu cet article. Je suis Wes, et je vous retrouve la prochaine fois pour de nouvelles aventures dans le monde fascinant de l’intelligence artificielle.

