Runway Gen-4 : La Nouvelle Génération d’IA Vidéo qui Révolutionne la Cohérence Visuelle
Runway vient de dévoiler son tout dernier modèle de génération vidéo par intelligence artificielle, et cette nouvelle version apporte des améliorations significatives, notamment une cohérence visuelle globale sans précédent. Après une semaine consacrée à la discussion des avancées en génération d’images, nous revenons aujourd’hui sur le versant vidéo de l’IA avec l’annonce du nouveau modèle Gen-4 de Runway.
Une cohérence mondiale révolutionnaire
L’entreprise affirme avoir créé l’un des modèles de génération vidéo les plus fidèles à ce jour, capable d’une incroyable cohérence dans la représentation des personnages, des lieux et des objets à travers différentes scènes. Runway appelle cette prouesse la « cohérence mondiale » (World consistency).
Dans un billet de blog, l’équipe de Runway explique : « Gen-4 peut utiliser des références visuelles combinées avec des instructions pour créer de nouvelles images et vidéos en maintenant des styles, sujets, lieux et plus encore de manière cohérente, sans nécessiter de fine-tuning ou d’entraînement supplémentaire. »
Si cette promesse se confirme, elle change complètement la dynamique de ce qu’un cinéaste peut accomplir avec Runway. Et par « cinéaste », j’entends ici la nouvelle définition du terme à l’ère de l’IA, qui ne désigne plus seulement les réalisateurs de films, mais quiconque souhaite utiliser le film ou la vidéo comme médium créatif.
Des exemples spectaculaires de cohérence des personnages
Les exemples de cohérence des personnages présentés par Runway sont tout simplement spectaculaires. Même en tant que personne qui observe quotidiennement les avancées de l’IA, je ne suis pas certain que j’aurais identifié ces contenus comme générés par IA si on me les avait présentés dans un contexte différent.
L’autre aspect révolutionnaire de cette cohérence des personnages est qu’elle permet une plus grande dynamique dans l’obtention de différents angles de prise de vue, offrant aux créateurs une expression artistique beaucoup plus riche.
Une compréhension linguistique améliorée
Une partie de l’amélioration des capacités provient du fait que ce nouveau modèle Gen-4 comprend apparemment beaucoup mieux le langage, ce qui le rend plus facile à utiliser.
Des progrès significatifs en physique réaliste
Enfin, l’entreprise affirme avoir fait des avancées considérables dans ce qui constitue bien sûr le talon d’Achille de la vidéo générée par IA : la physique du monde réel. Ils utilisent le feu, le vent, l’eau, les ombres et la lumière pour démontrer les progrès réalisés dans ce domaine.
Un modèle impressionnant face à la concurrence
Dans l’ensemble, le modèle semble incroyable. La grande question qui demeure est de savoir si les générateurs de médias autonomes survivront à la prochaine génération d’améliorations des LLM. OpenAI et Google poussent l’architecture multimodale native pour ajouter des fonctionnalités comme la génération d’images à leurs modèles standards, et on peut penser que la même chose est en préparation pour les modèles vidéo.
Pourtant, comme le dit le vieil adage, « un modèle disponible aujourd’hui vaut mieux que deux en développement », et de nombreuses personnes sont impatientes de se plonger dans Gen-4 dès maintenant. Runway chercherait également à lever 50 millions de dollars avec une valorisation de 4 milliards de dollars, ce qui montre que la question de la concurrence a d’importantes implications financières.
Mansai : L’agent IA viral chinois lance un abonnement premium
Par ailleurs, l’agent IA viral chinois Mansai a lancé un plan d’abonnement relativement coûteux. Cet outil est devenu viral le mois dernier en proposant un assistant agentique à la pointe de la technologie, capable d’exécuter des tâches de manière cohérente. La principale contrainte à sa viralité était le système d’invitation mis en place par Mansai, très probablement parce qu’ils avaient atteint la limite de leurs ressources de calcul.
La nouvelle version commerciale comprend deux niveaux :
– Un à 39 $ par mois
– Un à 199 $ par mois, avec cinq fois plus de crédits et la possibilité d’exécuter cinq tâches simultanément
L’accès gratuit reste disponible, mais avec une priorité d’accès aux ressources plus faible pendant les périodes de forte utilisation, ce qui pourrait honnêtement être le cas en permanence à ce stade. Mansai est également désormais disponible sous forme d’application iOS.
Mansai AI est toujours en version bêta, et la question demeure de savoir s’il est à la hauteur de l’engouement initial, mais il est indéniable qu’il a capté beaucoup d’attention. Cette disponibilité élargie devrait permettre à davantage de personnes de l’utiliser, à la fois pour évaluer sa qualité réelle et pour contribuer à son amélioration.
Alexa Plus : Un lancement incomplet à la manière d’Apple
Enfin, Alexa Plus est enfin là, et Amazon adopte la stratégie de lancement d’Apple, ce qui signifie qu’ils ont livré le produit sans toutes les fonctionnalités annoncées.
Amazon a présenté Alexa Plus lors d’un événement spécial fin février. Ils ont montré des vidéos d’Alexa commandant des plats à emporter sur GrubHub, générant des histoires pour divertir les enfants, identifiant visuellement des personnes et leur rappelant de faire des tâches, ou encore proposant des idées de cadeaux.
Si vous deviez deviner combien de ces fonctionnalités sont disponibles dès le lancement, que diriez-vous ? Je vous laisse une minute pour réfléchir… C’est exact, pour ceux qui ont répondu zéro, vous avez raison ! Amazon a déclaré que ces fonctionnalités « agentiques » ne répondent pas encore aux normes d’Amazon pour une diffusion publique.
Alors, que peut faire Alexa Plus actuellement ? Elle peut commander un Uber, identifier des objets, rédiger des e-mails et rechercher des produits particuliers sur Amazon. Un porte-parole d’Amazon a déclaré : « Nous lançons un ensemble de fonctionnalités pour commencer, et nous continuerons à déployer de nouvelles fonctionnalités par vagues. »
Basiquement, les nouvelles versions d’Alexa et Siri alimentées par l’IA se retrouvent en bonne compagnie, sous-performant complètement par rapport à ce qui semblait être des promesses évidentes.
Voilà qui conclut notre édition quotidienne des actualités IA. À suivre, l’épisode principal.