La « Vague de Nouvelles Technologies IA Incroyables » Prévue pour le Mois Prochain
Une explosion d’innovations en IA à l’horizon
Une vague de nouvelles technologies d’IA incroyables semble être à l’horizon, et nous commençons déjà à en voir certaines dès aujourd’hui. Comme l’a écrit Dalton Caldwell, associé gérant de Y Combinator : « Une vague de nouveautés folles liées à l’IA arrive le mois prochain. Parier sur l’intelligence croissante des modèles me rappelle le pari des années 1990 sur la croissance continue de la bande passante réseau ». C’était un bon pari à l’époque, et cela semble être le thème principal de l’actualité IA aujourd’hui.
Anthropic prépare de nouvelles versions de Claude
L’un des laboratoires dont les prochaines sorties sont attendues avec impatience est Anthropic. Heureusement pour nous, The Information rapporte que de nouvelles versions de Claude Sonnet et Claude Opus arriveront dans les prochaines semaines.
Citant des testeurs de modèles, ils ont écrit : « Ce qui distingue ces modèles des IA de raisonnement existantes est leur capacité à alterner entre la réflexion ou l’exploration de différentes façons de résoudre un problème et l’utilisation d’outils, c’est-à-dire la capacité à utiliser des outils externes, des applications et des bases de données pour trouver une réponse. »
The Information a donné des exemples de développement commercial où les modèles peuvent alterner entre la recherche web et le raisonnement sur les données pour formuler une suggestion. Côté programmation, les modèles peuvent tester automatiquement leur propre code puis raisonner sur les corrections de bugs.
L’une des implications est que ces modèles pourraient fonctionner avec des instructions de plus haut niveau, réduisant davantage le besoin d’une ingénierie de prompt exacte. Par exemple, « les nouveaux modèles d’Anthropic sont censés gérer des tâches plus complexes avec moins d’interventions et de corrections de la part de leurs utilisateurs humains ». L’exemple donné est qu’en ingénierie logicielle, vous pourriez simplement dire « rends cette application plus rapide » et laisser le modèle déterminer comment procéder.
Il reste à voir jusqu’à quel point ces modèles seront différents des modèles O3 ou O4 Mini d’OpenAI, qui intègrent déjà l’utilisation d’outils dans le processus de raisonnement. Et comme nous le verrons, ce ne sont pas les seuls modèles qu’OpenAI propose maintenant dans cette veine.
L’adoption de ces nouveaux modèles n’est pas non plus garantie. Comme le souligne The Information, les réactions à Claude 3.7 Sonnet, un modèle Anthropic précédemment publié qui combinait raisonnement et grands modèles de programmation traditionnels, ont été mitigées. Certains utilisateurs se sont plaints que le modèle est plus susceptible de mentir et d’ignorer les commandes des utilisateurs. D’autres ont indiqué que lorsqu’ils ne donnent pas d’instructions suffisamment spécifiques, le modèle est plus susceptible que d’autres IA de devenir trop ambitieux et de sortir du cadre de ce qu’il est censé faire.
Tony Andis de ScoutAI a noté que Claude 3.5 Sonnet a été lancé il y a environ un an et, malgré l’arrivée ultérieure de 3.5 Haiku et 3.7 Sonnet, reste le modèle recommandé pour la moitié des tâches de Cursor.
Windsurf lance sa propre famille de modèles de codage
En matière de codage, les modèles d’Anthropic semblent avoir de la concurrence. La startup d’assistance au codage Windsurf a annoncé le lancement de sa première famille de modèles propriétaires. Cette famille sera connue sous le nom de SWE1 (ou SUI1) et comprend un modèle complet ainsi que des versions légères et mini.
La société a déclaré que les modèles seront optimisés pour l’ensemble du processus d’ingénierie logicielle, pas seulement pour le codage. Ils affirment que le modèle phare SWE1 aura « approximativement les niveaux de raisonnement et d’appel d’outils de Claude 3.5 Sonnet tout en étant moins coûteux à utiliser ». Windsurf offrira le modèle gratuitement pendant une période promotionnelle. La version plus petite « Light » sera livrée avec une utilisation illimitée à tous les utilisateurs, y compris les clients du niveau gratuit.
L’offre semble clairement viser à concurrencer le duo dominant Cursor et Claude 3.5 Sonnet. Les principales plaintes des utilisateurs concernant l’utilisation des modèles d’Anthropic par Cursor portent sur les coûts et les limites de taux d’utilisation. Windsurf voit clairement une opportunité de fournir une expérience comparable à celle de Claude 3.5 Sonnet à une fraction du coût et potentiellement gagner des parts de marché grâce à cela.
Un autre aspect important de cette annonce est l’idée d’étendre l’assistance au codage au-delà de la simple production de lignes de code. Windsurf tente de proposer un modèle plus capable d’exploiter des bases de connaissances, de tester du code et de comprendre les retours des utilisateurs.
Ils ont également noté que les assistants de codage ont été excellents pour le travail tactique de proximité, mais ont généralement du mal à considérer l’ensemble des problèmes d’ingénierie logicielle. C’est particulièrement vrai lorsqu’il s’agit de basculer entre terminaux, IDE et ressources Internet.
Ils écrivent : « À un moment donné, simplement s’améliorer en codage ne vous rendra pas ou ne rendra pas un modèle meilleur en ingénierie logicielle, et nous voulons finalement aider à accélérer tout ce qu’un ingénieur logiciel peut faire. Nous avons donc su depuis un certain temps que nous aurions besoin de modèles d’ingénierie logicielle, des modèles SUI pour faire court. »
Sur plusieurs critères de référence, Windsurf affirme que SUI1 se situe dans la même catégorie que Claude 3.5 Sonnet, mais n’est pas tout à fait aussi puissant que Claude 3.7. Ils ont également testé le nouveau modèle sur une utilisation réelle en menant une expérience en aveugle auprès des utilisateurs et ont constaté que SUI1 avait significativement plus de lignes de code acceptées par l’utilisateur que Claude 3.5, mais pas autant que Claude 3.7.
Cette sortie est également intéressante dans le contexte de l’acquisition rapportée de la société par OpenAI. Beaucoup supposaient qu’OpenAI voulait simplement présenter ses propres modèles sur la plateforme de Windsurf, mais ces nouveaux modèles impliquent que Windsurf est plus qu’une simple interface pour les dernières innovations d’OpenAI.
OpenAI lance Codeex, son outil de codage autonome
Cela devient d’autant plus intéressant qu’OpenAI a annoncé aujourd’hui le lancement de son propre outil de codage appelé Codeex. Voici comment Dan Shipper de Every l’a résumé :
« OpenAI vient de lancer Codeex, un tout nouvel agent de codage autonome qui peut construire des fonctionnalités et corriger des bugs par lui-même. Nous l’utilisons chez Every depuis quelques jours, et je suis impressionné. »
Codeex est conçu pour être utilisé par des ingénieurs seniors. Il effectue des tâches de codage comme l’ajout de fonctionnalités ou la correction de bugs de manière autonome. Il est conçu pour permettre de démarrer plusieurs sessions à la fois afin d’avoir plusieurs agents travaillant en parallèle.
Codeex est construit pour avoir du goût. OpenAI a formé Codeex pour qu’il ait le goût d’un ingénieur logiciel senior. Il sait comment fonctionnent les grandes bases de code, comment écrire une bonne PR et utilise un code propre et minimal.
Codeex est conçu pour permettre aux utilisateurs de déléguer de nombreuses tâches à la fois sans s’empêtrer dans les détails. Cela vous permet de diriger une multitude d’agents vers une tâche spécifique comme un bug difficile, ce qui en vaut la peine même si un seul d’entre eux réussit.
Enfin, Dan et Every suggèrent que la vision d’OpenAI pour l’avenir de la programmation est que, dans le futur, les développeurs passeront probablement moins de temps à écrire du code de routine et plus de temps à guider des agents, à examiner leur travail et à prendre des décisions stratégiques. La programmation deviendra plus sociale, permettant aux équipes de déléguer facilement plusieurs tâches à la fois, permettant aux gens de se concentrer sur les idées et la collaboration plutôt que sur le codage de routine.
Cet outil vient d’être lancé il y a quelques heures, je n’ai donc pas encore eu l’occasion de l’essayer, mais cela suggère certainement à quel point cette catégorie est essentielle et constitue une preuve supplémentaire du point qui a commencé ce billet : il y a beaucoup de choses en préparation en ce moment.
GPT-4.1 arrive sur ChatGPT
Une autre petite mise à jour d’OpenAI : l’entreprise a intégré GPT-4.1 à ChatGPT et en a même fait le nouveau modèle par défaut. GPT-4.1 a été lancé le mois dernier et commercialisé comme un modèle axé sur le codage qui pourrait ne pas présenter beaucoup d’intérêt pour d’autres cas d’utilisation. C’était la première version d’OpenAI qui n’était disponible que via l’API, suggérant que l’entreprise était assez confiante qu’elle ne serait utilisée ou utile que par les développeurs.
Cependant, plus tôt cette semaine, OpenAI a annoncé que, suite à de nombreuses demandes, GPT-4.1 sera disponible directement dans ChatGPT. Le directeur des produits Kevin Weil a ajouté : « Nous l’avons construit pour les développeurs, il est donc très bon en codage et en suivi d’instructions. »
Les premières réactions sont positives. Melvin Vivas écrit : « GPT-4.1, énorme différence dès le début d’une conversation. 4.0 donne l’impression de parler à un robot. 4.1 donne l’impression de parler à un humain. Le suivi des instructions est également très bon. »
VRA X a également écrit : « 4.1 est beaucoup plus drôle que 4.0. Si vous êtes dans l’écriture créative, je préfère 4.1. »
Meta retarde Llama 4 Behemoth
Cependant, toutes les entreprises ne lancent pas de nouveaux modèles. Le Wall Street Journal rapporte que le modèle phare Llama 4 de Meta est retardé après n’avoir pas répondu aux attentes. Des sources ont déclaré au journal que les ingénieurs n’ont pas réussi à améliorer les capacités de Llama 4 Behemoth, ce qui a conduit le personnel à se demander s’il s’agit d’une mise à niveau suffisamment significative pour justifier une publication publique.
Behemoth est bien sûr le modèle ultra-large de la famille Llama 4. Il utilise une architecture de mélange d’experts qui engage un sous-ensemble de paramètres pour chaque requête. Similaire à Deepseek V3 et Grok 3, il compte 288 milliards de paramètres actifs répartis sur 16 experts pour un total de deux billions de paramètres, similaire à la taille de Grok 3, mais bien plus grand que tout autre modèle open-source actuellement disponible.
Et pourtant, il semble que toute cette taille n’ait pas vraiment donné de résultats. Le Journal rapporte que Behemoth devait initialement être publié en avril aux côtés des deux modèles plus petits de la famille Llama 4. Les objectifs internes ont ensuite été repoussés à juin et sont maintenant retardés jusqu’à l’automne, voire plus tard.
Le mois dernier, lors du premier Llama Con, Mark Zuckerberg a déclaré que Behemoth serait « le modèle de base le plus performant au monde », ils ne peuvent donc pas se permettre de publier un modèle qui ne répond pas à cette promesse.
Le rapport a également mis en évidence les tensions croissantes chez Meta concernant le déploiement de Llama 4. Le journal a écrit : « Les cadres supérieurs de l’entreprise sont frustrés par les performances de l’équipe qui a construit les modèles Llama 4 et les blâment pour l’absence de progrès sur Behemoth. Meta envisage des changements significatifs dans la gestion de son groupe de produits IA en conséquence. »
Il y a déjà eu beaucoup de changements dans la structure de leadership de l’IA de Meta au cours de la dernière année, mais les enjeux sont évidemment très, très élevés pour Zuckerberg et pour Meta dans son ensemble.
Cohere réussit son pivot vers la couche applicative
En descendant un peu dans la pile des entreprises de modèles de fondation, Cohere semble réussir son pivot vers la couche applicative. Mais pour certains, leur forte performance représente toujours une déchéance.
En 2023, Cohere était vraiment dans la course pour concurrencer en tant qu’entreprise de modèles de fondation aux côtés d’Anthropic, OpenAI et Mistral. Cependant, à mesure que les sessions d’entraînement devenaient plus importantes et plus coûteuses, ils n’ont tout simplement pas pu suivre le rythme.
À la fin de l’année dernière, l’entreprise a annoncé un pivot vers des déploiements d’IA d’entreprise de niche plutôt que de concourir pour toute la pile, ce qui est d’ailleurs une façon presque ridicule de le décrire étant donné l’ampleur absolument massive de cette « niche » de déploiements d’IA d’entreprise. Mais fondamentalement, l’entreprise a abandonné les plans de formation de modèles frontières pour se concentrer sur des modèles plus petits pour le déploiement sur site.
Le cofondateur Nick Frosst a déclaré à l’époque : « Ce que nous entendons des clients, c’est qu’ils n’ont tout simplement pas besoin de modèles plus grands pour être bons en tout. Ils ont besoin de modèles qui sont réellement construits pour leurs cas d’utilisation spécifiques. »
Depuis lors, l’entreprise semble prospérer. Des sources de Reuters ont indiqué que l’entreprise a maintenant atteint 100 millions de dollars de revenus annualisés, doublant leur rythme depuis le début de l’année dernière. 85% de ces revenus proviennent de contrats d’entreprise à long terme, l’entreprise déclarant qu’elle a réussi à atteindre des marges de 80%.
Le rapport indique qu’ils testent un modèle de résumé de documents avec de grands clients, dont la Banque Royale du Canada et LG.
Mais même cet exploit incroyablement impressionnant montre à quel point il existe un écart énorme entre les entreprises de modèles de fondation et toutes les autres. En 2023, alors que ChatGPT balayait le monde, Cohere avait donné aux investisseurs des projections d’atteindre 600 millions de dollars de revenus annualisés en vendant l’accès à leurs modèles.
Néanmoins, je pense que l’entreprise devrait être très fière d’avoir pivoté et trouvé un modèle viable et passionnant pour la couche applicative.
Jenny Xiao écrit : « La plupart des entreprises de modèles de fondation échoueront. La réalité brutale est qu’il est extrêmement difficile de surpasser les modèles open source. Si vous ne pouvez pas franchir cette ligne, vous ne valez pratiquement rien. »
Salesforce repense ses modèles de tarification pour les agents IA
Un autre thème récent que nous avons exploré est la tarification. Et Salesforce semble revoir ses modèles de tarification à mesure que les agents deviennent une part de plus en plus importante de leur activité.
Les clients paieront désormais 10 cents par action lors de l’utilisation des agents Salesforce. L’année dernière, l’entreprise a été l’une des premières à expérimenter la tarification par utilisation plutôt que de suivre les modèles SaaS traditionnels de facturation par siège. Les agents étaient facturés 2 dollars par conversation, avec la présomption qu’ils seraient principalement utilisés pour les ventes sortantes.
L’entreprise indique que cette nouvelle structure tarifaire vise à être une façon plus attrayante de payer pour des utilisations non conversationnelles et internes, comme l’analyse d’emails pour rechercher des prospects.
Salesforce permettra également aux clients existants de réaffecter les dépenses des abonnements logiciels vers leurs offres d’agents IA. Le vice-président exécutif Bill Patterson a déclaré : « Pour les entreprises qui envisagent l’avenir de leur main-d’œuvre, qu’elle augmente ou diminue, ce que l’accord flex nous donne, c’est cette capacité à déplacer les dépenses entre le travail humain et le travail numérique. »
J’ai fait toute une émission il y a quelques semaines sur la tarification des agents et ses implications. Et Salesforce est une étude de cas en direct à ce sujet. Essentiellement, leur dernière expérience de prix imaginait un type d’utilisation, mais quand ils ont vu un autre type d’utilisation qui ne fonctionnait pas pour cette tarification, ils ont dû s’adapter.
Je pense que cette idée d’accord flex est vraiment intelligente et crée beaucoup d’espace pour qu’ils puissent être encore plus agiles avec cette tarification. Mais globalement, c’est juste un signe de plus que personne ne sait exactement comment cela va se dérouler ou comment ils devraient même penser à la tarification.
Walmart se prépare au shopping par agents IA
Une autre entreprise qui réfléchit aux agents est Walmart. Le détaillant se prépare à d’importants changements dans la façon dont leurs consommateurs font leurs achats, ou plutôt comment leurs agents font leurs achats.
Walmart semble commencer à réfléchir à la façon de commercialiser ses produits auprès des agents IA qui, selon eux, prendront bientôt le contrôle de l’expérience d’achat. Le CTO de Walmart, Suresh Vaswani, a déclaré : « Ce sera différent. La publicité devra évoluer. »
Jusqu’à présent, la plupart des agents d’achat que nous avons vus suivent une rubrique très simple. Ils choisissent soit le premier lien bleu dans une recherche, soit ont des instructions pour rechercher certaines marques dans des catégories particulières. Mais il est très probable qu’à mesure que ces agents prolifèrent, nous pourrions voir un tout nouveau jeu de référencement évoluer, avec des entreprises concentrées sur la façon d’attirer ces nouveaux acheteurs robotiques.
Robert Hetu, analyste VP pour le commerce de détail et l’étude de marché chez la société de conseil Gartner, a également suggéré que les marques pourraient perdre leur relation directe avec les clients. Et il est difficile d’imaginer un agent IA développant beaucoup de fidélité à la marque.
Walmart, pour sa part, développe son propre agent d’achat mais se prépare également à ce que la plupart des consommateurs commencent à utiliser des agents tiers. Vaswani dit qu’il prévoit également l’établissement d’un protocole industriel qui permet aux agents tiers de communiquer avec l’agent propriétaire d’un détaillant pour servir des recommandations de produits.
Et soit dit en passant, si vous êtes un entrepreneur qui réfléchit à quelle pourrait être votre prochaine opportunité, c’est un excellent exemple de la quantité de nouvelles infrastructures qui vont être construites. Un protocole d’agent à agent pour l’industrie du commerce de détail semble niche et est probablement une activité de 10 milliards de dollars par an.
Quoi qu’il en soit, Hetu pense que nous pourrions voir une situation où la latence joue un rôle plus important, les détaillants modifiant les prix en une fraction de seconde pour gagner l’activité des agents tiers.
Maintenant, Walmart ne pense pas que cela va se produire du jour au lendemain. L’entreprise réalise toujours 80% de son activité dans des emplacements physiques, mais ils prennent clairement les devants sur ces changements.
Ce n’était pas exactement sur le même sujet, mais j’ai également remarqué ce tweet du PDG de Perplexity, Aravind Srinivas, qui a écrit : « Les réservations chaudes nativement sur Perplexity sont en croissance silencieuse. C’est l’une des fonctionnalités sous le radar que nous avons actuellement et qui a un potentiel énorme de perturber l’industrie publicitaire. La deuxième plus grande catégorie de mots-clés Google, je pense. »
Curieusement, j’expérimentais justement Perplexity et Claude la nuit dernière pour mes propres recherches de voyage, bien que je sois encore plus sur le front de la recherche que sur celui de la réservation, mais je pense que c’est un autre indicateur de la rapidité avec laquelle ces expériences vont converger.
Perplexity pourrait lever 500 millions de dollars
En parlant de Perplexity, un autre rapport sur leur prochaine levée de fonds. Le Wall Street Journal rapporte que l’entreprise est en pourparlers avancés pour lever 500 millions de dollars à une valorisation de 14 milliards de dollars, dirigée par Excel Ventures.
En ce qui concerne le capital-risque IA, l’histoire de financement de Perplexity est l’une des plus intrigantes à suivre en ce moment. D’une part, cette valorisation de 14 milliards de dollars est un énorme bond par rapport à la valorisation de 9 milliards de dollars de leur dernière levée de fonds en novembre, qui était elle-même environ 300% de leur valorisation précédente quelques mois auparavant.
En même temps, il semble que la valorisation ait été négociée à la baisse, des rapports de mars indiquant que l’entreprise visait à lever un milliard de dollars à une valorisation de 18 milliards de dollars.
Il semble également y avoir une distribution tournante de VCs. La dernière levée était dirigée par Institutional Venture Partners, mais Excel prend apparemment le relais pour cette levée. C’est très différent des récentes levées de fonds d’OpenAI et xAI, qui ont vu les investisseurs existants redoubler d’efforts autant que possible.
Ce qui rend Perplexity si intéressant à suivre, c’est que c’est de loin l’entreprise « wrapper » la plus réussie, une entreprise qui construit un produit plutôt qu’un modèle. Mais cela se heurte inconfortablement à quelque chose que les entreprises de modèles font elles-mêmes aussi. Cela ne me surprend pas de voir un peu de volatilité dans la conviction des investisseurs simplement en raison des nombreuses opinions différentes sur la viabilité à long terme de ce type d’entreprise.
Databricks acquiert Neon pour 1 milliard de dollars
Dans un autre domaine de financement, nous avons des nouvelles de fusions et acquisitions avec Databricks qui fait un autre gros achat, payant un milliard de dollars pour acquérir la startup de base de données Neon. Ce sera la troisième acquisition d’un milliard de dollars de Databricks au cours des 2 dernières années alors qu’ils cherchent à construire leur plateforme d’analyse de données axée sur l’IA.
Les outils de Neon permettent aux développeurs de cloner des bases de données et de prévisualiser les modifications avant qu’elles n’entrent en production, tout en offrant des solutions d’hébergement évolutives.
La partie intéressante est que Neon a vu une explosion d’agents IA utilisant leur plateforme plutôt que des développeurs humains. Databricks a déclaré que des données télémétriques récentes montrent que 80% des bases de données provisionnées sur Neon ont été créées automatiquement par des agents IA plutôt que par des humains.
Essentiellement, Databricks ne cherche pas seulement à offrir des agents, mais se dirige en aval pour capturer la valeur des outils qu’une main-d’œuvre agentique nécessitera.
Problèmes de sécurité avec Grok de xAI
Enfin aujourd’hui, une série d’histoires plutôt étranges entourant les problèmes de sécurité de l’IA. Grok de xAI a été brièvement obsédé par les relations raciales en Afrique du Sud cette semaine.
Mercredi, le chatbot a commencé à discuter du prétendu génocide blanc dans des sujets complètement sans rapport sur X. Dans l’un des centaines d’exemples, un utilisateur a demandé combien de fois HBO avait changé de nom. Grok a donné la réponse que HBO avait rebaptisé deux fois avant de se lancer dans une discussion sur les attaques contre les fermiers blancs en Afrique du Sud comme un non-sequitur complet. Dans un autre exemple, Grok a pivoté brutalement des statistiques de baseball à la discussion sur l’Afrique du Sud sans raison évidente.
Le journaliste d’investigation du New York Times Eric Lipton a posté : « Je ne peux pas arrêter de lire la page de réponses de Grok. Il devient schizophrène et ne peut pas arrêter de parler de génocide blanc en Afrique du Sud. Postez ‘Grok, est-ce vrai’ sur n’importe quel post et il commencera à parler de ‘tuez les Boers’ et de génocide blanc. »
Si les récents problèmes de complaisance de ChatGPT étaient un exemple de haut profil de désalignement de l’IA, le chatbot d’Elon semble dire « tiens ma bière ».
Je ne vais absolument pas entrer dans les dynamiques politiques de cela. C’est un sujet extrêmement sensible. Les États-Unis ont accueilli 59 Sud-Africains blancs dans le cadre d’un programme de réfugiés très spécifiquement ciblé cette semaine, ce qui a généré beaucoup de controverse. Elon Musk lui-même est bien sûr un immigrant blanc sud-africain.
Mais pour nos besoins, ce que cela démontre, c’est à quel point les chatbots peuvent facilement dysfonctionner lorsque les prompts système sont modifiés.
Jeudi, xAI a abordé la controverse, tweetant : « Le 14 mai à environ 3h15, une modification non autorisée a été apportée au prompt de réponse de Grok sur X. Ce changement, qui a dirigé Grok pour fournir une réponse spécifique sur un sujet potentiel, a violé les politiques internes de xAI et ses valeurs fondamentales. Nous avons mené une enquête approfondie et mettons en œuvre des mesures pour améliorer la transparence et la fiabilité de Grok. »
À l’avenir, la société a déclaré qu’elle commencerait à publier ses prompts système sur GitHub.
Le fondateur de YC, Paul Graham, a souligné le problème en disant : « Grok blurtant aléatoirement des opinions sur le génocide blanc en Afrique du Sud me semble être le genre de comportement bogué que vous obtenez d’un patch récemment appliqué. J’espère vraiment que ce n’est pas le cas. Ce serait vraiment mauvais si des IA largement utilisées étaient éditorialisées à la volée par ceux qui les contrôlaient. »
L’un des résultats de toute cette débâcle est que nous avons maintenant le premier engagement d’un grand laboratoire d’IA à publier de manière transparente leurs prompts système. L’incident récent avec la version complaisante de GPT-4.0 a également été causé par une modification du prompt système, mais nous n’avons pas vu d’engagement similaire de leur part.
Bien que dans des nouvelles distinctes mais quelque peu liées, ils ont annoncé un nouveau hub d’évaluations de sécurité qu’ils décrivent comme une ressource pour explorer les résultats de sécurité pour leurs modèles. Fondamentalement, ils disent qu’ils vont communiquer sur la sécurité de manière plus proactive.
Quoi qu’il en soit, l’extraordinaire jailbreaker Plenny the Liberator a poussé pour ce genre d’engagement que nous avons obtenu de xAI comme une mesure de responsabilité et de transparence minimale et a tweeté : « Douce, douce victoire. Nous l’avons fait, chat. »
Et cela conclut une autre semaine fascinante dans le monde de l’IA.
Featured image by Mohamed El Ghorchi on Unsplash

