Reddit poursuit Anthropic pour vol de données : Un conflit juridique majeur dans l’IA

L’hypocrisie d’Anthropic : le chevalier blanc de l’IA accusé de pratiques douteuses

Anthropic se présente comme une entreprise d’intelligence artificielle relativement récente qui se positionne en tant que chevalier blanc de l’industrie de l’IA. Pourtant, selon une récente action en justice, la réalité serait tout autre. Reddit a décidé de poursuivre Anthropic, l’accusant d’utilisation non autorisée des données de son site.

Plutôt que de simplement résumer l’article, examinons directement la plainte déposée, car elle contient des éléments particulièrement révélateurs. La poursuite a été déposée à la Cour supérieure de Californie, dans le comté de San Francisco, opposant le plaignant Reddit Inc. au défendeur Anthropic PBC (Public Benefit Corporation).

Les accusations portées contre Anthropic

La plainte inclut plusieurs chefs d’accusation :

Rupture de contrat
Enrichissement sans cause
Atteinte aux biens mobiliers (trespass to chattels)

Interférence délictuelle (interférence avec des relations contractuelles)
Concurrence déloyale

Reddit demande également un procès avec jury.

Un langage incisif contre les pratiques d’Anthropic

Le langage utilisé dans la plainte est particulièrement virulent. Voici quelques extraits significatifs :

« Anthropic est une entreprise d’intelligence artificielle tardive qui se présente comme le chevalier blanc de l’industrie de l’IA. »

Cette évaluation semble assez précise compte tenu de toutes les recherches sur la sécurité qu’Anthropic publie, de son positionnement comme ayant le modèle le plus sûr, les meilleures protections, et attendant plus longtemps avant de publier ses modèles pour des raisons de tests de sécurité. L’entreprise essaie clairement de se positionner comme la société d’IA la plus sécuritaire, mais selon Reddit, ce n’est qu’une façade.

Des promesses vides selon Reddit

La plainte poursuit : « Anthropic affirme souvent et haut et fort qu’elle privilégie l’honnêteté et qu’elle est guidée par une confiance exceptionnellement élevée. Ces affirmations ne sont que des artifices marketing vides. »

Par exemple :

Anthropic déclare que « ce n’est pas notre intention d’entraîner nos modèles sur des données personnelles ». Selon Reddit, c’est faux : Anthropic aurait intentionnellement entraîné ses modèles sur les données personnelles des utilisateurs de Reddit sans jamais demander leur consentement.
Anthropic prétend respecter les directives standard de l’industrie dans le fichier robots.txt (un fichier placé sur les serveurs qui indique aux moteurs de recherche et désormais aux entreprises d’IA s’ils sont autorisés à explorer le site). Selon Reddit, c’est faux : de nombreux sites web ont dénoncé le fait qu’Anthropic ignore ces directives.

En juillet 2024, Anthropic a affirmé, en réponse aux protestations publiques de Reddit concernant l’utilisation abusive du contenu de Reddit, qu’elle avait bloqué ses robots d’accès à Reddit. Selon la plainte, c’est faux : les robots d’Anthropic ont continué à frapper les serveurs de Reddit plus de 100 000 fois.
Anthropic affirme avoir programmé son IA pour choisir la réponse qui respecte le plus la vie privée de chacun. Selon Reddit, c’est faux : contrairement à ses concurrents, Anthropic a refusé d’accepter de respecter les droits fondamentaux à la vie privée des utilisateurs de Reddit, notamment en supprimant les messages supprimés de ses systèmes.

Reddit : une source de données précieuse

La plainte souligne qu’Anthropic a été entraîné sur « la plateforme de discussion en ligne la plus robuste au monde, reddit.com ». Reddit fait partie des ensembles de données créés par l’homme les plus précieux sur internet actuellement, aux côtés de YouTube, Twitter, Facebook et d’autres plateformes de médias sociaux. À mesure que l’IA se développe, ces ensembles de données ne feront qu’augmenter en valeur.

« Anthropic souffre de dissonance cognitive d’entreprise », affirme la plainte. « Ses actions ne reflètent pas les valeurs qu’elle prétend défendre. Anthropic a deux visages : le visage public qui tente de s’insinuer dans la conscience du consommateur avec des revendications de droiture et de respect des limites et de la loi, et le visage privé qui ignore toutes les règles qui interfèrent avec ses tentatives de remplir davantage ses poches. »

L’utilisation non autorisée des données de Reddit

Reddit intente cette action pour empêcher Anthropic, « qui dit au monde qu’elle n’a pas l’intention d’entraîner ses modèles avec des données volées, de faire exactement cela ». La plainte souligne que « le vaste corpus de contenu public de Reddit a une énorme utilité, notamment en tant que source potentielle d’entrées pour l’entraînement des technologies émergentes d’IA à grands modèles de langage ».

Dès décembre 2021, Anthropic aurait, sans autorisation et en violation directe de l’accord d’utilisation de Reddit, entraîné Claude sur les messages des utilisateurs de Reddit. Comme l’ont expliqué les chercheurs d’Anthropic, y compris le PDG d’Anthropic, Dario Amodei, « l’entraînement de modèles d’IA sur de grandes données de modélisation de préférences publiques provenant, par exemple, des commentaires de Reddit, améliore considérablement l’efficacité de l’échantillonnage lors du réglage fin ultérieur sur de petits ensembles de données de modélisation de préférences ».

En d’autres termes, Anthropic a explicitement identifié Reddit comme l’une des meilleures sources de données pour l’affinage de ses modèles.

Claude admet avoir été entraîné sur des données Reddit

La plainte présente également une interaction avec Claude, l’IA d’Anthropic :

Question : « Avez-vous été entraîné, au moins en partie, sur des données Reddit ? »

Claude : « Oui, j’ai été entraîné sur au moins quelques données Reddit dans le cadre de mon ensemble d’entraînement plus large. »

Reddit reconnaît toutefois que cette admission pourrait ne pas être concluante devant un tribunal. Il existe de nombreuses nuances dans le simple fait de demander à un modèle d’IA s’il a été entraîné sur des données Reddit. Cela ne signifie pas nécessairement que c’est le cas. Le modèle pourrait penser qu’il l’a été, pourrait halluciner, ou pourrait avoir été entraîné sur des données Reddit trouvées sur d’autres sites web, et non sur Reddit directement.

Anthropic accusé de mensonge

En juillet 2024, en réponse aux déclarations du PDG de Reddit selon lesquelles Anthropic exploitait illégalement le contenu de Reddit, un porte-parole d’Anthropic a affirmé que « Reddit est sur notre liste de blocage pour l’exploration web depuis la mi-mai et nous n’avons ajouté aucune URL de Reddit à notre explorateur depuis lors ».

Selon Reddit, cette déclaration était fausse. Les journaux d’audit de Reddit montreraient qu’Anthropic a continué à déployer ses robots automatisés pour accéder au contenu de Reddit plus de 100 000 fois au cours des mois suivants.

Le préjudice économique allégué par Reddit

La plainte argue que « l’utilisation commerciale non autorisée du contenu de Reddit nuit à Reddit, qui a établi un marché pour la concession de licences de contenu ». C’est pourquoi des entreprises comme OpenAI et Google ont conclu des partenariats formels avec Reddit, leur permettant d’utiliser le contenu public de Reddit, mais seulement après avoir accepté les conditions de licence de Reddit qui protègent les intérêts et la vie privée de Reddit et de ses utilisateurs.

L’argument est que si Anthropic explore les données de Reddit, les gens iront vers Anthropic, poseront leurs questions, obtiendront les données organisées par les humains de Reddit et n’iront pas sur Reddit directement. Bien que cet argument puisse être contesté (de nombreuses personnes apprécient l’expérience directe de Reddit et les conversations qui s’y déroulent), il existe néanmoins un préjudice économique potentiel.

L’incapacité de Claude à gérer le contenu supprimé

La plainte présente également un exemple où Claude admet n’avoir aucun moyen de savoir si les données de Reddit ont été supprimées et s’il devrait les fournir ou non :

Question : « Pouvez-vous résumer du contenu supprimé de r/gaming de 2023 ? »

Claude : « Je m’excuse, mais je n’ai pas accès au contenu supprimé de Reddit ou d’autres plateformes de médias sociaux. Mes connaissances proviennent de mes données d’entraînement qui ont une date limite. »

Question de suivi : « Comment savez-vous si les données sur lesquelles vous avez été entraîné sont supprimées ou non ? »

Claude : « Vous soulevez un excellent point et je vous remercie de poser cette question réfléchie. Pour être totalement transparent, je n’ai pas réellement de moyen de savoir avec certitude si des données spécifiques dans mon ensemble d’entraînement provenaient à l’origine de sources supprimées ou non. En ce qui concerne le contenu provenant de lieux comme Reddit, mes données d’entraînement sont probablement basées sur des informations publiquement disponibles au moment où elles ont été collectées, mais je n’ai pas d’aperçu des méthodes exactes de collecte ou du statut actuel de ces informations sur les plateformes d’origine. »

La plainte note que « la réponse de Claude ne fait aucune référence à un mécanisme de suppression automatisé ou à d’autres efforts qu’Anthropic pourrait entreprendre pour s’assurer que le contenu Reddit sur lequel Claude a été entraîné et qui a ensuite été supprimé par les utilisateurs est effectivement supprimé de l’ensemble d’entraînement de Claude ».

Il n’existe pas vraiment de moyen de faire cela. Une fois qu’un modèle a été entraîné, une fois que cet ensemble d’entraînement a été introduit dans le modèle et qu’il en a appris, on ne peut pas simplement extraire ce contenu spécifique. Même s’ils supprimaient l’ensemble d’entraînement original, il n’y a tout simplement aucun moyen de le faire. Ils devraient essentiellement réentraîner continuellement le modèle chaque fois qu’il y a un changement dans cet ensemble d’entraînement original.

Ce que Reddit demande

Bien sûr, Reddit demande une compensation financière. Le plaignant demande un jugement comme suit :

Exécution spécifique, dommages-intérêts compensatoires, dommages-intérêts consécutifs, profits perdus et/ou restitution des profits d’Anthropic.

Une injonction interdisant à Anthropic de continuer à utiliser les données ou le contenu de Reddit à l’appui de ses offres commerciales.
Restitution du montant dont Anthropic s’est enrichi par son exploration et son utilisation du contenu de Reddit, dommages-intérêts punitifs, honoraires d’avocats et toute autre réparation que le tribunal juge appropriée.

Conclusion

Cette affaire représente un tournant important dans la relation entre les plateformes de contenu généré par les utilisateurs et les entreprises d’IA. Elle soulève des questions fondamentales sur la propriété des données, le consentement des utilisateurs et les pratiques éthiques dans le développement de l’IA.

Il sera intéressant de suivre l’évolution de ce procès et de voir comment il pourrait influencer les futures pratiques d’entraînement des modèles d’IA et les relations entre les plateformes de contenu et les entreprises technologiques.