
ENTRAÎNEMENT DES IA ET DROIT D’AUTEUR : la décision Bartz et al. v. Anthropic PBC (N.D. Cal., 23 juin 2025) par Lucien MAURIN
Le tribunal fédéral de Californie a jugé que l’utilisation d’œuvres protégées pour entraîner des modèles d’IA peut relever du fair use, lorsqu’elle repose sur des copies légalement acquises et sert un usage transformateur. En revanche, la conservation d’ouvrages piratés dans une bibliothèque interne n’est pas justifiée. La décision distingue clairement les usages licites liés à la recherche de ceux qui relèvent de la contrefaçon.
---
The federal court in California held that the use of copyrighted works to train AI models can qualify as fair use, provided it is based on lawfully acquired copies and serves a transformative purpose. However, the retention of pirated books in an internal library was deemed unjustified. The decision draws a clear line between lawful research-related uses and those constituting copyright infringement.
La société Anthropic PBC, spécialisée dans le développement de modèles d’intelligence artificielle (IA), a procédé à la constitution d’une vaste bibliothèque numérique. Celle-ci comprenait plusieurs millions de livres, dont certains ont été acquis par des moyens illicites, notamment via des plateformes pirates comme Books3, LibGen et PiLiMi. D’autres ouvrages ont été achetés sous forme imprimée, puis numérisés après destruction de leur support physique.
Les œuvres de plusieurs auteurs – Andrea Bartz, Charles Graeber et Kirk Wallace Johnson – ont été incluses dans cette base documentaire sans autorisation, et certaines ont été utilisées dans le cadre de l’entraînement de modèles de langage de grande ampleur (LLM) intégrés à l’assistant Claude, commercialisé par Anthropic.
Les auteurs ont intenté une action pour contrefaçon de droits d’auteur, arguant que l’exploitation de leurs œuvres, tant pour la constitution de la bibliothèque que pour l’entraînement des modèles, excédait les limites du fair use.
1 - Questions posées
La question centrale était de déterminer si les différents actes de reproduction opérés par Anthropic pouvaient être qualifiés de fair use au regard de la section 107 du Copyright Act, qui prévoit une analyse fondée sur quatre critères :
- Le but et la nature de l’utilisation ;
- La nature de l’œuvre protégée ;
- La quantité et la substance de l’œuvre utilisée ;
- L’effet sur le marché potentiel de l’œuvre.
2 - L’analyse du tribunal
. Entraînement des modèles LLM : usage transformateur et licite
Le tribunal reconnaît que l’entraînement de modèles d’IA constitue un usage hautement transformateur. En effet, les œuvres ne sont pas reproduites telles quelles ni redistribuées, mais intégrées dans un processus statistique destiné à générer du texte nouveau, répondant aux requêtes des utilisateurs. Aucune sortie (output) n’a été identifiée comme reproduisant de manière substantielle les œuvres protégées.
Cet usage est donc considéré comme relevant du fair use, car il modifie profondément la finalité des œuvres utilisées (création de nouveaux textes via l’IA) sans empiéter sur les droits économiques des auteurs.
b. Numérisation des ouvrages achetés : usage transformateur mais encadré
S’agissant des livres achetés physiquement puis numérisés, le tribunal considère également que le passage du format imprimé au format numérique, dans un but de stockage et de recherche interne, constitue un usage transformateur. Ce changement de format n’a pas donné lieu à la création d’exemplaires supplémentaires ni à une diffusion externe.
Ce traitement s’apparente à un usage conservatoire (similaire à l’archivage), comparable à des précédents jurisprudentiels (notamment Sony Betamax et Google Books). Le fair use est donc retenu pour cet aspect, même si le bénéfice économique pour Anthropic est reconnu.
c. Constitution d’une bibliothèque centrale à partir d’ouvrages piratés : usage non transformateur et illicite
En revanche, l'acquisition et la conservation de millions de copies piratées sans autorisation ni contrepartie financière constituent, selon la Cour, un usage non transformateur. Ces copies ont été conservées de manière pérenne pour un usage interne ou hypothétique, même lorsque ces ouvrages n’ont pas été utilisés pour l'entraînement des modèles.
La Cour rejette la justification fondée sur l’objectif de recherche ou la facilité d’accès, et insiste sur le fait que rien ne permettait d’exonérer Anthropic de son obligation d’acquérir légalement ces contenus. Le maintien de ces copies ne relève pas d’un usage équitable. En outre, le fait que certaines de ces copies n’ont jamais été utilisées pour des fins de formation accentue leur caractère illicite.
3 - La décision
Le tribunal établit une distinction rigoureuse entre les usages :
L’entraînement de LLM à partir d’œuvres légalement acquises est un fair use.
La numérisation de copies imprimées achetées est également un fair use.
La conservation de copies piratées pour constituer une bibliothèque centrale ne relève pas du fair use et constitue une contrefaçon.
Cette décision constitue l’une des premières jurisprudences substantielles encadrant les pratiques de constitution de corpus et d’entraînement de modèles d’IA au regard du droit d’auteur. Elle distingue finement entre usages fonctionnels et transformateurs (licites), et usages purement extractifs ou conservatoires (illicites en l’absence d’autorisation).
---
United States District Court for the Northern District of California (Case No. C 24-05417 WHA)
1. Factual Background
Anthropic PBC, an AI company, built a massive digital library by collecting millions of books. Some were acquired illegally from piracy platforms such as Books3, LibGen, and PiLiMi. Others were legally purchased in print, then scanned into digital form after the physical copies were destroyed.
The works of several authors — Andrea Bartz, Charles Graeber, and Kirk Wallace Johnson — were included without authorization. Some were used to train large language models (LLMs) underlying Anthropic’s Claude AI assistant.
The authors filed suit for copyright infringement, arguing that both the collection of their works and their use in model training fell outside the scope of fair use under U.S. copyright law.
2. Legal Issues
The core issue was whether the various uses made by Anthropic qualified as fair use under Section 107 of the Copyright Act, which requires a case-by-case analysis based on four factors:
The purpose and character of the use;
The nature of the copyrighted work;
The amount and substantiality of the portion used;
The effect of the use on the potential market or value of the work.
3. Key Findings of the Court
a. Use of the Works for LLM Training: Transformative and Fair
The court found that training AI models using the copyrighted works constituted a highly transformative use. The works were not reproduced or distributed to the public, but were used internally to enable the models to generate new text. No outputs reproduced substantial parts of the original works.
As such, this use was deemed fair: it served a fundamentally different function — enabling AI-generated expression — without substituting for the original works in the marketplace.
b. Scanning of Lawfully Purchased Books: Fair Use on Practical Grounds
Regarding books legally acquired in print and then digitized, the court found the format change — from print to digital — to be fair use. The purpose was internal archiving and research, not distribution or commercial exploitation of the digital copies. Each digital file replaced its original, and no extra copies were made or shared externally.
This use was likened to prior precedents involving time-shifting (Sony Betamax) and space-saving copies for personal or institutional use.
c. Use of Pirated Copies to Build a Central Library: Infringing and Not Transformative
In contrast, the creation of a permanent internal library from pirated digital books was not protected by fair use. These copies were acquired without authorization or compensation and retained indefinitely — even when Anthropic decided not to use them for training.
The court emphasized that the mere intention to use content for future AI development does not justify initial acts of infringement. Building a general-purpose repository from pirated works was a distinct and non-transformative use that violated copyright law.
4. Court’s Conclusion
The court drew a clear distinction between various uses:
Training AI models using legally acquired works qualifies as fair use;
Digitizing purchased print copies for internal reference also qualifies as fair use;
Building and retaining a library of pirated books, even for internal research, constitutes copyright infringement.
#ArtificialIntelligence
#CopyrightLaw
#FairUse
#DigitalTransformation
#AIRegulation
#InnovationAndLaw#AIEthics
#GenerativeAI
#IPLaw
#LLMTraining
#DataGovernance
#PublishingRights
#ContentProtection
#AIAndLaw
#LegalInnovation
#TechCompliance#lawprofiler