- Advertisement - spot_imgspot_img
AccueilLivres & LittératureUne étude affirme que l'IA restituerait jusqu’à 90 % d’un livre protégé

Une étude affirme que l'IA restituerait jusqu’à 90 % d’un livre protégé

Deux prépublications de mars 2026 déplacent le débat sur l’IA et le livre. La première, signée notamment par Jane C. Ginsburg, avance qu’un fine-tuning ciblé suffit à faire ressurgir des pans d’ouvrages protégés. Cette méthode reprend un modèle d’IA déjà entraîné et l’ajuste avec de nouvelles données pour le spécialiser dans une tâche précise ou modifier son comportement. Cet ajustement peut concerner tout le modèle ou seulement certaines couches, les autres restant « gelées » pour préserver leurs connaissances initiales.

La seconde, publiée par le juriste Gregory M. Dickinson, défend sur le terrain normatif une thèse inverse : face aux technologies émergentes, le droit gagnerait moins à multiplier les textes spéciaux qu’à laisser agir les principes généraux. Entre les deux, l’édition retrouve une vieille question : qu’est-ce qu’un système apprend, et à partir de quand copie-t-il ?

Quand le fine-tuning rouvre les livres

Dans Alignment Whack-a-Mole, Xinyue Liu, Niloofar Mireshghallah, Jane C. Ginsburg et Tuhin Chakrabarty examinent GPT-4o, Gemini-2.5-Pro et DeepSeek-V3.1 après fine-tuning. Leur protocole consiste à entraîner les modèles à développer des résumés en texte intégral, puis à mesurer la restitution de livres protégés tenus à l’écart de cet apprentissage complémentaire.

Leur conclusion frappe : les auteurs disent obtenir jusqu’à 85 à 90 % de reproduction sur certains livres, avec des segments verbatim dépassant 460 mots, sans fournir le texte original en invite, seulement des descriptions sémantiques.

JUSTICE – Éditeurs, presse et auteurs contre Anthropic, dans un procès musical

L’étude insiste sur un point décisif pour les éditeurs : l’effet ne resterait pas cantonné à l’auteur utilisé pour le fine-tuning. Les chercheurs écrivent qu’un entraînement limité aux romans de Haruki Murakami ”déverrouille” ensuite la restitution d’ouvrages de plus de trente auteurs sans lien avec ce corpus. Ils ajoutent que le phénomène réapparaît avec des données du domaine public, alors qu’un fine-tuning sur texte synthétique produit une extraction proche de zéro. Leur hypothèse suit une ligne nette : le fine-tuning ne crée pas la mémoire, il réactive une mémorisation latente issue du préentraînement.

Le papier vise aussi les assurances répétées des entreprises d’IA devant les tribunaux et les régulateurs, selon lesquelles les modèles ne stockeraient pas de copies des données d’entraînement et que les garde-fous d’alignement empêcheraient la régurgitation verbatim. Les auteurs soutiennent au contraire que ces protections cèdent sous une opération plausible, proche des assistants d’écriture.

Ils l’écrivent sans détour : « Nous montrons que le fine-tuning contourne ces protections. » Le texte relie ce résultat aux contentieux américains récents sur le fair use, en affirmant que ces défaillances sapent un présupposé essentiel des décisions favorables, lié à l’absence de sorties reproduisant l’expression protégée.

Dans l’épisode précédent…

Une précédente étude universitaire ouvrait déjà le débat début janvier sur l’usage des œuvres protégées par les intelligences artificielles génératives. En testant plusieurs modèles commerciaux, des chercheurs montrent qu’il devient possible, à partir d’une simple amorce, d’obtenir des passages très longs, parfois quasi identiques, issus de livres sous copyright comme Harry Potter, 1984 ou Le Hobbit. Cette capacité repose sur une forme de mémorisation des textes intégrés aux données d’entraînement, que les systèmes peuvent restituer malgré les garde-fous censés l’empêcher.

Les résultats varient selon les modèles, certains limitant fortement l’extraction, d’autres permettant de reconstituer une large part des ouvrages testés, parfois sans contournement technique. Au total, treize livres ont servi d’échantillon, confirmant que la restitution de segments de plus de cent mots reste possible dans certaines conditions.

À LIRE – Royaume-Uni : les éditeurs aménagent une licence pour encadrer l’IA

Sans trancher juridiquement, ces travaux alimentent un contentieux déjà intense entre ayants droit et entreprises technologiques, en soulignant une difficulté persistante : empêcher efficacement la réapparition de contenus protégés dans les réponses générées.

La retenue législative comme thèse

Le second texte, Law Proofing the Future, ne traite pas du livre, mais il touche directement l’économie des contenus. Gregory M. Dickinson, rattaché à l’Université du Nebraska-Lincoln et à Stanford Law School selon la notice SSRN, part d’un constat simple : chaque percée technique déclenche un même cycle, fascination, inquiétude, puis inflation législative. Son article place l’IA générative, la publicité ciblée et les décisions algorithmiques dans cette série historique.

Sa formule centrale condense sa démonstration : « Ce n’est pas le droit qu’il faut renforcer pour l’avenir, mais l’avenir qu’il faut protéger du droit. » Dickinson défend une thèse de retenue. Selon lui, les outils les plus solides pour gouverner les innovations existent déjà dans le droit commun ; créer des régimes spécialisés trop tôt risque surtout d’installer les acteurs en place, de freiner l’expérimentation et de substituer à des principes généraux des règles fragiles.

L’article ne plaide pas pour une absence de droit, mais pour une autre séquence. Dickinson soutient que les tribunaux, saisis de litiges concrets, disposent d’une meilleure capacité d’adaptation que le législateur lorsqu’il prétend anticiper des usages encore instables. Il mentionne les coûts cachés d’une intervention trop précoce : biais d’application, capture réglementaire, incohérences entre technologies proches et verrouillage de l’innovation au bénéfice des acteurs déjà installés.

Le livre entre la preuve et la prudence

Mis côte à côte, les deux textes ne s’annulent pas ; ils se tendent. Le premier documente un risque technique précis pour les œuvres écrites : après fine-tuning, des modèles issus de fournisseurs différents restituent les mêmes livres dans les mêmes zones, avec une corrélation annoncée d’au moins 0,90.

Le second avertit qu’une réaction réglementaire trop spécialisée peut figer le problème au lieu de le résoudre. Pour l’édition, la difficulté tient là : la preuve expérimentale de la restitution verbatim rend plus coûteux l’argument selon lequel l’IA ne ferait qu’apprendre comme un lecteur, mais elle ne tranche pas automatiquement la forme juridique de la réponse publique.

La discussion quitte alors le seul terrain théorique. Dans le papier sur la mémorisation, les chercheurs affirment que leurs résultats apportent un argument fort en faveur de l’idée que les poids des modèles stockent des copies d’œuvres protégées. Dans le texte de Dickinson, à l’inverse, la prudence vaut parce que le droit dispose déjà de catégories générales capables d’absorber des faits nouveaux.

INSOLITE – IA, IA pas ? Hachette retire de la vente Shy Girl, roman d’horreur

L’écart est net : d’un côté, une démonstration qui fragilise les défenses actuelles des entreprises d’IA ; de l’autre, une mise en garde contre la tentation de bâtir une loi d’exception à chaque secousse technique.

Pour les éditeurs, auteurs et juristes du livre, mars 2026 fixe moins une conclusion qu’un nouveau standard de preuve. Il devient plus difficile d’évacuer la reproduction quasi intégrale comme une hypothèse marginale. Il devient aussi difficile de soutenir qu’un arsenal inédit s’impose par principe.

Ces deux textes imposent une discipline : documenter les capacités réelles des modèles, distinguer préentraînement, fine-tuning et sortie effective, puis mesurer ce que le droit général sait déjà traiter et ce qu’il laisse encore sans prise.

Crédits photo : zerrocool41 CC 0

 

 

Par Clément SolymContact : cs@actualitte.com


Source:

actualitte.com

Annonce publicitairespot_img

Derniers articles

Annonce publicitairespot_img