Selon de révélations de Mediapart, la maison mère de Facebook a téléchargé illégalement, dès 2022, les ouvrages accumulés par le site pirate LibGen, afin d'entraîner son modèle d’intelligence artificielle. © FREEP!K

Les nouvelles Amazones de l’IA… et l’ombre du pirate

Par
rapporteuses
Rédaction Rapporteuses
Observatrices curieuses et infatigables, Rapporteuses racontent le monde qui les entoure avec un regard à la fois précis et espiègle. Du glamour des soirées parisiennes aux...
- Rédaction Rapporteuses
8 Min. de lecture

Quand une pépite française de l’intelligence artificielle se retrouve liée à l’un des plus grands vols de livres numériques de l’histoire moderne. Il y a deux ans à peine, trois jeunes chercheurs français, Guillaume Lample, Arthur Mensch et Timothée Lacroix, faisaient entrer la France dans la cour très fermée de l’intelligence artificielle de pointe. Leur start-up, Mistral AI, née de leurs parcours chez Meta (Facebook) et Google-DeepMind, était saluée comme le fer de lance de l’Europe face aux géants américains.

Aujourd’hui, une question empoisonne cette success story : l’un de ces cofondateurs serait, selon des documents judiciaires, et des révélations de Mediapart, dans son édition du 22 décembre, au cœur d’un colossal piratage de livres numériques alors qu’il travaillait encore pour Meta.

Le scandale éclate au milieu d’un gigantesque procès aux États-Unis, Kadrey vs. Meta Platforms, où des auteurs, dont Richard Kadrey et Sarah Silverman, poursuivent Meta pour avoir utilisé illégalement des œuvres protégées par le droit d’auteur pour entraîner ses modèles d’IA. Au cœur des éléments rendus publics : des preuves internes que les ingénieurs de Meta ont téléchargé des centaines de milliers d’ouvrages piratés depuis Library Genesis (LibGen), ce site mondialement connu comme étant une bibliothèque opaque.

Ces bibliothèques numériques non autorisées contiennent des centaines de milliers de livres, souvent protégés par copyright, et Meta, toujours selon ces documents judiciaires, a bel et bien extrait une grande partie de ces contenus pour nourrir ses modèles d’intelligence artificielle dès 2022.

C’est là que le nom de Guillaume Lample surgit dans les pièces du dossier. Ingénieur alors employé par Meta, Lample aurait, selon des dépôts judiciaires, torréfié (téléchargé via protocole BitTorrent) une copie de LibGen sur les serveurs de l’entreprise, opération que des employés de Meta eux-mêmes qualifiaient de « probable » compte tenu des traces encore visibles dans les fichiers internes.

Les faits remontent à octobre 2022, au tout début de la course mondiale à l’IA générative, une course où chaque byte de texte compte. Meta cherchait désespérément de nouveaux corpus pour entraîner « LLaMA », son grand modèle de langage. Des notes internes évoquent l’usage de LibGen comme source quasi incontournable pour atteindre des performances jugées compétitives face à OpenAI. Lample n’était qu’un simple ingénieur, mais il deviendra quelques mois plus tard l’un des cofondateurs, et désormais figures clés, de Mistral AI, entreprise qui a connu un essor fulgurant, tant en valorisation qu’en notoriété dans le paysage mondial des IA.

Chez Meta, ce dossier alimente déjà des débats internes et extérieurs sur ce qui constitue un usage « raisonnable » de contenus protégés dans l’entrainement de systèmes intelligents. La défense de Meta dans le procès invoque la doctrine américaine de « fair use » (« usage loyal »), selon laquelle l’usage non autorisé de textes pour entraîner une IA pourrait être justifié comme transformateur. Une stratégie contestée vivement par les auteurs plaignants, qui y voient une appropriation sans compensation de leur travail.

Dans le paysage des levées de fonds et des valorisations stratosphériques, Mistral AI est aujourd’hui l’une des rares licornes européennes capables de parler d’égal à égal avec Silicon Valley. Mais cette affaire soulève une question embarrassante : les méthodes et les sources de données utilisées par ceux qui fabriquent l’intelligence de demain sont-elles compatibles avec les règles et l’éthique d’hier ?

LibGen, ou la bibliothèque fantôme de l’Internet

Library Genesis, plus connue sous le nom de LibGen, est l’une des plus grandes bibliothèques numériques illégales au monde. Née dans les années 2000 dans l’espace post-soviétique, la plateforme agrège et met à disposition des millions de livres, articles scientifiques et manuels universitaires, pour l’immense majorité protégés par le droit d’auteur. Son fonctionnement est simple : des internautes y déposent des fichiers (PDF, EPUB, MOBI), souvent extraits d’éditeurs commerciaux ou de bases académiques payantes. L’accès est gratuit, le téléchargement massif, la traçabilité minimale. LibGen est régulièrement visée par des décisions de justice, notamment aux États-Unis, mais continue de réapparaître via des miroirs et des réseaux de partage.

Pour le monde académique et technologique, LibGen est un angle mort légal : outil d’accès au savoir pour certains chercheurs ou étudiants sans moyens, infrastructure centrale du piratage de masse pour les éditeurs et les auteurs. Dans le cadre du procès intenté contre Meta, LibGen apparaît comme l’une des principales sources de données textuelles utilisées pour entraîner des modèles d’intelligence artificielle. Les documents judiciaires rendus publics montrent que des ingénieurs de l’entreprise ont eu recours à ces bases en pleine connaissance de leur caractère illégal.

Sur le plan juridique, la question est explosive : Télécharger et stocker des œuvres protégées sans autorisation constitue une violation du droit d’auteur. Les entreprises d’IA invoquent cependant le fair use (usage transformatif) pour justifier l’entraînement de modèles sur ces données, une interprétation contestée et encore loin d’être tranchée par les tribunaux.

LibGen n’est donc pas seulement un site pirate. C’est le symptôme d’un conflit mondial entre création, accès au savoir et industrie algorithmique. Un conflit dont les ingénieurs, les auteurs… et désormais les start-up stars de l’IA sont devenus les protagonistes involontaires, ou conscients.

La souveraineté en trompe-l’œil

À Bruxelles comme à Paris, on jure que l’Europe de l’IA sera « éthique », « régulée », « respectueuse des créateurs ». C’est fort de ces principes que l’AI Act, a été votée en invoquant l’exception culturelle, et en brandissant le droit d’auteur comme un rempart civilisationnel. Mais derrière les discours, la réalité est plus prosaïque : l’intelligence artificielle européenne se construit, elle aussi, sur des corpus majoritairement anglo-saxons, massifs, opaques, et parfois illégaux.

L’affaire révélée par Mediapart met le doigt sur l’impensé d’une stratégie continentale : vouloir rivaliser avec la Silicon Valley sans se donner les moyens politiques, juridiques et économiques d’un écosystème de données légal, public et rémunérateur. Faute d’alternatives, les bibliothèques pirates deviennent des infrastructures invisibles de la puissance algorithmique.

La question n’est donc pas de savoir si l’Europe aura ses champions de l’IA. Elle les a déjà. La vraie question est plus dérangeante : à quel prix culturel ? Si les livres servent de carburant gratuit aux machines, si les auteurs deviennent des « données » sans droits ni voix, alors la souveraineté numérique européenne ne sera qu’un slogan technocratique plaqué sur une dépendance intellectuelle. La révolution technologique n’a pas seulement besoin de talents et de capitaux, elle se heurte aussi frontalement au droit d’auteur, à la propriété intellectuelle et à la conscience collective. Et derrière les success stories numériques brillent parfois des zones d’ombre encore difficiles à éclairer.

Sources :

Mediapart

Chat GPT Is Eating the World

Digiday

Infos.fr

Reuters

Partager cet article
Rédaction Rapporteuses
Suivre :
Observatrices curieuses et infatigables, Rapporteuses racontent le monde qui les entoure avec un regard à la fois précis et espiègle. Du glamour des soirées parisiennes aux coulisses des affaires, de la culture aux nouvelles tendances, elles parcourent la ville et le monde pour capter les histoires, les personnages et les mouvements qui font l’actualité. Toujours sur le terrain, elles mêlent rigueur journalistique et sens du récit, pour offrir aux lecteurs des portraits, enquêtes et chroniques à la fois informatifs et captivants.
Aucun commentaire

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *