Reddit serre la vis - Pourquoi l’Internet Archive va perdre l’accès à la majorité de ses contenus

Reddit serre la vis – Pourquoi l’Internet Archive va perdre l’accès à la majorité de ses contenus

11 août 2025

Coup de tonnerre dans le petit monde de l’archivage du web. Reddit vient d’annoncer qu’il allait restreindre drastiquement l’accès de l’Internet Archive (et plus précisément de son célèbre outil, la Wayback Machine) à ses pages.

Si, jusqu’à présent, il était possible de retrouver un fil de discussion, un profil ou une section de commentaires datant de plusieurs années grâce à cette immense bibliothèque numérique, ce ne sera bientôt plus le cas. L’Internet Archive ne pourra désormais indexer que la page d’accueil de Reddit, limitant ainsi son travail à une photographie quotidienne des titres et tendances les plus populaires.

Derrière cette décision, un enjeu brûlant: la collecte massive de données par les entreprises d’intelligence artificielle. Selon Reddit, certaines de ces sociétés exploiteraient la Wayback Machine pour aspirer du contenu, contournant ainsi les règles fixées par la plateforme.

« Internet Archive fournit un service précieux au web ouvert, mais nous avons été informés de cas où des entreprises d’IA violent les politiques des plateformes, y compris les nôtres, en aspirant des données via la Wayback Machine », explique Tim Rathschmidt, porte-parole de Reddit, dans les colonnes de The Verge.

Une machine à voyager dans le temps numérique

Pour comprendre la portée de cette décision, il faut savoir comment fonctionne la Wayback Machine. Créée par l’Internet Archive, elle explore régulièrement des millions de sites web pour en capturer des clichés à des dates précises. Chaque page archivée est stockée sur leurs serveurs et peut être consultée gratuitement par n’importe qui. Cela permet, par exemple, de retrouver un article supprimé, de voir l’évolution du design d’un site, ou encore d’analyser comment une information a été modifiée au fil du temps. La Wayback Machine ne se contente pas de stocker les pages actuelles, elle garde aussi la mémoire des contenus disparus. C’est à la fois une formidable ressource pour la recherche et un outil de transparence publique. Mais cette ouverture est aussi sa faiblesse: des robots peuvent s’en servir pour aspirer d’immenses volumes de données, parfois à des fins commerciales. C’est précisément ce que Reddit veut freiner.

La mise en place de ces restrictions a commencé dès aujourd’hui et devrait s’intensifier dans les jours à venir. Reddit assure avoir prévenu l’Internet Archive en amont pour leur expliquer la mesure avant son entrée en vigueur. Toujours selon Rathschmidt, la plateforme avait déjà exprimé ses inquiétudes dans le passé sur la facilité avec laquelle des tiers pouvaient extraire massivement du contenu depuis les archives publiques.

Reddit applique depuis quelque temps un contrôle et une monétisation pour l’accès à ses données. Car si la plateforme coupe le robinet pour certains, elle n’hésite pas à l’ouvrir, moyennant finance, pour d’autres. En 2024, elle a signé un accord avec Google pour que ses données alimentent à la fois le moteur de recherche et les modèles d’IA développés par le géant californien. Quelques mois plus tard, elle a commencé à bloquer les principaux moteurs de recherche qui ne passaient pas à la caisse.

Ce virage avait déjà été amorcé en 2023, lors de la controverse autour de son API. À l’époque, elle avait multiplié les restrictions, forçant plusieurs applications tierces populaires à fermer boutique. La justification officielle: ces API étaient massivement utilisées pour entraîner des modèles d’intelligence artificielle sans contrepartie financière. Cette décision avait déclenché un vaste mouvement de protestation, avec des milliers de communautés fermant temporairement leurs portes en signe de désaccord.

Depuis, Reddit joue un jeu d’équilibriste entre partenariats lucratifs et défense de ses données. En plus de Google, le réseau communautaire a également conclu un accord avec OpenAI. Mais les relations avec d’autres acteurs du secteur sont plus tendues: en juin dernier, il a porté plainte contre Anthropic, l’accusant de continuer à extraire du contenu malgré des assurances contraires.

Pour l’Internet Archive, cette décision est un coup dur, même si son équipe reste mesurée dans ses réactions. Mark Graham, directeur de la Wayback Machine, a confirmé que les deux organisations entretiennent une relation de longue date et qu’elles sont en discussions continues au sujet de cette limitation. Mais derrière les déclarations officielles, le message est clair: l’ère de l’accès illimité et gratuit aux données des grandes plateformes touche à sa fin.

Reddit n’est pas un cas isolé – Autres tensions autour de l’archivage du web

Twitter/X : en 2022, le réseau social, aujourd’hui propriété d’Elon Musk, a bloqué l’accès de la Wayback Machine à certains profils et tweets, officiellement pour des raisons de respect de la vie privée, officieusement pour mieux contrôler la diffusion de ses données.
Meta (Facebook/Instagram) : les archives publiques ont toujours été limitées par un accès restreint, mais ces dernières années, Meta a renforcé ses systèmes anti-scraping pour bloquer les collectes massives de données, y compris par des chercheurs.
YouTube : l’archivage des vidéos est devenu un terrain miné, car la plateforme supprime régulièrement les copies mises en ligne par l’Internet Archive, invoquant des questions de droits d’auteur.
Sites de presse : plusieurs grands médias américains et européens ont récemment mis en place des systèmes bloquant l’indexation de leurs articles dans la Wayback Machine, craignant une perte de contrôle sur la monétisation de leurs contenus.

Au-delà du cas Reddit, c’est tout l’écosystème de l’archivage et de la mémoire numérique qui est en question. La Wayback Machine a toujours été considérée comme un bien commun du web, un outil essentiel pour chercheurs, journalistes, historiens et simples curieux. Pouvoir remonter dans le temps pour vérifier l’évolution d’un site, retrouver des informations effacées ou étudier la manière dont un sujet était traité à une époque donnée est une ressource précieuse. Mais à mesure que les données deviennent un carburant stratégique pour l’intelligence artificielle, cette ouverture devient aussi une porte d’entrée pour des usages massifs et parfois abusifs.

Dans ce bras de fer entre ouverture et contrôle, l’issue reste incertaine. Les archivistes du web cherchent des solutions techniques et juridiques pour continuer à préserver le passé numérique tout en respectant les règles de chaque plateforme. De leur côté, les géants du net, Reddit en tête, affinent leurs stratégies pour faire face à la ruée des IA sur les données publiques.

Pour l’utilisateur lambda, les conséquences se feront sentir insidieusement: moins de contenus consultables, moins de possibilités de vérifier l’évolution d’une discussion ou de retrouver des échanges disparus. Le web, qui semblait jusqu’ici une immense bibliothèque à ciel ouvert, risque de se fragmenter en une mosaïque de zones accessibles ou verrouillées derrière des accords commerciaux.

L’affaire Reddit–Internet Archive pourrait donc marquer un grand changement. Non seulement elle illustre la manière dont l’IA bouleverse l’économie de la donnée, mais elle pose aussi une question fondamentale: que voulons-nous préserver du web, et à quel prix ?