La IA podría volverse en contra de Internet Archive
En los últimos meses, varios medios de comunicación han comenzado a restringir el acceso de los robots de Internet Archive a sus contenidos.
El The Guardian eliminó algunas páginas de Wayback Machine para proteger su contenido. El New York Times y Reddit ha tomado medidas similares para controlar el acceso a sus archivos.
Hasta ahora, a través de su herramienta Wayback Machine, periodistas, investigadores y usuarios comunes han podido consultar versiones antiguas de páginas web desaparecidas, seguir la evolución del discurso público o documentar acontecimientos políticos y sociales. Sin embargo, el auge acelerado de la IA está alterando profundamente esta labor.
¿A qué se debe que los medios se retiren de Internet Archive? Al analizar sus registros de consultas, los bots de Internet Archive estuvieron entre los visitantes más frecuentes en The Guardian. Esta es la razón por la cual el medio eliminó sus artículos del motor interno de la biblioteca para evitar que las empresas de IA extrajeran masivamente su contenido.
El New York Times siguió su ejemplo, mientras que otros medios de comunicación estadounidenses e internacionales reevaluaron sus archivos digitales para restringir el acceso a dichos bots. Sólo las páginas destinadas al público en general permanecen accesibles a través del Máquina Wayback.
Ahora, las páginas de inicio regionales y las secciones temáticas de estos medios permanecen visibles, pero los artículos individuales han quedado ocultos.
El mundo de la prensa estadounidense teme que los robots estructuren automáticamente bases de datos de texto e imágenes para entrenar modelos de IA, sin autorización. Como decimos, Reddit también tomó una medida similar para sus foros y perfiles archivados.
Los bots en cuestión recopilan URL y contenido automáticamente. Las empresas de IA pueden entonces aprovechar estos datos para sus modelos de procesamiento del lenguaje o de reconocimiento de imágenes. Según Mark Graham, director de Wayback Machine, algunas empresas habían generado decenas de miles de solicitudes por segundo para extraer texto de los archivos, lo que provocaba sobrecargas temporales del servidor.
Brewster Kahle, fundador de Internet Archive, ha señalado que la organización había instalado sistemas de limitación de velocidad y filtros de red para controlar la recolección masiva, pero no prohibió ningún robot específico. La restricción decidida por los medios es independiente de Internet Archive y sólo está motivada por el deseo de los medios de proteger sus contenidos.
A finales de 2025, Nieman Lab analizó archivos robot.txt de 1.167 webs de noticias para evaluar el acceso de los bots de Internet Archive. Se han identificado cuatro bots que se utilizan para la extracción automática de contenido. De estos sitios, 241 prohíben al menos uno de estos bots y 226 prohíben dos de ellos. La mayoría pertenece a USA Today Co., anteriormente Gannett, que bloqueó el acceso para evitar la extracción de contenido local por parte de las IA.
Algunos medios reforzaron estas medidas prohibiendo hasta tres robots. Estas decisiones redujeron la disponibilidad de contenido histórico para los usuarios habituales y transformaron el acceso a Internet Archive en un viaje complicado de acceso a la información.
Los datos muestran que se utilizaron bots para recopilar contenido para entrenar modelos de Google y Meta. Los registros públicos contienen texto, imágenes y vídeos que se han utilizado en conjuntos de datos como C4, utilizado para el aprendizaje automático.
Los editores temen que estas prácticas legítimas de archivo se conviertan en una recopilación comercial por parte de actores externos. Mientras, una vez más la gran herramienta de información histórica de Internet se ve de nuevo afectada.




