Escanear libros para entrenar IA es legal en Estados Unidos

Imagen de Brett Jordan en Unplash
Según una revolucionaria sentencia judicial dictaminada por un juez estadounidense escanear libros para entrenar a una IA es legal.
Afirma, en resumen, que una startup de IA tiene derecho a entrenar su modelo de IA con copias escaneadas de libros físicos, incluso sin el permiso de sus autores.
Se trata de una sentencia sin precedentes que resuelve –aunque sólo parcialmente- la espinosa cuestión del uso de obras protegidas por derechos de autor para entrenar sistemas de inteligencia artificial.
Después de las múltiples demandas por autores, editores y asociaciones de escritores a empresas como ChatGPT por infracción de derechos de autor, esta sentencia da un giro a todas las resoluciones que hasta ahora habíamos visto.
En este caso concreto el origen está en junio de 2024, cuando tres escritores estadounidenses demandaron a Anthropic. Con esta sentencia un año después, la startup estadounidense ha ganado su primera ronda, aunque aún está lejos de haber ganado la batalla.
En este caso, Anthropic fue acusada de comprar legalmente libros físicos que luego fueron digitalizados en la base de datos de entrenamiento de su agente conversacional, Claude. Sin embargo, la startup no había solicitado permiso a los autores ni a los titulares de los derechos de autor de estas obras para dicho escaneo y entrenamiento, para gran consternación de estos últimos, quienes demandaron a la empresa por infracción de derechos de autor.
El juez de California que lleva el caso que aquí comentamos, William Alsup, ha dictaminado, por primera vez, que entrenar sus modelos de IA con libros adquiridos legalmente, sin la autorización del autor ni del titular de los derechos de autor, constituía un «uso legítimo», una excepción a la ley de derechos de autor en el derecho estadounidense.
Es decir, Anthropic tendría pleno derecho a comprar y escanear estos libros para entrenar a su modelo de IA, Claude, sin el consentimiento de sus autores. No hubo «duplicación» de cada obra como tal, ya que Anthropic, tras comprar y digitalizar estos libros, destruyó las obras físicas, explicó el juez californiano. Por lo tanto, las startups de IA tienen derecho, en Estados Unidos, a escanear los libros comprados para entrenar a sus LLM, según esta decisión.
Según el juez William Alsup, reconocido internacionalmente como especialista en nuevas tecnologías, este uso es similar al que permite a los escolares aprender a escribir bien.
El razonamiento aplicado a la IA es el siguiente: un ser humano que aprende a leer y escribir, y años después publica un libro, no infringe ninguna ley de derechos de autor, y la IA haría lo mismo en este caso, según el juez.
El alcance de esta decisión, aunque sin precedentes, debe ponerse matizarse. El fallo se limita a los libros físicos adquiridos legalmente; el uso de libros pirateados con fines de formación no se incluye en esta excepción de derechos de autor.
El juez señala que en 2021, el cofundador de Anthropic, Ben Mann, descargó libros de una biblioteca online con 196.640 libros que, según él, se habían recopilado a partir de copias no autorizadas de libros protegidos por derechos de autor. Ese mismo año, descargó al menos cinco millones de copias de libros, y en 2022, otros dos millones de copias de otra plataforma.
Esto no se consideraría, por tanto, «uso legítimo». Esto significa que usar libros descargados sin permiso para el entrenamiento de IA violaría, a priori, los derechos de autor.
Este es un punto reiterado con insistencia por el juez Alsup, quien parece fallar a favor de los autores y titulares de derechos en este asunto. La cuestión del uso de libros pirateados en la web se resolverá en una sentencia separada, explicó el juez estadounidense, sin especificar una fecha.
De hecho, Anthropic podría tener que, ahora sí, pagar millones de dólares en daños.