Capacitación de los modelos de IA y derechos de autor

Imagen de John Conde en Pixabay
La Oficina de Derechos de Autor de los Estados Unidos ha publicado la parte 3 de su serie completa sobre Copyright e Inteligencia Artificial.
Si en la segunda abordaba el copyright y los derechos de autor, en esta tercera parte (que es aún una prepublicación) se trata el tema polémico de si la capacitación de modelos de IA generativos en obras con derechos de autor constituye un uso justo o requiere la licencia de los titulares de derechos.
Este último informe completa una parte crucial del análisis de la Oficina centrándose en el uso de materiales con derechos de autor en la capacitación de modelos de IA. Todavía se espera una sección futura sobre las implicaciones de las licencias.
En este contexto, las principales compañías de tecnología han seguido estrategias divergentes con respecto al uso de contenido con derechos de autor en sus sistemas de IA.
El informe previo a la publicación de 107 páginas proporciona un análisis exhaustivamente detallado de cómo el desarrollo generativo de la IA implica la ley de derechos de autor y cuándo puede aplicarse la doctrina del uso justo. En este caso, intenta establecer un marco matizado para la evaluación caso por caso.
La Oficina explica que las redes neuronales modernas con miles de millones de parámetros pueden calcular transformaciones altamente complejas, como la conversión de texto a vídeo, y estos parámetros a menudo son tratados como propietarios por los desarrolladores.
Para los modelos de lenguaje específicamente, el informe detalla cómo se entrenan a través de “pre-entrenamiento generativo”, que implica predecir cada token siguiente (palabra o fragmento de palabra) en función del contexto anterior.
El informe analiza sistemáticamente cómo el desarrollo de la IA implica los derechos exclusivos de los propietarios de derechos de autor en múltiples etapas como:
- Recopilación y curación de datos implica múltiples copias de obras a través de la descarga, la conversión de formato y la creación de conjuntos de datos.
- Entrenamiento implica los derechos de reproducción tanto a través de la copia temporal durante el proceso de capacitación como potencialmente a través de la “memorización”, donde los modelos conservan el contenido con derechos de autor.
- Generación Aumentada por Recuperación (RAG) implica copiar trabajos en bases de datos de recuperación o de fuentes externas durante la generación.
- Salidas a veces puede replicar o parecerse mucho a las obras con derechos de autor, lo que puede infringir la reproducción y los derechos de trabajo derivados.
Por otra parte, el análisis de uso justo del informe examina cada uno de los cuatro factores legales con mayor profundidad.
Para el primer factor (propósito y carácter de uso), la Oficina concluye que los modelos de bases de capacitación sobre diversos conjuntos de datos “a menudo serán transformadores”. Pero el informe rechaza explícitamente dos argumentos comunes presentados por las empresas de IA:
Ese entrenamiento de IA es inherentemente “no expresivo”, a lo que Oficina responde que los modelos de lenguaje absorben “no sólo el significado y las partes del habla de las palabras, sino cómo se seleccionan y organizan a nivel de oración, párrafo y documento”, es decir, la esencia de la expresión lingüística.
Cuando se aduce que el aprendizaje de la IA es como el aprendizaje humano, la Oficina señala que “el uso justo no excusa todos los actos humanos realizados con el propósito de aprender” y que la IA difiere de los humanos en la creación de copias perfectas y operando a “velocidad y escala sobrehumanas.”
Sobre el cuarto factor (efectos de mercado), el informe identifica varios daños potenciales:
- Ventas perdidas cuando los modelos producen contenido sustancialmente similar al de los trabajos de entrenamiento.
- Dilución del mercado cuando el contenido generado por IA compite con obras creadas por humanos.
- Oportunidades de licencia perdidas donde los mercados existen o se están desarrollando.
- Sustitución relacionada con RAG (generación aumentada por recuperación) cuando los sistemas recuperan trabajos con derechos de autor y generan respuestas que satisfacen las necesidades de los usuarios para el original.
La Oficina concluye que el cuarto factor no debe leerse “tan estrechamente” como para ignorar estos efectos más amplios del mercado, señalando que “la velocidad y la escala a la que los sistemas de IA generan contenido representan un grave riesgo de diluir los mercados para trabajos del mismo tipo que en sus datos de capacitación.”
Asimismo, el informe examina ampliamente los marcos de licencias, señalando que las licencias voluntarias están ocurriendo cada vez más en todos los sectores creativos. Reconoce que las licencias a escala enfrentan desafíos, particularmente para obras creadas fuera de las industrias profesionales o donde la propiedad es difusa.
Las licencias colectivas reciben especial atención como un enfoque prometedor que puede desempeñar un papel importante en la facilitación de la capacitación en IA, reduciendo lo que de otro modo podrían ser miles o incluso millones de transacciones a un número manejable.
Mientras que algunos comentaristas plantearon preocupaciones antimonopolio con licencias colectivas, la Oficina alienta al Departamento de Justicia a proporcionar orientación “ incluso sobre el beneficio de una exención antimonopolio en este contexto.»
El informe examina cómo otras jurisdicciones están abordando la capacitación en IA, particularmente las excepciones de minería de datos y textos de la Unión Europea que incluyen disposiciones de exclusión voluntaria para los propietarios de derechos de autor.
La excepción de Japón permite que el desarrollo de IA se use sólo cuando no sea para “disfrutar personalmente…los pensamientos o sentimientos expresados” en las obras, mientras que el Reino Unido está considerando expandir su «excepción de investigación».