La caza digital

La Web y la IA

Desde los primeros momentos de masificación de internet viene la disputa por los derechos de autor en el ciberespacio. Los iniciales desencuentros entre propietarios de contenidos y empresas de internet se dieron por la clasificación de contenidos de los buscadores y se prolongaron con el auge de las redes sociales (RS). En 1990, cuando la World Wide Web (WWW) estaba aún en sus primeras etapas de desarrollo, se presentaron los primeros escarceos.

En 1994, la editorial francesa Hachette acusó a Yahoo! de violar sus derechos de autor, al indexar información o datos de la editorial y mostrar dicho contenido sin su consentimiento en su portal. La demanda al final no prosperó y fue un tribunal francés quien determinó que Yahoo! no violaba los derechos de autor de dicha editorial al proporcionar enlaces a su contenido.

Un año después, la editorial estadounidense HarperCollins demandó a CompuServe por infracción de derechos de autor ya que daba acceso a su contenido a través de su servicio de búsqueda. También en ese caso la demanda no prosperó en los tribunales estadounidenses, que resolvieron que CompuServe no infringía los derechos de autor de HarperCollins al proporcionar acceso a su contenido a través de su motor de búsqueda.

Estas fueron las primeras semillas de una disputa que se ha mantenido viva entre las empresas de las nuevas tecnologías, de internet, y las firmas y propietarios de contenidos que no están de acuerdo con la indexación de contenidos, así como con el posteo por parte de los usuarios de RS que reproducen y publican información protegida por derechos de autor.

Pero conforme el tiempo ha caminado los tribunales ya no actúan como en el pasado, ya que para el caso de las RS han resuelto que las mismas tienen responsabilidad e incurren en infracciones de derechos de autor si no toman medidas pertinentes para evitar que los usuarios publiquen contenido protegido por derechos de autor. Esto se debe a cambios en la legislación de derechos de autor derivados de las quejas, presión y exigencias de los propietarios de contenidos. Sólo así puede explicarse en gran parte que la Unión Europea haya impulsado la Directiva de Derechos de Autor en el Mercado Digital (DSM) que estipula que los buscadores antes de indexar contenido deben obtener el consentimiento de los propietarios de derechos de autor.

Con el auge de la inteligencia artificial (IA) los propietarios de contenidos de nuevo refieren que su trabajo se usa libremente por las grandes tecnológicas para crear nuevas herramientas de IA, entrenarse y perfeccionarse. Es así como bots estilo Common Crawl extraen y almacenan miles de millones de páginas de contenidos para entrenar a la misma IA.

Los creadores y propietarios de contenidos consideran que los acuerdos alcanzados en los años noventa para que los rastreadores indexaran información para mejorar los resultados en los motores de búsqueda y mostrarlos después en forma de enlaces a miles de millones de consumidores potenciales, fue lo que permitió a ambas partes beneficiarse, ya que los enlaces remitían a los sitios y así se veían favorecidos con las visitas de las personas.

Ahora, sin embargo, la IA generativa y los grandes modelos de lenguaje (LLM) han trastocado completamente el escenario, los rastreadores web pasan a desempeñar otros papeles. Si anteriormente los rastreadores web se usaban para indexar y clasificar datos, así como diversos contenidos, en la actualidad la IA generativa y los LLM, son capaces de dar paso a creaciones o contenido web diferente, nuevo, tomando como referencia los artículos y blogs de los cuales extraen los datos, lo mismo acontece con el video y el mismo código. De esa manera, los propietarios de contenidos no pueden tener control, o al menos detectar cómo se usa y distribuye su contenido de forma que no es ya descabellados que un propietario de un sitio web cree un artículo original, pero un rastreador web haga una versión generativa de ese artículo y se publique en otro sitio de manera «maquillada», si se puede decir.

Las promocionadas virtudes de la IA —Aria, Bing, Bard, Perplexity y otras— como crear contenido web de calidad y capaz de competir con el generado por humanos, se aprecia en el campo de la escritura de notas periodísticas, cuentos, piezas literarias y musicales, o guiones. Si bien en muchos casos no son de alta calidad, se puede decir que han dado paso a una etapa muy rica en generación de contenidos. Pero también, tenemos que ahora se usa la IA para falencias, para la generación de contenido falso. Al mismo tiempo hay nuevas herramientas: DeepMind ha desarrollado Gato, un modelo de lenguaje multipropósito que es usado por las grandes empresas como Google, Open AI o Microsoft.

Por eso, de nuevo, los propietarios de contenido acuden a una vieja y tosca herramienta para bloquear los rastreadores implementando robots.txt con el objetivo de conformar una valla protectora y excluir rastreadores específicos. A pesar de no ser eficaz por las posibilidades que tiene la misma IA de saltarse las limitaciones que establece robots.txt, lo que es cierto es que esto es una discusión intensa que da paso a posturas apasionadas (shre.ink/T0uO).

Lo real en este momento es que los efectos de esta controversia están ya a la vista: diversas herramientas como Bard, Aria y otras han dejado de proporcionar enlaces o ligas resultado de esas disputas sobre derechos de autor. Lo absurdo de esto es que dichos modelos de lenguaje ofrecen sus respuestas apoyándose en una gran cantidad de datos que extraen de libros, artículos sitios web y otras fuentes más, pero ya no proporcionan la fuente de donde los obtienen, lo que al final termina afectando más a quienes son la fuente primaria de la información, pero también a quienes usan esas herramientas de IA que no saben de dónde procede la información y en tal contexto la pregunta es: ¿Quién pierde más en todo esto?

@tulios41

PorAntulio Sánchez

Por Antulio Sánchez