Ley de IA, un ex-ministro francés, Microsoft y los derechos de autor

¿Qué tienen que ver la Ley de IA, un ex-ministro francés, Microsoft y los derechos de autor?

Durante las negociaciones de la Ley de IA del pasado diciembre pasaron muchas cosas que la mayoría de las personas no supieron, o no se enteraron. Ustedes dirán que esto ya es agua pasada, pero en cierta forma, estamos “sufriendo” ya sus consecuencias.

La propuesta inicial de la AIA (Ley de IA) clasificaba los sistemas de IA en riesgos, (de hecho, es lo que regula, el riesgo de los sistemas de IA). Sistemas de IA prohibidos, Sistemas de IA de riesgo alto, Sistemas de IA de riesgo medio, y Sistemas de IA de riesgo bajo o sin riesgo.

La ley lo que hace es regular los sistemas de IA de riesgo alto. No me voy a detener aquí, sino en la llegada de la IA generativa y el revuelo que provocó en el regulador porque si dejábamos esta clasificación los LLMs (Grandes modelos de lenguaje) como ChatGPT, prácticamente no se verían afectados por esta clasificación.

Quienes sufrirían las consecuencias serían las PYMEs europeas que, a través de la API de ChatGPT, por ejemplo, quisieran integrar esta herramienta en sus negocios. Entonces, TODO EL PESO DE LA LEY recaería en ellos, y los ahogaría en burocracia y en gastos, poniendo en riesgo su existencia.

Entonces, ¿qué hacer? Había que buscar una solución a este problema. Se barajó no regular la IA generativa, pero eso hubiera provocado un revuelo social y político. Y si se regulaba, había que introducir nuevos preceptos a la ley que se adaptasen a esta nueva realidad.

Pues si éramos pocos… Francia, Alemania e Italia se rebelan ante la regulación y amenazan con boicotear la ley. La razón, Francia y Alemania están desarrollando sus propias herramientas de IA Generativa y la AIA puede acabar con ellas. Francia, desarrolla Mistral https://mistral.ai/ y Alemania, Aleph Alpha https://aleph-alpha.com/

Vamos a pararnos un momentito en Francia, porque la cosa tiene para escribir una novela. Uno de los fundadores de Mistral se llama Cédric O y fue Secretario de Estado para el Sector Digital 2019-2022.

Durante su cargo político defendió a capa y espada la necesidad de regular la tecnología. Bueno, iba más lejos, hablaba de la regulación de los oligopolios, más que la tecnología, los modelos de negocio, en defensa del interés público. https://www.euronews.com/next/2021/06/18/vivatech-2021-cedric-o-says-tech-oligopoly-must-be-regulated-to-defend-the-public-interest

Pero como Groucho Marx: “Estos son mis principios, si no le gustan, tengo otros”. Pues Cédric O tira de agenda y le calienta la oreja a su ex jefe. Este le dice, espera que estos se van a enterar. https://www.politico.eu/article/france-warns-eu-parliament-against-killing-a-european-chatgpt/ https://www.ft.com/content/9339d104-7b0c-42b8-9316-72226dd4e4c0 ¡Qué clase, Cédric!

A estas alturas de las negociaciones entre el Parlamento Europeo, la Comisión Europea y el Consejo (presidido por España en este momento) la cosa estaba que ardía y había que buscar una alternativa legal, así que, literalmente, se hizo una regulación de IA generativa a la carta.

Finalmente, ¿cómo quedó la cosa? La versión consolidada de la AIA proporcionó una clasificación distinta de las categorías tradicionales de riesgo alto, medio o bajo, y conlleva un conjunto de obligaciones distintas y generales contenidas en el Título VIIIA – Artículos 52a – 52e.

El sistema de clasificación de los modelos de IA de propósito general (GPAI) se dividió en tres niveles: (i) estándar, (ii) de licencia abierta y (iii) de riesgo sistémico (basado únicamente en la potencia de cálculo).

El art 52 bis AIA dice que los modelos de IA de propósito general (GPAI) contienen riesgo sistémico si […] y me voy al punto 2: “Cuando la cantidad acumulada de cómputo utilizada para su entrenamiento medida en operaciones en coma flotante (FLOPs) es superior a 10^25.

¿Por qué se usan los FLOPs como parámetro de decisión? Por la creencia de que mayores recursos computacionales indican modelos más sofisticados, que pueden tener repercusiones más amplias en la sociedad.

De nuevo, estamos cayendo en la regulación de la tecnología. Bueno, ni eso. Se regula en base a los recursos computacionales dejando atrás (i) el contexto de aplicación, (ii) la arquitectura del modelo, y (iii) la calidad del entrenamiento, y no sólo la cantidad de recursos computacionales utilizados.

Pero aún hay un dato que me preocupa tanto o más que el anterior. Tomar el umbral de 10^25 FLOPs como parámetro de riesgo es MUY cuestionable. Los LLM con 10^24 o 10^23 FLOPs pueden ser igualmente arriesgados (por ejemplo, GPT-3; Bard).

Y porque la tendencia es reducir el tamaño de los LLM manteniendo un alto rendimiento y los riesgos asociados, como en el caso del modelo Mixtral 8x7B de Mistral.

Total, se aprueba la ley, mucha euforia en Europa, fotinchis en grupo todos con pulgares arriba, alegría europea y celebración por ser la primera ley que regula la IA. Mejor esto que nada, por supuesto, pero mi trabajo no es decir esto, sino asesorar y proteger.

El culebrón Mistral no acaba. Microsoft anuncia dos meses más tarde de haber pasado la AIA que invierte 15 M€ en Mistral. ¡Gol por toda la escuadra de Microsoft a Europa! Mistral le hizo el juego sucio mientras ellos se fumaban un puro a nuestra salud https://www.theverge.com/24087008/microsoft-mistral-openai-azure-europe

Ahora, vamos a dejar todo este circo a un lado para dejar entrar en esta historia a los derechos de autor que tanto están llevando por el camino de la amargura a los autores. ¿Y qué tiene que ver Mistral en todo esto? Se preguntarán ustedes. Esperen, esperen…

Los abogados y desarrolladores de las herramientas de IA Generativa están como locos por encontrar una fórmula legal y/o técnica que les salve de todas las demandas en contra de ellos por infringir la ley de derechos de autor.

¿Cómo? Utilizando datos sintéticos, que son datos generados por otro modelo y que se supone que no están protegidos por derechos de autor. Concretamente, utilizando un conjunto de datos llamado Cosmopedia que…

contiene libros de texto sintéticos, blogposts, historias y artículos de WikiHow. El conjunto de datos contiene 30 mill de archivos y 25 mill de tokens. El mayor conjunto de datos sintéticos abiertos hasta la fecha, y se ha publicado bajo una licencia que permite su uso comercial.

Pero este conjunto de datos se generó utilizando otro modelo que se entrenó con enormes cantidades de obras protegidas por derechos de autor sin permiso. ¿Y qué modelo fue? Como no podía ser de otra forma: Mixtral 8x7B de Mistral.

Y la Ley de IA no lo considera como modelo de IA de riesgo sistémico. Así concluyo esta historia de una situación que no ha hecho más que empezar y que estamos intentando averiguar cómo solucionar.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *