Hoy, hablaremos del papel FUNDAMENTAL de la calidad de los datos en Machine Learning, y por qué una baja calidad de éstos produce sesgos y discriminaciones.
La calidad de los datos juega un papel crítico en el Machine Learning. ¿Por qué? Pues porque cada modelo de Machine Learning se entrena y se evalúa utilizando conjuntos de datos, y las características y calidad de estos conjuntos de datos influirán DIRECTAMENTE en el resultado de un modelo.
Una definición de «calidad de datos» es si los datos utilizados son «adecuados para el propósito». En consecuencia, la calidad de los datos depende en gran medida del propósito de su uso.
¿Cuál es el causante de las discriminaciones y sesgos en las predicciones de un algoritmo? Varios motivos, pero podemos decir, a grandes rasgos, que uno de los motivos principales es la diferencia entre el contexto en el que estas predicciones van a ser implementadas y la calidad de los datos con los que ese algoritmo se ha entrenado.
Estos desajustes pueden tener consecuencias MUY GRAVES cuando las predicciones a través de los algoritmos de Machine Learning se utilizan en contextos de alto riesgo como la justicia predictiva, la contratación de personal, las finanzas, o los seguros.
De particular preocupación son los ejemplos recientes que muestran que los modelos de Machine Learning pueden reproducir, o amplificar, los sesgos sociales no deseados reflejados en los conjuntos de datos.
Los ejemplos de estos problemas incluyen en las discriminaciones en el género en las traducciones del lenguaje surgidas a través del procesamiento del lenguaje natural, discriminaciones del tono de la piel en los sistemas de reconocimiento facial debido a baja calidad de datos.
Como ejemplo, Amazon canceló el desarrollo de un sistema de contratación automatizado porque el sistema amplificó los prejuicios de género en la industria tecnológica.
Y, en este otro paper, «Man is to Computer Programmer as Woman is to Homemaker? Debiasing Word Embeddings» se mostró que las incrustaciones en baja dimensión de palabras en inglés inferidas de artículos de noticias reproducen discriminaciones de género al completar la analogía «el hombre es para el programador de ordenadores como la mujer para X» con el estereotipo «ama de casa».
Los empleadores ahora usan sistemas similares para elegir a sus empleados, monitorizando su actividad para mantenerlos productivos, sanos y prediciendo su fracaso, éxito, renuncia o incluso suicidio, de modo que puedan tomar los primeros pasos para mitigar los riesgos.
La Tecnología de Reconocimiento Facial está más que en tela de juicio por las discriminaciones que produce. Joy Buolamwini en este vídeo explica cómo el software de reconocimiento facial no reconoce su cara por ser mujer de raza negra, y explica los motivos.
A su vez, Joy Buolamwini y Gebru en el paper «Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification∗» encontraron que tres empresas que desarrollan Tecnología de Reconocimiento Facial reconocían casi al 100% a los hombres de piel más clara (hombres de raza blanca). Mientras que las tasas de error para las mujeres de piel más oscura llegaban al 33%.
¿Por qué? Por la falta de conjuntos de datos etiquetados por etnicidad.
La discriminación en la toma de decisiones algorítmicas basadas en datos puede ocurrir debido a varias razones:
La discriminación puede ocurrir durante el diseño, prueba e implementación de algoritmos utilizados para el reconocimiento facial, a través de sesgos que se incorporan, conscientemente o no, en el algoritmo en sí.
Si existen diferencias en el rendimiento de un algoritmo, generalmente es muy difícil y, a veces, imposible eliminar el sesgo a través de soluciones matemáticas o programáticas. Una causa importante de discriminación es la calidad de los datos utilizados para desarrollar algoritmos y software.
Para ser efectivo y preciso, el software de reconocimiento facial necesita ser alimentado con grandes cantidades de imágenes faciales. Más imágenes faciales conducen, en principio, a predicciones más precisas.
Sin embargo, la precisión no solo está determinada por la cantidad de imágenes faciales procesadas sino también por la calidad de tales imágenes faciales. La calidad de los datos requiere también un conjunto representativo de rostros que reflejen diferentes grupos de personas.
Pero, como dijimos antes, hasta la fecha, las imágenes faciales utilizadas para desarrollar algoritmos en el mundo occidental a menudo representan en exceso a los hombres blancos, con un menor número de mujeres y / o personas de otros orígenes étnicos.
La medición de la vida a través de algoritmos significa que se pueden hacer predicciones, clasificaciones y decisiones sobre las personas basadas en modelos algorítmicos formados en grandes conjuntos de datos de tendencias históricas.
El riesgo de mal uso involuntario del conjunto de datos aumenta cuando los desarrolladores no son expertos, ya sea en el Machine Learning o en el dominio donde se utilizará el Machine Learning.
Esta preocupación es particularmente importante debido a la mayor prevalencia de herramientas que «democratizan la IA» al proporcionar un fácil acceso a conjuntos de datos y modelos para uso general.
Y, justo por este motivo, es TAN IMPORTANTE que las organizaciones que usan algoritmos predictivos documenten la procedencia, la creación y el uso de conjuntos de datos como primer paso para evitar resultados discriminatorios.
Pero, a pesar de la importancia de los datos para el Machine Learning, no existe un proceso estandarizado para documentar conjuntos de datos de aprendizaje automático. De hecho, es un proceso del que se habla muy poco.
Además, los algoritmos de clasificación y puntuación también plantean desafíos en términos de su complejidad, opacidad y sensibilidad a la influencia de los datos.
Los usuarios finales e incluso los desarrolladores de modelos enfrentan dificultades para interpretar un algoritmo y sus resultados de clasificación, y esta dificultad se agrava aún más cuando el modelo y los datos sobre los que se entrena son propietarios o confidenciales, como suele ser el caso.
Pero, ¿cómo sería el proceso de toma de decisión de un algoritmo? Está muy bien explicado en el paper: “The Dataset Nutrition Label: A Framework To Drive Higher Data Quality Standards” con el siguiente diagrama, y de la siguiente manera:
Todo empieza con una pregunta u objetivo. Se selecciona un conjunto de datos etiquetados de RESPUESTAS ANTERIORES para que dé respuesta a la pregunta orientadora.
Y, estos datos, queridos amigos, son los que se usan para entrenar el algoritmo, para que éste responda a la pregunta formulada. Que la pregunta, u objetivo, puede ser desde identificar a las personas a través de tecnología de reconocimiento facial, hasta evaluar la personalidad de un candidato en un test, o vídeo de 30 segundos, o puntuar el riesgo de impago de un grupo de individuos que viven en un código postal determinado, o predecir el riesgo de cometer delito de ciertos delincuentes, o predecir cuándo un usuario se va a morir, o predecir si tiene riesgo de sufrir una depresión o de cometer suicidio, o predecir qué películas quiere ver, o canción escuchar…
De esta manera, las RESPUESTAS PASADAS (o del pasado) se utilizan para PREDECIR LAS RESPUESTAS DEL FUTURO. Esto es particularmente problemático cuando los resultados de eventos pasados están contaminados con sesgos (a menudo, involuntarios), y le sumamos la dudosa capacidad de los algoritmos para predecir comportamientos y acontecimientos.
Los modelos a menudo quedan bajo escrutinio (es decir, se revisan) pero sólo después de que se construyan, capaciten y desplieguen. Si se descubre que un modelo sigue repitiendo un sesgo, por ejemplo, una indexación excesiva para una raza o género en particular, el especialista en datos regresa a la etapa de desarrollo para identificar y abordar el problema.
PROBLEMA: Este ciclo de retroalimentación es costoso y no siempre mitiga el daño. El tiempo y la energía en realizar este escrutinio es de un coste altísimo y, si el algoritmo está en uso, ya pudo haber causado los daños que se querían evitar: discriminación por sexo, raza, edad, orientación sexual, etc.
Otro gran problema que afecta a la calidad de los datos es la procedencia de esos datos. En el paper “Data quality and artificial intelligence – mitigating bias and error to protect fundamental rights” de la Agencia de los Derechos Fundamentales de la Unión Europea (FRA) se describen datos comparativos sobre el uso de datos de Internet por parte de las empresas Y DESTACA EL SESGO EN LOS DATOS DE INTERNET A NIVEL GENERAL EN LA UE.
Todo empieza con una pregunta u objetivo. Se selecciona un conjunto de datos etiquetados de RESPUESTAS ANTERIORES para que dé respuesta a la pregunta orientadora.
Y, estos datos, queridos amigos, son los que se usan para entrenar el algoritmo, para que éste responda a la pregunta formulada. Que la pregunta, u objetivo, puede ser desde identificar a las personas a través de tecnología de reconocimiento facial, hasta evaluar la personalidad de un candidato en un test, o vídeo de 30 segundos, o puntuar el riesgo de impago de un grupo de individuos que viven en un código postal determinado, o predecir el riesgo de cometer delito de ciertos delincuentes, o predecir cuándo un usuario se va a morir, o predecir si tiene riesgo de sufrir una depresión o de cometer suicidio, o predecir qué películas quiere ver, o canción escuchar…
De esta manera, las RESPUESTAS PASADAS (o del pasado) se utilizan para PREDECIR LAS RESPUESTAS DEL FUTURO. Esto es particularmente problemático cuando los resultados de eventos pasados están contaminados con sesgos (a menudo, involuntarios), y le sumamos la dudosa capacidad de los algoritmos para predecir comportamientos y acontecimientos.
Los modelos a menudo quedan bajo escrutinio (es decir, se revisan) pero sólo después de que se construyan, capaciten y desplieguen. Si se descubre que un modelo sigue repitiendo un sesgo, por ejemplo, una indexación excesiva para una raza o género en particular, el especialista en datos regresa a la etapa de desarrollo para identificar y abordar el problema.
PROBLEMA: Este ciclo de retroalimentación es costoso y no siempre mitiga el daño. El tiempo y la energía en realizar este escrutinio es de un coste altísimo y, si el algoritmo está en uso, ya pudo haber causado los daños que se querían evitar: discriminación por sexo, raza, edad, orientación sexual, etc.
Otro gran problema que afecta a la calidad de los datos es la procedencia de esos datos. En el paper “Data quality and artificial intelligence – mitigating bias and error to protect fundamental rights” de la Agencia de los Derechos Fundamentales de la Unión Europea (FRA) https://fra.europa.eu/sites/default/files/fra_uploads/fra-2019-data-quality-and-ai_en.pdf se describen datos comparativos sobre el uso de datos de Internet por parte de las empresas Y DESTACA EL SESGO EN LOS DATOS DE INTERNET A NIVEL GENERAL EN LA UE.
Los datos de Internet sólo pueden reflejar un subconjunto de toda la población, lo que está relacionado con el acceso limitado a Internet y los diferentes niveles de participación en los servicios online, como las redes sociales.
Muchas organizaciones usan datos de internet, como las compañías de seguros que usan datos de las redes sociales para crear un sistema de puntuación de riesgo de clientes potenciales, o el desarrollo de algoritmos de reconocimiento facial basados en imágenes de Internet.
Entre las empresas que utilizan big data, la fuente más importante son los datos de geolocalización de dispositivos portátiles, que son principalmente información sobre dónde están las personas y cómo se mueven, medidas a través de la información de smartphones.
El mismo paper afirma que, CADA SEGUNDO, las empresas que utilizan Big Data hacen uso de dichos datos (49%). Del mismo modo, el 45% del Big Data que utilizan las empresas es proveniente de redes sociales.
Otras fuentes de datos incluyen dispositivos o sensores inteligentes de las empresas, que son utilizados por el 33% de todas las empresas que utilizan análisis de Big Data.
Esto nos muestran que los datos de los móviles y redes sociales son fuentes importantes para el análisis de big data, que potencialmente pueden usarse para el desarrollo de algoritmos de aprendizaje automático y decisiones comerciales. Por ejemplo, en el área de seguros y de contratación de personal, estas fuentes no convencionales de tipos de datos se utilizan cada vez más.
El uso de datos de Internet plantea muchas preguntas en relación con quién está incluido en los datos y en qué medida la información incluida es adecuada para su propósito.
La aplicación de la ley de protección de datos a la cuestión de la calidad de los datos para construir tecnologías y algoritmos relacionados con la IA no está clara.
La legislación de protección de datos ofrece una orientación mínima sobre el tema: el Principio de Exactitud de los datos en el Reglamento General de Protección de Datos (RGPD) está relacionado con la calidad de los datos, pero en un sentido muy limitado, ya que solo se centra en la obligación de mantener los datos personales actualizados.
Llegados a este punto, ¿qué soluciones se podrían aportar?. Como dije en el artículo, no hay una solución legal, pero sí se pueden plantear soluciones éticas como:
1. Evaluación del Impacto de los Derechos Fundamentales para garantizar una aplicación de las tecnologías que cumpla con los derechos fundamentales, independientemente del contexto en el que se emplee. Dicha evaluación debe evaluar TODOS los derechos afectados.
2. Evaluación del Impacto de la Protección de Datos y Ética.
3. Como manera de mitigar la opacidad de los algoritmos propietarios, que las organizaciones muestren la procedencia de los datos que han usado para entrenar su algoritmo y cuán adecuados son para su propósito.
4. Soluciones técnicas. Hay soluciones técnicas desarrolladas en estos papers (a modo de ejemplo): “Datasheets for datasets” y “The Dataset Nutrition Label: A Framework To Drive Higher Data Quality Standards”
Y también recomiendo leer “El reto Big Data para la estadística pública” de Alberto González Yanes.
Como siempre, gracias por leerme.