Definamos los principales problemas legales y éticos centrales:
– Invasión de la Privacidad de los individuos
– Falta de Transparencia en la toma de decisiones automatizadas
– Creación de Perfiles, su falta de regulación y las discriminaciones y sesgos resultantes
– Está en riesgo nuestra autonomía, dignidad, y nuestra libertad
Cómo podemos comprender mejor el CONTEXTO en el que nos encontramos: Explicando cómo y por qué se creó el Big Data Analytics.
¿Por qué estamos actualmente en una situación en la que la privacidad y la falta de transparencia se han convertido en problemas legales centrales?
Obviamente, se debe al rápido desarrollo tecnológico, pero tal vez sea útil para nuestra discusión sobre transparencia, privacidad y creación de perfiles, cavar un poco más profundo. Así, al comprender un poco más sobre cómo la tecnología ha cambiado en los últimos años radicalmente nuestro mundo, podemos encontrar las mejores soluciones legales y éticas.
Para ello, tenemos que hablar de ciertos hitos que marcaron la historia de la tecnología:
1er Hito: La ley de Moore:

¿Qué significa esto a efectos prácticos? “El número de transistores en cada chip de computadora se duplica cada 18 meses”. De manera que, cada 18 meses se podía adquirir el doble potencia y almacenamiento por la misma cantidad de dinero.
2º hito: Inicio de la era cognitiva de la tecnología.
La era de la computación cognitiva del Big Data empezó en el 2007, cuando se hizo ampliamente posible «cargar datos a la nube», porque el software efectivo de memoria compartida estuvo disponible, de modo que miles de computadoras podrían funcionar como una sola.
¿Cómo sucedió esto?
3 innovaciones MUY importantes:
1. En 2003, Google publicó un documento que incluía una innovación básica llamada Google File System (GFS). Este software le permitió a Google acceder y administrar una gran cantidad de datos de miles de computadoras. En este momento, el objetivo principal de Google era organizar toda la información del mundo a través de su motor de búsqueda.
2. Sin embargo, no pudieron hacerlo sin su segunda innovación básica, MapReduce, que se publicó en 2004. Estas dos innovaciones permitieron a Google procesar y explorar una gran cantidad de datos de una manera manejable.
3. Google compartió estas dos innovaciones básicas con la comunidad de código abierto, por lo que la comunidad podría aprovechar sus ideas. Aún mejor, la comunidad pudo mejorar el software y, como resultado, Hadoop se creó en 2006. Hadoop es un software de código abierto que permite que cientos de miles de computadoras para funcionar como una computadora gigante.
3er hito: Big Data disponible para todos.
¿Qué consecuencias tuvo la creación de Hadoop?
Que el Big Data fuera disponible para todos. ¿Por qué? Porque con Hadoop, la capacidad de almacenamiento fácilmente accesible para la computación emergió.
Gracias a Hadoop, las plataformas de Internet pudieron almacenar todos sus datos en muchos ordenadores sin dejar de tener acceso a sus datos.
Por ejemplo, Facebook, LinkedIn y Twitter ya existían en 2006, y comenzaron a construir en Hadoop de inmediato. Esta es la razón por la cual estas plataformas en internet se globalizaron en el año 2007, porque podían almacenar cada clic de cada usuario en cada página web.
Esto les dio una mejor comprensión de lo que los usuarios estaban haciendo. Así nació el Big Data Analytics.
Gracias a Hadoop, otras compañías nacieron en 2007, incluidas Airbnb. Amazon también lanzó Kindle y se lanzó el primer iPhone.
Según AT&T, el tráfico de datos móviles en su red inalámbrica nacional aumentó en más de un 100,000 % entre enero de 2007 y diciembre de 2014.
¿Cuáles fueron otras consecuencias?
Como ejemplo muy ilustrativo, en 2007, el coste de la secuenciación de ADN comenzó a caer drásticamente a medida que la industria de la biotecnología cambió a nuevas técnicas y plataformas de secuenciación, aprovechando toda la potencia informática y de almacenamiento que estaba explotando.
Este cambio en los instrumentos fue un punto de inflexión para la ingeniería genética y condujo a la rápida evolución de las tecnologías de secuenciación de ADN que ha ocurrido en los últimos años.
Como indican estos dos gráficos, el año 2007 fue claramente un punto de inflexión.

Tanto es así, que en el 2001 costaba 100 millones de dólares secuenciar el genoma de una sola persona.
El 30 de septiembre de 2015, Popular Science informó: «Ayer, la compañía de genética personal Veritas Genetics anunció que había alcanzado un hito: los participantes en su Programa de Genética Personal limitado, pero en constante expansión, pueden secuenciar todo su genoma por solo 1000 dólares».

En el 2007 fue cuando Watson fue creado. «Un sistema informático de propósito especial diseñado para ampliar las preguntas y respuestas profundas, análisis profundos y la comprensión de la computadora del lenguaje natural».

Watson se convirtió en la primera computadora cognitiva, combinando aprendizaje automático e inteligencia artificial.
Hoy, Watson está ocupado ingiriendo toda la investigación médica conocida sobre temas como el diagnóstico y los tratamientos contra el cáncer, como bien saben.
Pero, Watson no es sólo un gran motor de búsqueda o asistente digital. Y tampoco podemos limitar su definición diciendo que es sólo una gran computadora que está programada por ingenieros de software para realizar ciertas tareas que diseñan.
Watson representa nada menos que la «era cognitiva de la informática». Lo que hizo que Watson fuera tan rápido y preciso, no fue que en realidad estuviese «aprendiendo» per se, sino su capacidad de mejorarse a sí mismo utilizando todas sus capacidades de Big Data y redes para hacer correlaciones estadísticas cada vez más rápidas sobre más y más materia prima.
¿Cuáles fueron las consecuencias de este rápido crecimiento?
Pues que las Tecnologías Físicas, entendidas como las Nuevas Tecnologías, van en una dirección y velocidad totalmente distinta a las Tecnologías Sociales, entendidas como nuestras instituciones, Gobiernos, cultura, leyes, etc.

¿Cómo la especie humana se adapta a estos cambios tecnológicos?
Edward Teller dibujó este gráfico en una conversación mantenida con Thomas Friedman que éste reprodujo en su libro «Thank you for being late», en el que dibujó dos curvas. Una representa el progreso científico y tecnológico, y la otra, la capacidad de adaptación de la humanidad a estos cambios.

Hace mil años, el progreso científico y tecnológico aumentó tan gradualmente que el mundo podría tardar 100 años en sufrir un cambio drástico. Por ejemplo, el arco largo, como arma, le llevó siglos pasar del desarrollo al uso militar en Europa a fines del siglo XIII.
En el año 1900, la tecnología tardó entre 20 y 30 años en dar un paso lo suficientemente grande como para que el mundo se volviera cómodamente diferente. Por ejemplo, la introducción del automóvil o el avión.
Luego, la pendiente de la curva comenzó a ir casi directamente hacia arriba y fuera del gráfico con la convergencia de dispositivos móviles, conectividad de banda ancha y la nube.
Estas grandes innovaciones se difundieron rápidamente a millones de personas en todo el planeta, lo que les permitió impulsar un cambio que fue mucho más lejos, más rápido y más barato.
Y, hoy en día, el plazo de tiempo de la innovación tecnológica y científica se ha vuelto muy corto, estamos hablando de 5 a 7 años, y el gran problema es que está afectando al plazo de tiempo que la humanidad necesita para adaptarse a estos grandes cambios.
Hace 1000 años se necesitaron 3 o 4 generaciones para adaptarse a algo nuevo. En el año 1900, el tiempo de adaptación se redujo a 1 generación. Y ahora, ese plazo de tiempo es de 9 a 15 años para poder acostumbrarnos a algo nuevo.
El punto negro del gráfico, señalado con la flecha roja, ilustra que, actualmente, la tasa de cambio tecnológico y científico es más rápida que la tasa promedio a la que la mayoría de las personas puede absorber todos estos cambios.
Esto tiene muchas consecuencias negativas en nuestra sociedad que ya estamos padeciendo.
Las leyes y las Administraciones Públicas están luchando por mantenerse al día. Las compañías tecnológicas se molestan por tener que atenerse a reglas obsoletas o, lo que es peor, no hay leyes que regulen su tecnología y campan a sus anchas (es lo que sucede ahora mismo), y la ciudadanía no sabe qué consecuencias les está trayendo a su vida personal todo este avance mal gestionado por nuestras instituciones.
Si ahora nos lleva de 10 a 15 años comprender una nueva tecnología y desarrollar nuevas leyes y regulaciones para salvaguardar a la sociedad, ¿cómo podemos regular una tecnología que llega y se va, o muta, de 5 a 7 años?
Este es un gran problema y uno de los grandes desafíos es CÓMO EDUCAMOS A NUESTRA POBLACIÓN.
¿Qué solución tiene esta compleja situación?
Debemos volver a repensar nuestras herramientas e instituciones sociales para que nos permitan mantener el ritmo. Si pudiéramos mejorar nuestra capacidad de adaptación, solo un poco, sería una diferencia significativa.
Edward Teller dibujó un segundo gráfico mostrando lo que para él es la solución a este rápido crecimiento.
La línea de puntitos simula nuestro aprendizaje más rápido, además de gobernar de manera más inteligente y, por lo tanto, se cruza con la línea de cambio de tecnología / ciencia en un punto más alto.

Debemos volver a repensar nuestras herramientas e instituciones sociales para que nos permitan mantener el ritmo. Si pudiéramos mejorar nuestra capacidad de adaptación, solo un poco, sería una diferencia significativa.
Los reguladores gubernamentales deben ser tan innovadores como los innovadores, y esto se hace formando a equipos multidisciplinares.
El tiempo de estabilidad estática ya ha pasado. El nuevo tipo de estabilidad es la estabilidad dinámica, y esta nueva estabilidad dinámica comenzó en el año 2007.
¿Dónde estamos ahora?

Desde 2007, las plataformas de internet, convertidos en gigantes tecnológicos, como FB, LK, Airbnb, Amazon, TW…), a través del análisis de Big Data, han tenido la oportunidad de almacenar todos nuestros datos en un solo lugar y, por lo tanto, tienen un enorme conocimiento del mercado, mucho mayor que las empresas tradicionales.
La principal consecuencia para los usuarios fue, por un lado, el beneficio de una serie de nuevos servicios pero, al mismo tiempo, una PÉRDIDA TOTAL DEL CONTROL DE NUESTROS DATOS PERSONALES.
Y lo que se ha tornado peligroso y discriminatorio en nuestra sociedad, la posibilidad de realizar perfiles, e inferencias a través de las decisiones automatizadas, gracias al Big Data Analytics y los algoritmos de Machine Learning.
Realmente, ¿cómo funcionan las tomas de decisiones automatizadas a través de algoritmos de Machine Learning e Inteligencia Artificial?

Ha habido una proliferación de fuentes de donde provienen estos datos:
1. Los éxitos de la genómica han ayudado a generar enormes cantidades de datos (solo parcialmente utilizados).
2. Datos recopilados por aplicaciones, wearables, ordenadores, dispositivos móviles… utilizados en todos los contextos (Salud, Seguros, Bancos, Gobiernos, Recursos Humanos, gran consumo) . Los más peligrosos son los datos observados porque son datos que se captan sin que los demos voluntariamente: uso indebido de la cámara del móvil que recoge los datos biométricos de nuestra cara sin permiso, huellas dactilares, rastreo de conexiones a wi-fi, datos de localización, nuestros tuits, nuestros «me gusta» en Facebook, el historial de búsquedas en Google u otro buscador, qué páginas visitamos y dónde clicamos…
No tenemos ningún control sobre ellos. Estos datos, junto con todos los demás, son recogidos, almacenados, analizados, y sirven para hacer predicciones de nuestro comportamiento y para tomar decisiones sobre nosotros de forma automatizada.
Esto vulnera uno de los principios más importantes en el RGPD, el Principio de minimización de datos, que dice que sólo se deben recopilar los datos necesarios para cumplir la finalidad propuesta. Esto nos lleva al Principio de Limitación de la Finalidad, que nos dice que los datos recopilados sólo pueden ser usados para la finalidad que, de manera Transparente se ha comunicado a los usuarios de esa tecnología y, así, evitar que haya una doble finalidad INCOMPATIBLE con la inicial, y que debe ser la guía en todas las fases del flujo de los datos. CASI NUNCA SE CUMPLE.
El Principio de Transparencia obliga a las organizaciones a que nos notifiquen todo el proceso al que nuestros datos van a ser sometidos, y también nos concede el derecho al acceso a nuestra información. Pero, mala suerte, hay otras normas que permiten que las empresas sean opacas: Directiva de Secretos Comerciales, Derechos de Propiedad Intelectual, y sólo podemos acceder a nuestros datos antes de que sean procesados.
La situación actual nos demuestra que no tenemos control sobre nuestros datos personales.
El siguiente punto (3) nos habla de la seguridad en las bases de datos. El RGPD obliga a que esos datos se pseudonimicen, pero aún hay problemas de privacidad porque aún se pueden hacer perfiles. Por eso están contemplados en la ley.
Lo más apropiado es anonimizar las bases de datos. Hay muchas técnicas de anonimización, pero 3 son los parámetros:
1. No haya posibilidad de hacer perfiles
2. No haya posibilidad de vincular y relacionar bases de datos
3. No haya posibilidad de señalar o distinguir a un individuo.
Pero la anonimización total no existe, y el mayor problema es la re-identificación, en la que se relacionan datos anónimos con información disponible públicamente, para identificar al individuo al que pertenecen los datos.
El siguiente punto (4) es la decisión automatizada y cómo está entrenado el sistema para que tomen esa decisión. Discriminación y sesgos que, parten de cómo están almacenados y distribuidos los datos que sirven de “alimento” al algoritmo de Machine Learning, y de cómo ese algoritmo esté entrenado.
Los Perfiles, y decisiones automatizadas (5), que es donde entran los modelos predictivos sobre el comportamiento de un individuo, o grupo de individuos, o se toman decisiones que pueden discriminatorias. Hoy por hoy, no podemos acceder a ellas.
Por eso, tenemos graves problemas de Transparencia:
1. Qué datos se usaron para tomar la decisión
2. Qué implicaciones tiene en la vida personal del individuo o grupos de individuos
3. Con quién han compartido esos datos
No hay respuesta clara por parte de las organizaciones a estas preguntas.
Veamos ejemplos de casos reales:
- Wearables y apps de salud.

- Convierten el cuerpo humano en un objeto de investigación, y usan nuestros datos para su propio beneficio.
- Recopilan datos de CATEGORÍA ESPECIAL (Super-protegidos por la ley de protección de datos). Necesitan el CONSENTIMIENTO EXPLÍCITO, del usuario. NO RESUELTO.
- No hay definición clara y bien definida del PROPÓSITO (Para qué quieres mis datos).
- Hacen INFERENCIAS, PERFILES Y PREDICEN PATRONES, no describen qué inferencias realizan, ni las implicaciones en la vida real de sus usuarios, ni cómo podemos acceder a esa información para poder modificarla, en caso de que sea errónea, o negarnos a que la usen. OPACIDAD
- Transfieren nuestros datos a terceros que PROCESAN la información por ellos. No nombran a estas empresas, no piden consentimiento explícito al usuario, no describen qué harán estos terceros con los datos sensibles de los usuarios.
- Partes interesadas: Aseguradoras, Bancos, Gobiernos y Sistemas de Seguridad Social.
2. Watson for Oncology.

- DISCRIMINACIÓN Y SESGOS METODOLÓGICOS.
- Discriminación. La capacidad de los pacientes para pagar un tratamiento específico o el estado del seguro, lo que puede afectar las recomendaciones clínicas.
- Sesgo metodológico. Sesgos en la fase de entrenamiento, los datos utilizados para instruir al sistema, y en la elección de los protocolos terapéuticos a implementar.
- Discriminación de pacientes que no están suficientemente representados y, por lo tanto, llevar a conclusiones erróneas si no se pesan y se consideran suficientemente.
- EXPLICABILIDAD. Explicar por qué y cómo da a los tratamientos una puntuación en cuanto a su recomendación. El problema del “Black Box” o “Caja Negra”.
- Riesgos éticos como la PRIVACIDAD del paciente, el CONSENTIMIENTO informado y EXPLÍCITO y la AUTONOMÍA del paciente, entendida como la libertad a la hora de tomar una decisión.
- RESPONSABILIDAD en caso de error médico (sesgo metodológico). Si un sistema de inteligencia artificial falla en el diagnóstico, ¿a quién se le atribuye la responsabilidad? ¿a quién ha desarrollado el sistema de IA? ¿a quién lo ha distribuido? ¿al médico que tomó la decisión?
¿Qué soluciones hay ante este panorama?
LA SOLUCIÓN aún no existe, pero sí podemos tomar decisiones éticas que ayuden a progresar en la Transparencia y en la ética.
Tres grandes acciones pueden ser realizadas:
- Confeccionar un marco ético en el que estén presentes los principios por los que deben regirse las tecnologías aplicadas en la organización.
2. Un código de conducta en el manejo de esos datos que debe ser trasladado a todas las personas que manejan datos.
3. Governanza de los datos: Gestión, estrategia, análisis, decisiones empresariales…