RETO BAD DATA

Home  »  RETO BAD DATA

¿Qué sucede cuando los datos son inexactos, incompletos, obsoletos? En otras palabras, ¿qué sucede cuando el big data se convierte en bad data?

¡Cuéntanos tu caso!

El #BadDataChallenge de Eticas recopila historias personales e informaciones sobre las consecuencias sociales, éticas o económicas de los datos incorrectos y mal utilizados. ¡Envía tu experiencia de Bad Data y obtén tu recompensa!

Datos y algoritmos

Gracias a la inteligencia artificial, los algoritmos pueden entrenarse y aprender de los datos. Pero lo que hace un algoritmo depende mucho de lo buenos que sean los datos. Los datos pueden estar corruptos, desactualizados, ser inútiles o ilegales. De esta manera, la mala información juega un papel importante en todo tipo de procesos y resultados de toma de decisiones.
#BadDataChallenge
Desde la banca a la salud, a los servicios sociales o la educación,el bad data puede tener un impacto importante en nuestros derechos más fundamentales. En la parte inferior de esta página encontrará una lista de lectura con ejemplos concretos de cómo los datos erróneos ya están afectando a la sociedad.

Casos destacados de Bad Data

La nueva Cola (datos incompletos)

Para hacer frente a la competencia de la Pepsi Cola de sabor dulce, a mediados de la década de 1980 Coca-Cola probó una nueva fórmula con 200.000 personas.  

Recortes a la atención sanitaria basados en evaluación algorítmica (corrompida)

Al igual que en el caso de los pagos por discapacidad en el Reino Unido, en los Estados Unidos ha habido varios casos en los que se realizaron reajustes radicales a la atención domiciliaria que recibían personas con una amplia gama de enfermedades y discapacidades, después de que se introdujera la evaluación algorítmica.

Pagos por discapacidad en el Reino Unido (datos corruptos / sesgados)

A partir de 2016, el número de apelaciones contra decisiones tomadas por el Departamento de Trabajo y Pensiones sobre la base de las evaluaciones realizadas por los contratistas privados con fines de lucro que trabajaban en su nombre comenzó a aumentar dramáticamente.

Facebook y Cambridge Analytica (ilegal / filtrado)

Cambridge Analytica, una empresa privada, pudo recolectar 50 millones de perfiles de Facebook y usarlos para construir un programa de software poderoso para predecir e influir en las elecciones.

Datos personales incompletos o inexactos (corruptos, desactualizados, inútiles)

Deloitte Analytics llevó a cabo una encuesta para comprobar cómo de precisos eran los datos comerciales utilizados para marketing, investigación y gestión de productos.

Utilizaron datos erróneos para evaluar la seguridad del agua de Washington DC (incompleto)

En el 2000, hubo un problema con el agua potable de Washington DC cuando los funcionarios cambiaron el desinfectante que usaban para purificar el agua. Se suponía que con el cambio se conseguiría un agua más limpia. Pero el cambio también aumentó la corrosión de las tuberías de plomo de la ciudad, aumentando la cantidad de plomo en el agua.

Policía predictiva (sesgada, incompleta)

La policía está utilizando cada vez más software predictivo. Esto es particularmente difícil porque en realidad es bastante complejo identificar sesgos en los modelos de predicción de justicia penal. Esto se debe en parte a que los datos policiales no se recopilan de manera uniforme, y en parte a que los datos de la policía reflejan sesgos institucionales desde hace mucho tiempo, respecto a nivel de ingresos, raza y género.

Estudio de previsión de la gripe realizado por Google (incompatible)

Lanzada en 2008 con la idea de utilizar información sobre las búsquedas en línea de personas para detectar brotes de enfermedades, el estudio de la previsión de la gripe de Google monitorearía las búsquedas de los usuarios e identificaría los lugares donde muchas personas estaban investigando diversos síntomas de la gripe. En esos lugares, el programa alertaría a las autoridades de salud pública de que más personas estaban a punto de contraer la gripe.

Bad Data en Visualizar 2018!

Nuestro challenge fue seleccionado como uno de los 6 proyectos de Visualizar 18: Datos Personales unos talleres internacionales que desarrollan proyectos de visualización de datos. Fue creado en 2007 por José Luis de Vicente e investiga las implicaciones sociales, culturales y artísticas de la cultura de la información, y presenta metodologías para hacerlas más comprensibles y abrir vías para la participación y la crítica. Esta edición de Visualizar se llevó a cabo del viernes 21 de septiembre al viernes 5 de octubre de 2018 en Madrid, en MediaLab Prado, un laboratorio ciudadano que sirve como lugar de encuentro para la producción de proyectos culturales abiertos. Como resultado de esta residencia, y gracias a un trabajo de colaboración con voluntarios y mentores de Visualizar, hicimos este trabajo de visualización para crear conciencia y difundir el conocimiento sobre cómo el bad data puede afectar nuestras vidas y nuestras sociedades, una página web dedicada al Bad Data y a sus enfermedades: la clínica de los malos datos (Bad Data Clinic)

La nueva Cola (datos incompletos)

Para hacer frente a la competencia de la Pepsi Cola de sabor dulce, a mediados de la década de 1980 Coca-Cola probó una nueva fórmula con 200.000 personas.

Venció a Pepsi y a la fórmula clásica de Coca-Cola una y otra vez en una serie de pruebas de sabor. Sin embargo, la investigación de mercado se centró por completo en el gusto, ignorando otros factores que motivan a las personas a comprar la clásica Coca Cola. Debido a que los responsables de marketing no consideraron la relación de la fórmula clásica con la marca más grande, la compañía perdió decenas de millones de dólares y tuvo que sacar la New Coke de los estantes.

Source:

https://www.utopiainc.com/resources/blog/how-bad-data-changed-the-course-of-history

Recortes a la atención sanitaria basados en evaluación algorítmica (corrompida)

Al igual que en el caso de los pagos por discapacidad en el Reino Unido, en los Estados Unidos ha habido varios casos en los que se realizaron reajustes radicales a la atención domiciliaria que recibían personas con una amplia gama de enfermedades y discapacidades, después de que se introdujera la evaluación algorítmica.

Si bien la mayoría de los informes sobre este tema se han centrado en los algoritmos y sus códigos, también se encontraron problemas importantes con las evaluaciones. Kevin De Liban, un abogado de Ayuda Legal de Arkansas, comenzó a mantener una lista de estos. Una variable en la evaluación fue problemas en los pies. Cuando un asesor visitó a una determinada persona, escribieron que la persona no tenía ningún problema, porque eran amputados. Con el tiempo, dice De Liban, descubrieron puntuaciones muy diferentes cuando se evaluó a las mismas personas, a pesar de estar en la misma condición.

Fuente:

https://www.theverge.com/2018/3/21/17144260/healthcare-medicaid-algorithm-arkansas-cerebral-palsy

Pagos por discapacidad en el Reino Unido (datos corruptos / sesgados)

A partir de 2016, el número de apelaciones contra decisiones tomadas por el Departamento de Trabajo y Pensiones sobre la base de las evaluaciones realizadas por los contratistas privados con fines de lucro que trabajaban en su nombre comenzó a aumentar dramáticamente.

A partir de 2016, el número de apelaciones contra decisiones tomadas por el Departamento de Trabajo y Pensiones sobre la base de las evaluaciones realizadas por los contratistas privados con fines de lucro que trabajaban en su nombre comenzó a aumentar dramáticamente. Hubo 60.600 apelaciones de Seguridad Social y Manutención de Niños entre octubre y diciembre de 2016, un aumento del 47%. Aproximadamente el 85% de esas apelaciones se debieron al Pago de Independencia Personal (PIP) y la Asignación de Empleo y Apoyo (ESA).

No fue solo el número de apelaciones que aumentó rápidamente. La tasa a la que las decisiones tomadas por el Departamento de Trabajo y Pensiones fueron rectificadas también aumentaron sustancialmente a casi dos tercios de todas las apelaciones. Claramente, hubo un problema con el proceso de evaluación. Por un lado, se cambió la ponderación de los diferentes criterios de elegibilidad en el programa de Pagos de Independencia Personal. Por otro lado, las personas contratadas por empresas privadas para realizar evaluaciones PIP aparentemente alteraron los datos, con efectos claramente discriminatorios. Como resultado, el Departamento gastó millones en apelaciones y se revisarán un total de 1,6 millones de reclamaciones de beneficios por discapacidad.

Fuentes:

https://www.theguardian.com/politics/2018/feb/12/disability-benefit-appeals-department-for-work-and-pensions-figures

https://www.independent.co.uk/voices/disability-assessment-pip-esa-appeals-something-is-wrong-a7635221.html

https://www.bbc.com/news/health-41581060

https://www.bbc.com/news/uk-politics-35861447

https://www.bbc.com/news/uk-42862904

https://www.bbc.com/news/health-41581060

Facebook y Cambridge Analytica (ilegal / filtrado)

Cambridge Analytica, una empresa privada, pudo recolectar 50 millones de perfiles de Facebook y usarlos para construir un programa de software poderoso para predecir e influir en las elecciones. Los datos se recopilaron gracias a una aplicación: a los usuarios se les pagó para que realizaran una prueba de personalidad y aceptaron que sus datos se recopilaran para uso académico. Sin embargo, estos datos, y los de sus amigos, se utilizaron para crear el software, lo que viola la “política de la plataforma” de Facebook, que permite la recopilación de datos para mejorar la experiencia del usuario en la aplicación y prohíbe su venta o uso para publicidad. A pesar de que la responsabilidad de cada parte aún no está totalmente clara, este caso muestra el uso ilícito de datos personales como consecuencia de prácticas y políticas deficientes e ilegales en la recopilación y eliminación de datos.

Datos personales incompletos o inexactos (corruptos, desactualizados, inútiles)

Deloitte Analytics llevó a cabo una encuesta para comprobar cómo de precisos eran los datos comerciales utilizados para marketing, investigación y gestión de productos.

Deloitte Analytics llevó a cabo una encuesta para comprobar cómo de precisos eran los datos comerciales utilizados para marketing, investigación y gestión de productos. Encontraron lo siguiente:

  • Más de dos tercios de los encuestados declararon que los datos de terceros sobre ellos eran solo del 0 al 50 por ciento correctos en su totalidad. Un tercio de los encuestados percibió que la información era del 0 al 25 por ciento correcta.
  • Dependiendo de si las personas eran nacidas en los Estados Unidos miraban de determinar si podían localizar sus datos dentro del portal del data broker (intermediario de datos). De los que no nacieron en los Estados Unidos, el 33 por ciento no pudo localizar sus datos; a la inversa, de los nacidos en los Estados Unidos, solo el 5 por ciento tenía información que faltaba. Además, ningún encuestado nacido fuera de los Estados Unidos y residente en el país durante menos de tres años pudo ubicar sus datos.
  • El tipo de datos personales que estuvo más disponible fue la información demográfica; lo menos disponible fueron los datos del domicilio. Sin embargo, incluso si la información demográfica estaba disponible, no era tan precisa y, a menudo, estaba incompleta, puesto que el 59 por ciento de los encuestados consideraba que sus datos demográficos eran solo del 0 al 50 por ciento correctos. Incluso los tipos de datos aparentemente fáciles de obtener (como la fecha de nacimiento, el estado civil y el número de adultos en el hogar) tuvieron amplias variaciones en la precisión.
  • Casi el 44 por ciento de los encuestados dijo que la información sobre sus vehículos era del 0 por ciento correcta, mientras que el 75 por ciento dijo que la información del vehículo era del 0 al 50 por ciento correcta. En contraste con los datos sobre los automóviles, los datos del hogar se consideraron más precisos, ya que solo el 41 por ciento de los encuestados juzgó que sus datos tenían una precisión del 0 al 50 por ciento.
  • Solo el 42 por ciento de los participantes dijo que la actividad de compra online que se mencionó era correcta. Del mismo modo, menos de una cuarta parte de los participantes consideraron que la información sobre sus gastos online y offline y los datos sobre sus categorías de compra eran más del 50 por ciento correctos.
  • Si bien la mitad de los encuestados sabían que existía este tipo de información sobre ellos entre los proveedores de datos (data brokers), la mitad restante estaba sorprendida o era completamente inconsciente de la escala y la amplitud de los datos recopilados.
  •  

Fuente:
https://www2.deloitte.com/insights/us/en/deloitte-review/issue-21/analytics-bad-data-quality.html

Utilizaron datos erróneos para evaluar la seguridad del agua de Washington DC (incompleto)

En el 2000, hubo un problema con el agua potable de Washington DC cuando los funcionarios cambiaron el desinfectante que usaban para purificar el agua. Se suponía que con el cambio se conseguiría un agua más limpia. Pero el cambio también aumentó la corrosión de las tuberías de plomo de la ciudad, aumentando la cantidad de plomo en el agua.

Los funcionarios de la ciudad conocieron el problema, pero no advirtieron rápidamente a los residentes, según el informe. En enero de 2004, The Washington Post expuso el tema. En respuesta a una protesta pública, el Ayuntamiento buscó ayuda del Centro para el Control de Enfermedades para evaluar el impacto de los altos niveles de plomo.

El estudio del centro fue tranquilizador ya que encontró que los altos niveles de plomo no estaban afectando notablemente a los residentes de la ciudad. Pero la investigación del Congreso dice que el estudio se basó en “datos fundamentalmente defectuosos e incompletos”.

Fuente:

https://archive.boston.com/news/health/articles/2010/05/20/report_cdc_used_bad_data_to_judge_dc_water_safety/

Policía predictiva (sesgada, incompleta)

La policía está utilizando cada vez más software predictivo. Esto es particularmente difícil porque en realidad es bastante complejo identificar sesgos en los modelos de predicción de justicia penal. Esto se debe en parte a que los datos policiales no se recopilan de manera uniforme, y en parte a que los datos de la policía reflejan sesgos institucionales desde hace mucho tiempo, respecto a nivel de ingresos, raza y género.

Si bien los datos policiales a menudo aparecen descritos como la representación de “delitos”, eso no es del todo exacto. El crimen en sí es un fenómeno social, en gran parte oculto, que sucede en cualquier lugar donde una persona viola una ley. Lo que se denomina “datos del crimen” generalmente tabula eventos específicos que no son necesariamente infracciones, como una llamada al 911, o que están influenciados por las prioridades policiales existentes, como el arresto de personas sospechosas de delitos concretos o informes de incidentes vistos al patrullar un barrio particular.

Los vecindarios con muchas llamadas policiales no son necesariamente los mismos lugares donde ocurre la mayor parte del crimen. Son, más bien, donde está la mayor atención policial. Y donde la atención se centra, a menudo ésta puede estar sesgada por factores de género y raciales.

Un estudio reciente realizado por Human Rights Data Analysis Group encontró que el algoritmo -supuestamente neutro respecto a cuestiones raciales- PredPol del vendedor de vigilancia predictiva apuntaba a los vecindarios negros aproximadamente al doble de la tasa de los vecindarios blancos cuando se los entrenaba en datos históricos sobre delitos relacionados con las drogas en Oakland, California. Se encontraron resultados similares al analizar los datos por grupo de ingresos, con comunidades de bajos ingresos dirigidas a tasas desproporcionadamente más altas en comparación con los vecindarios de altos ingresos. Esto sucedió a pesar del hecho de que las estimaciones de las encuestas de salud pública y los modelos de población sugieren que el uso de drogas ilícitas en Oakland es aproximadamente igual en todos los grupos raciales y de ingresos. Si el algoritmo fuera verdaderamente neutral en cuanto a la raza, difundiría la atención de la policía antidrogas de manera uniforme en toda la ciudad.

Los reporteros de investigación de ProPublica encontraron evidencia similar de sesgo racial cuando observaron COMPAS, un algoritmo que predice el riesgo de una persona de cometer un delito, utilizado en fianzas y decisiones de sentencia en el condado de Broward, Florida y en otras partes del país. Estos sistemas aprenden solo lo que se les presenta; Si esos datos están sesgados, su aprendizaje no puede ayudar, y también estar sesgado.

Fuente:

https://www.fastcompany.com/40419894/how-big-bad-data-could-make-policing-worse

Estudio de previsión de la gripe realizado por Google (incompatible)

Lanzada en 2008 con la idea de utilizar información sobre las búsquedas en línea de personas para detectar brotes de enfermedades, el estudio de la previsión de la gripe de Google monitorearía las búsquedas de los usuarios e identificaría los lugares donde muchas personas estaban investigando diversos síntomas de la gripe. En esos lugares, el programa alertaría a las autoridades de salud pública de que más personas estaban a punto de contraer la gripe.

Pero el proyecto no tuvo en cuenta la posibilidad de cambios periódicos en el propio algoritmo de búsqueda de Google. En una actualización de principios de 2012, Google modificó su herramienta de búsqueda para sugerir un diagnóstico cuando los usuarios buscaron términos como “tos” o “fiebre”. Por sí solo, este cambio aumentó el número de búsquedas de términos relacionados con la gripe. Pero Google Flu Trends interpretó que los datos predicen un brote de gripe dos veces más grande de lo que esperaban los funcionarios federales de salud pública, y mucho más grande de lo que realmente sucedió. Este es un buen caso de datos erróneos porque involucra información sesgada por factores distintos a los que se estaban midiendo.

Fuentes:

https://www.fastcompany.com/40419894/how-big-bad-data-could-make-policing-worse

https://science.sciencemag.org/content/343/6176/1203