Decisiones por algoritmos y equidad. Es lo mismo, pero no es igual.
Que empresas y gobiernos deleguen o apoyen decisiones en algoritmos de aprendizaje de máquina es motivo de inquietud e incluso de protesta. Ello se debe a que las decisiones que se automatizan tienen un alto impacto en la vida de las personas, y hay evidencia de que los algoritmos pueden replicar o amplificar prejuicios existentes. De ahí las quejas por discriminación en sistemas de reconocimiento facial, para la contratación de personal, o para apoyar decisiones judiciales.
El problema es que estos temas no están del todo resueltos ni siquiera para cuando las decisiones son tomadas por personas, por lo que no hay criterios generales que puedan ser trasladados con claridad a un algoritmo.
Por ejemplo, cuando se trata de promover la equidad de género en la contratación ¿Deben hombres y mujeres tener la misma oportunidad y ser sus competencias las que determinen quien ocupa la posición? ¿O debe cubrirse una vacante para mantener la paridad o una cuota, aunque implique ignorar candidatos más capaces?
Cuestiones como estas surgen siempre al tratar de asegurar la equidad, o evitar la discriminación, en aspectos de la condición humana en donde existen diferencias ilegítimas o cuando hay grupos vulnerables. Primero viene la discusión de si estamos ante un tema de representación o de proceso, y después viene la cuestión de cómo medir la equidad.
Si lo que vamos a vigilar es la paridad o el cumplimiento de cuotas para asegurar la representación de los grupos a proteger, la equidad puede medirse contando las personas de los distintos grupos. Sin embargo, cuando se trata de asegurar la equidad en un proceso o decisión, como en un concurso de selección o un juicio, la medición es mucho más difícil. ¿Cómo medir si el proceso o decisión fue equitativo y no discriminatorio?
Imagen por Ohmydearlife en Pixabay
Medir la equidad en un proceso o decisión requiere tener claro qué entendemos por equidad. Sin embargo, existen diversas posiciones y definiciones de equidad, por lo que en cada situación se adoptan soluciones distintas. Esto dificulta tener mediciones consistentes y facilita que pueda cuestionarse una decisión con el argumento de que existen otros criterios de equidad que no se tomaron en cuenta.
Por todo esto me llamó la atención un artículo que dos investigadores de Canadá y la India (Julia Rubin y Sahil Verma) presentaron en 2018 en un taller internacional sobre equidad del software. Los investigadores analizan 20 definiciones de equidad y las aplican a un modelo para predecir la calidad crediticia de una persona. La investigación no sólo ayuda a entender y comparar las diversas definiciones, sino que ilustra muy bien el tipo de análisis que puede hacerse en la práctica para evaluar aspectos de equidad y discriminación en decisiones tomadas por algoritmos.
El artículo utiliza un conjunto de datos disponible públicamente con 1000 registros de solicitantes alemanes de crédito, cada uno con 20 datos o atributos, así como la etiqueta de calidad crediticia buena o mala que mostró cada solicitante (pagó su crédito o no).
Con estos datos, los investigadores desarrollaron un modelo de clasificación que, a partir de los 20 atributos, predice la calidad crediticia que tendrá una persona. Para ello utilizaron una técnica llamada regresión logística, que encuentra la fórmula para predecir la calidad crediticia que tiene la máxima probabilidad de que la predicción sea correcta (lee nuestro artículo sobre la clasificación y sus diversas técnicas).
Para evaluar si las predicciones del algoritmo son equitativas para hombres y mujeres no solteros, se aplicaron en primer lugar las definiciones de equidad basadas en lo que se conoce como la matriz de confusión. Esta matriz contiene los conceptos para cuando las predicciones del algoritmo coinciden con el valor real (positivo verdadero y negativo verdadero) y para cuando no coinciden (positivo falso y negativo falso).
La siguiente tabla muestra los resultados de aplicar un primer bloque de 9 definiciones basadas en la matriz de confusión.
De acuerdo con estos resultados, al aplicar el algoritmo a este conjunto de datos, en general los hombres no solteros tienen una probabilidad mayor de obtener una predicción positiva (0.81) que las mujeres no solteras (0.75), por lo que no hay paridad estadística. En particular, hombres con mala calidad crediticia tienen una probabilidad de 0.70 de obtener una predicción positiva, mientras que esta probabilidad es de 0.55 para las mujeres (balance de falsos positivos).
Lo anterior es evidencia de un sesgo, por el cual es más fácil que hombres con mala calidad crediticia reciban una buena predicción. Esto se ratifica con el comportamiento de otras tres medidas relacionadas (posibilidades igualadas, equidad de exactitud condicionada y equidad de tratamiento).
El segundo bloque de definiciones basadas en la matriz de confusión consiste en 4 medidas que se utilizan para cuando no se predice la categoría (calidad buena o mala), sino la probabilidad de tener calidad buena. Los resultados se muestran a continuación.
Por alguna razón, cuando el algoritmo predice que la probabilidad de una buena calidad crediticia es baja, la posibilidad de error y de que la persona sí tenga buena calidad crediticia es alta, más en el caso de los hombres. Por otro lado, aparece nuevamente que hombres con una mala calidad crediticia tienen más probabilidad de obtener un buen pronóstico (balance de clase negativa).
A continuación, los investigadores aplicaron 2 definiciones de equidad basadas en la similitud, las cuales evalúan el tratamiento que reciben hombres y mujeres no solteros, considerando los atributos distintos al género. Los resultados son los siguientes:
Como se puede observar, 8.8% de las predicciones son distintas para casos en que los individuos tienen exactamente los mismos atributos con excepción del género, por lo que no se cumple la definición de equidad.
El artículo evalúa otras 5 definiciones de equidad, pero creo que las que hemos visto nos dan una suficiente idea de cómo hacer un análisis de equidad en la toma de decisiones algorítmicas.
Para mí la conclusión principal es que la existencia de varias definiciones puede ser una ventaja en lugar de un obstáculo. Hacer el análisis con una o varias métricas implica lo mismo y nos permite una visión más completa. Aunque algunas definiciones están relacionadas o son equivalentes, contrastar sus resultados permite analizar el tema desde varios puntos de vista, confirmar los hallazgos e identificar los temas a revisar más a fondo para mejorar la equidad.
En el caso analizado por Rubin y Verma, al usar la regresión logística para predecir la calidad crediticia los hombres no solteros tienen más probabilidad de obtener una predicción positiva que las mujeres no solteras. En particular, es más fácil que hombres no solteros con mala calidad crediticia reciban un buen pronóstico. Por lo anterior, no siempre hombres y mujeres con las mismas características reciben la misma predicción. Por otro lado, entre más baja es la probabilidad pronosticada de una buena calidad crediticia, aumenta mucho la posibilidad de un error.
Con esta información pueden analizarse los casos donde se presentan diferencias y decidir entre varios cursos de acción: modificar los atributos utilizados para la predicción, darles un peso diferente, y/o intentar el uso de un algoritmo distinto.
Generar confianza en las decisiones delegadas o apoyadas en algoritmos de IA requiere de tres elementos: transparencia en el diseño e implementación, posibilidad de explicar cómo se llegó a una decisión y rendición de cuentas por sus efectos. En este contexto, realizar y documentar un análisis de equidad, así como las acciones tomadas para atender los hallazgos, puede ser de gran utilidad. Artículos como el publicado por Rubin y Verma ilustran cómo llevar esto a la práctica y promover con ello una cultura de aplicación responsable de la Inteligencia Artificial.
¿Qué opinas? Comparte tus comentarios abajo. ¿Te gustó este artículo? Lee otros artículos de nuestro blog IF Inteligencia Futura aquí.