Un flujo de trabajo de aprendizaje automático puede incluir la evaluación de la equidad de tu modelo. Un modelo injusto muestra un sesgo sistémico que puede causar daño, en especial a los grupos tradicionalmente infrarrepresentados. Un modelo injusto puede tener un rendimiento peor para ciertos subconjuntos, o porciones, del conjunto de datos.
Puedes detectar el sesgo durante el proceso de recopilación de datos o de evaluación posterior al entrenamiento. Gemini Enterprise Agent Platform proporciona las siguientes métricas de evaluación de modelos para ayudarte a evaluar tu modelo en busca de sesgos:
Métricas de sesgo de datos: Antes de entrenar y compilar tu modelo, estas métricas detectan si tus datos sin procesar incluyen sesgos. Por ejemplo, un conjunto de datos de detección de sonrisas puede contener muchas menos personas mayores que jóvenes. Varias de estas métricas se basan en la cuantificación de la distancia entre la distribución de etiquetas para diferentes grupos de datos:
Diferencia en el tamaño de la población
Diferencia en proporciones positivas en etiquetas verdaderas
Métricas de sesgo del modelo: Después de entrenar tu modelo, estas métricas detectan si las predicciones del modelo incluyen sesgos. Por ejemplo, un modelo puede ser más preciso para un subconjunto de los datos que para el resto de los datos:
Diferencia de precisión
Diferencia en proporciones positivas en etiquetas previstas
Diferencia de recuperación
Diferencia de especificidad
Diferencia en la proporción de tipos de errores
Para obtener información sobre cómo incluir los componentes de canalización de sesgo de evaluación de modelos en la ejecución de tu canalización, consulta Componente de evaluación de modelos.
Descripción general del conjunto de datos de ejemplo
Para todos los ejemplos relacionados con las métricas de equidad, usamos un conjunto de datos hipotético de admisión a la universidad con atributos como las calificaciones de bachillerato, el estado y la identidad de género de un solicitante. Queremos medir si la universidad tiene un sesgo hacia los solicitantes de California o Florida.
Las etiquetas de destino, o todos los resultados posibles, son los siguientes:
Aceptar al solicitante con una beca (
p).Aceptar al solicitante sin una beca (
q).Rechazar al solicitante (
r).
Podemos suponer que los expertos en admisión proporcionaron estas etiquetas como la verdad fundamental. Ten en cuenta que es posible que incluso estas etiquetas de expertos estén sesgadas, ya que fueron asignadas por personas.
Para crear un ejemplo de clasificación binaria, podemos agrupar las etiquetas para crear dos resultados posibles:
Resultado positivo, denotado como
1. Podemos agruparpyqen el resultado positivo de "aceptado{p,q}."Resultado negativo, denotado como
0. Puede ser una colección de todos los demás resultados, además del resultado positivo. En nuestro ejemplo de solicitud de universidad, el resultado negativo es "rechazado{r}".
Para medir el sesgo entre los solicitantes de California y Florida, separamos dos porciones del resto del conjunto de datos:
Slice 1 del conjunto de datos para el que se mide el sesgo. En el ejemplo de solicitud de universidad, medimos el sesgo de los solicitantes de California.
Slice 2 del conjunto de datos con la que se mide el sesgo. Slice 2 puede incluir "todo lo que no está en la porción 1" de forma predeterminada, pero, para el ejemplo de solicitud de universidad, asignamos la porción 2 como solicitantes de Florida.
En nuestro conjunto de datos de solicitud de universidad de ejemplo, tenemos 200 empleados de California en la porción 1 y 100 empleados de Florida en la porción 2. Después de entrenar el modelo, tenemos las siguientes matrices de confusión:
| Solicitantes de California | Aceptaciones (previstas) | Rechazos (previstos) |
|---|---|---|
| Aceptaciones (verdad fundamental) | 50 (verdaderos positivos) | 10 (falsos negativos) |
| Rechazos (verdad fundamental) | 20 (falsos positivos) | 120 (verdaderos negativos) |
| Solicitantes de Florida | Aceptaciones (previstas) | Rechazos (previstos) |
|---|---|---|
| Aceptaciones (verdad fundamental) | 20 (verdaderos positivos) | 0 (falsos negativos) |
| Rechazos (verdad fundamental) | 30 (falsos positivos) | 50 (verdaderos negativos) |
Si comparamos las métricas entre las dos matrices de confusión, podemos medir los sesgos respondiendo preguntas como "¿el modelo tiene una mejor recuperación para una porción que para la otra?".
También usamos la siguiente abreviatura para representar los datos de verdad fundamental etiquetados, en la que i representa el número de porción (1 o 2):
i, la cantidad de resultados positivos etiquetados = falsos negativos + verdaderos positivos.
Ten en cuenta lo siguiente sobre el ejemplo del conjunto de datos de solicitud de universidad:
Algunas métricas de equidad también se pueden generalizar para varios resultados, pero usamos la clasificación binaria para simplificar.
El ejemplo se centra en la tarea de clasificación, pero algunas métricas de equidad se generalizan a otros problemas, como la regresión.
Para este ejemplo, suponemos que los datos de entrenamiento y los datos de prueba son los mismos.
¿Qué sigue?
Obtén información sobre las métricas de sesgo de datos compatibles con Gemini Enterprise Agent Platform.
Obtén información sobre las métricas de sesgo del modelo compatibles con Gemini Enterprise Agent Platform.
Lee la referencia del componente de canalización de evaluación de modelos.