Un flusso di lavoro di machine learning può includere la valutazione dell'equità del modello. Un modello non equo mostra un bias di sistema che può causare danni, in particolare ai gruppi tradizionalmente sottorappresentati. Un modello non equo potrebbe avere prestazioni peggiori per determinati sottoinsiemi, o slice, del set di dati.
Puoi rilevare il bias durante la raccolta dei dati o il processo di valutazione post-addestramento. Vertex AI fornisce le seguenti metriche di valutazione del modello per aiutarti a valutare il bias del modello:
Metriche del bias dei dati: prima di addestrare e creare il modello, queste metriche rilevano se i dati non elaborati includono bias. Ad esempio, un set di dati di rilevamento dei sorrisi potrebbe contenere molti meno anziani rispetto ai giovani. Molte di queste metriche si basano sulla quantificazione della distanza tra la distribuzione delle etichette per diversi gruppi di dati:
Differenza nella dimensione della popolazione.
Differenza nelle proporzioni positive nelle etichette basate su dati empirici reali.
Metriche del bias del modello: dopo aver addestrato il modello, queste metriche rilevano se le previsioni del modello includono bias. Ad esempio, un modello potrebbe essere più preciso per un sottoinsieme di dati rispetto al resto dei dati:
Differenza di accuratezza.
Differenza nelle proporzioni positive nelle etichette previste.
Differenza di richiamo.
Differenza di specificità.
Differenza nel rapporto tra i tipi di errori.
Per scoprire come includere i componenti della pipeline del bias di valutazione del modello nell'esecuzione della pipeline, consulta Componente di valutazione del modello.
Panoramica del set di dati di esempio
Per tutti gli esempi relativi alle metriche di equità, utilizziamo un set di dati ipotetico di ammissione al college con caratteristiche come i voti delle scuole superiori, lo stato e l'identità di genere di un candidato. Vogliamo misurare se il college è influenzato dai candidati della California o della Florida.
Le etichette target, o tutti i risultati possibili, sono:
Accetta il candidato con borsa di studio (
p).Accetta il candidato senza borsa di studio (
q)Rifiuta il candidato (
r).
Possiamo presupporre che gli esperti di ammissione abbiano fornito queste etichette come dati empirici reali. Tieni presente che è possibile che anche queste etichette di esperti siano influenzate, poiché sono state assegnate da persone.
Per creare un esempio di classificazione binaria, possiamo raggruppare le etichette per creare due possibili risultati:
Risultato positivo, indicato come
1. Possiamo raggrupparepeqnel risultato positivo di "accettato{p,q}."Risultato negativo, indicato come
0. Può trattarsi di una raccolta di tutti gli altri risultati diversi da quello positivo. Nel nostro esempio di domanda di ammissione al college, il risultato negativo è "rifiutato{r}".
Per misurare il bias tra i candidati della California e della Florida, separiamo due slice dal resto del set di dati:
Slice 1 del set di dati per cui viene misurato il bias. Nell'esempio di domanda di ammissione al college, stiamo misurando il bias per i candidati della California.
Slice 2 del set di dati rispetto al quale viene misurato il bias. Per impostazione predefinita, la slice 2 può includere "tutto ciò che non è nella slice 1", ma per l'esempio di domanda di ammissione al college, stiamo assegnando la slice 2 ai candidati della Florida.
Nel nostro set di dati di esempio per le domande di ammissione al college, abbiamo 200 candidati della California nella slice 1 e 100 candidati della Florida nella slice 2. Dopo aver addestrato il modello, abbiamo le seguenti matrici di confusione:
| Candidati della California | Accettazioni (previste) | Rifiuti (previsti) |
|---|---|---|
| Accettazioni (dati empirici reali) | 50 (veri positivi) | 10 (falsi negativi) |
| Rifiuti (dati empirici reali) | 20 (falsi positivi) | 120 (veri negativi) |
| Candidati della Florida | Accettazioni (previste) | Rifiuti (previsti) |
|---|---|---|
| Accettazioni (dati empirici reali) | 20 (veri positivi) | 0 (falsi negativi) |
| Rifiuti (dati empirici reali) | 30 (falsi positivi) | 50 (veri negativi) |
Confrontando le metriche tra le due matrici di confusione, possiamo misurare i bias rispondendo a domande come "il modello ha un richiamo migliore per una slice rispetto all'altra?".
Utilizziamo anche la seguente abbreviazione per rappresentare i dati empirici reali etichettati, dove i rappresenta il numero della slice (1 o 2):
i, numero di risultati positivi etichettati = falsi negativi + veri positivi.
Tieni presente quanto segue sull'esempio del set di dati per le domande di ammissione al college:
Alcune metriche di equità possono essere generalizzate anche per più risultati, ma per semplicità utilizziamo la classificazione binaria.
L'esempio si concentra sull'attività di classificazione, ma alcune metriche di equità si generalizzano ad altri problemi come la regressione.
Per questo esempio, presupponiamo che i dati di addestramento e i dati di test siano gli stessi.
Passaggi successivi
Scopri di più sulle metriche del bias dei dati supportate da Vertex AI.
Scopri di più sulle metriche del bias del modello supportate da Vertex AI.
Leggi le informazioni di riferimento sul componente della pipeline di valutazione del modello .