機器學習工作流程可包含評估模型是否公平。不公平的模型會顯示系統性偏誤,可能造成傷害,尤其是對傳統上代表性不足的群體。不公平的模型在處理資料集的特定子集或片段時,可能表現不佳。
您可以在資料收集或訓練後評估過程中偵測偏誤。Gemini Enterprise Agent Platform 提供下列模型評估指標,協助您評估模型是否有偏誤:
資料偏誤指標:訓練及建構模型前,這些指標會偵測原始資料是否含有偏誤。舉例來說,微笑偵測資料集可能包含的年長者遠少於年輕人。其中幾項指標會根據不同資料群組的標籤分布,量化兩者之間的距離:
人口規模差異。
真實標籤中正向比例的差異。
模型偏見指標:訓練模型後,這些指標會偵測模型預測結果是否含有偏見。舉例來說,模型可能對某個資料子集的準確度較高,對其他資料則較低:
準確度差異。
預測標籤中正向比例的差異。
喚回差異。
優先權差異。
錯誤類型比例的差異。
如要瞭解如何在 pipeline 執行中納入模型評估偏差 pipeline 元件,請參閱「模型評估元件」。
範例資料集總覽
在所有與公平性指標相關的範例中,我們都會使用假設的大學入學資料集,其中包含申請人的高中成績、州別和性別認同等特徵。我們要評估大學是否偏好加州或佛羅里達州的申請人。
目標標籤 (或所有可能結果) 為:
接受獎學金申請人 (
p)。接受申請人,但不提供獎學金 (
q)拒絕求職者 (
r)。
我們可以假設入學專家提供的這些標籤是實際資料。請注意,即使是專家標籤,也可能因為是人為指派而有偏誤。
如要建立二元分類範例,我們可以將標籤分組,建立兩種可能的結果:
結果為正面,以
1表示。我們可以將p和q分組為「已接受{p,q}」的正面結果。負面結果,以
0表示。這可以是除了正面結果以外的所有結果集合。在大學申請的例子中,負面結果是「遭拒{r}」。
為評估加州和佛羅里達州申請人之間的偏差,我們從其餘資料集劃分出兩個切片:
要測量偏差的資料集切片 1。在大學申請範例中,我們測量的是加州申請人的偏差。
用來評估偏誤的資料集第 2 個切片。根據預設,切片 2 可以包含「切片 1 中未包含的所有內容」,但以大學申請為例,我們會將切片 2 指派為佛羅里達州申請人。
在我們的範例大學申請資料集中,資料配量 1 有 200 位加州申請者,資料配量 2 則有 100 位佛羅里達州申請者。訓練模型後,我們會得到下列混淆矩陣:
| 加州應徵者 | 接受次數 (預測) | 拒絕 (預測) |
|---|---|---|
| 接受 (實際資料) | 50 (真陽性) | 10 (偽陰性) |
| 拒絕 (真值) | 20 (偽陽性) | 120 (真陰性) |
| 佛羅里達州申請人 | 接受次數 (預測) | 拒絕 (預測) |
|---|---|---|
| 接受 (實際資料) | 20 (真陽性) | 0 (偽陰性) |
| 拒絕 (真值) | 30 (誤判) | 50 (真陰性) |
比較兩個混淆矩陣之間的指標,即可回答「模型對某個切片的召回率是否高於其他切片?」等問題,進而評估偏差。
我們也會使用下列簡寫來表示標示的實際資料,其中 i 代表切片編號 (1 或 2):
i,標示為正向結果的數量 = 偽陰性 + 真陽性。
請注意下列有關大學申請資料集範例的事項:
部分公平性指標也可概括用於多個結果,但為求簡單,我們使用二元分類。
本範例著重於分類工作,但部分公平性指標可套用至迴歸等其他問題。
在本範例中,我們假設訓練資料和測試資料相同。
後續步驟
瞭解 Gemini Enterprise Agent Platform 支援的資料偏誤指標。
瞭解 Gemini Enterprise Agent Platform 支援的模型偏誤指標。
請參閱模型評估管道元件參考資料。