在 Agent Platform 中評估模型

這項推論 AI 評估服務可讓您評估模型在特定用途上的表現。您也可以將評估視為觀察模型效能的觀測能力。Agent Platform 提供的模型評估功能可透過多種方式,融入典型的機器學習工作流程:

  • 訓練模型後,請先查看模型評估指標,再部署模型。比較多個模型的評估指標,決定要部署哪個模型。

  • 將模型部署至實際工作環境後,請定期使用新資料評估模型。如果評估指標顯示模型效能下降,請考慮重新訓練模型。這個程序稱為「持續評估」

如何解讀及使用這些指標,取決於您的業務需求,以及模型接受訓練解決的問題。舉例來說,您對正向誤判的容忍度可能比負向誤判低,反之亦然。這類問題會影響您在模型疊代時著重的指標。

預測式 AI 模型評估服務提供的主要指標包括:

功能

如要使用 Agent Platform 評估模型,您需要訓練完成的模型、批次推論輸出內容和真值資料集。以下是使用 Agent Platform 評估模型的典型工作流程:

  1. 訓練模型。您可以在 Gemini Enterprise Agent Platform 中,使用 AutoML 或自訂訓練執行這項操作。

  2. 對模型執行批次推論工作,產生推論結果。

  3. 準備實際資料,也就是由人工判定的「正確標籤」資料。通常是模型訓練期間使用的測試資料集。

  4. 對模型執行評估工作,評估批次推論結果與實際資料相比的準確度。

  5. 分析評估工作產生的指標。

  6. 反覆調整模型,看看是否能提高模型準確率。您可以執行多項評估工作,並比較不同模型或模型版本的結果。

您可以在 Agent Platform 中透過多種方式評估模型:

  • 透過Google Cloud 控制台中的 Gemini Enterprise Agent Platform Model Registry 建立評估。

  • 將 Agent Platform 的模型評估結果做為管道元件,搭配 Gemini Enterprise Agent Platform Pipelines 使用。您可以建立管道執行和範本,將模型評估納入自動化 MLOps 工作流程。

    您可以單獨執行模型評估元件,也可以搭配其他管道元件 (例如批次推論元件) 執行。

Agent Platform 支援評估下列模型類型:

圖片

分類

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值介於 0 到 1 之間,值越大代表模型品質越高。
  • 對數損失:模型推論與目標值之間的交叉熵。範圍從零到無限大,值越低代表模型品質越高。
  • 可信度門檻:決定要傳回哪些推論的可信度分數。模型會傳回大於或等於這個值的推論結果。可信度門檻越高,精確度就會越高,但喚回度則會越低。Agent Platform 會傳回不同門檻值的信賴度指標,顯示門檻對精確度召回率的影響。
  • 喚回度:模型正確預測出含有此類別的推論比例,也稱為「真陽率」
  • 精確度:模型產生的正確分類推論比例。
  • 混淆矩陣混淆矩陣會顯示模型正確預測結果的頻率。如果是預測錯誤的結果,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型「混淆」兩種結果的情況。

表格

分類

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC精確度和喚回度 (PR) 曲線下的面積,也稱為平均精確度。這個值介於 0 到 1 之間,值越大代表模型品質越高。
  • AuROC:接收者操作特徵曲線下的面積。範圍從零到一,值越大代表模型品質越高。
  • 對數損失:模型推論與目標值之間的交叉熵。範圍從零到無限大,值越低代表模型品質越高。
  • 可信度門檻:決定要傳回哪些推論的可信度分數。模型會傳回大於或等於這個值的推論結果。可信度門檻越高,精確度就會越高,但喚回度則會越低。Agent Platform 會傳回不同門檻值的信賴度指標,顯示門檻對精確度召回率的影響。
  • 喚回度:模型正確預測出含有此類別的推論比例,也稱為「真陽率」
  • 召回率 (1):只考慮每個樣本中推論分數最高,且不低於信賴度門檻的標籤時,召回率 (真陽率) 為多少。
  • 精確度:模型產生的正確分類推論比例。
  • 精確度 (1):只考慮每個樣本中推論分數最高且高於信賴度門檻的標籤時,模型的精確度。
  • F1 分數:精確度與召回率的調和平均數。如果您要在精確度與喚回度之間找出平衡,且類別分布並不平均,F1 這個指標很有用。
  • F1 分數為 1:召回率為 1 和精確度為 1 的調和平均數。
  • 混淆矩陣混淆矩陣會顯示模型正確預測結果的頻率。如果是預測錯誤的結果,矩陣會顯示模型預測的結果。混淆矩陣可協助您瞭解模型「混淆」兩種結果的情況。
  • 真陰性計數:模型正確預測負類的次數。
  • 真陽性計數:模型正確預測正類的次數。
  • 偽陰性計數:模型錯誤預測負類的次數。
  • 偽陽性計數:模型錯誤預測正類的次數。
  • 偽陽率:在所有預測結果中,預測錯誤的結果所占的比例。
  • 偽陽率 (1):只考慮每個樣本中推論分數最高且不低於信賴度門檻的標籤時,偽陽率的值。
  • 模型特徵歸因: Agent Platform 會顯示各項特徵對模型的影響程度。系統會為每個特徵提供百分比值,百分比越高,代表該特徵對模型訓練的影響越大。請檢閱這項資訊,確保所有最重要的特徵對您的資料和業務問題具有合理意義。

迴歸

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE:平均絕對誤差 (MAE) 是目標值與預測值之間的平均絕對差異。這項指標的範圍從零到無限大,值越低代表模型品質越好。
  • RMSE:均方根誤差是目標與預測值之間均方差的平方根。RMSE 對離群值比 MAE 更敏感,所以如果您擔心大型誤差,RMSE 可作為更實用的評估指標。RMSE 和 MAE 一樣,值越小代表模型品質越高 (0 代表完美預測因子)。
  • RMSLE:均方根對數誤差指標與均方根誤差類似,但會使用預測值和實際值的自然對數加 1。相較於高估,均方根對數誤差對低估的懲罰較重。如果不想因大型推論值差異而受到比小型推論值差異更重的處罰,這也是不錯的指標。這項指標的範圍從零到無限大,值越低代表模型品質越高。只有在所有標籤和預測值皆為非負數時,系統才會傳回 RMSLE 評估指標。
  • r^2:r 平方 (r^2) 是標籤與預測值之間的皮爾森相關係數平方,這項指標的範圍介於 0 到 1 之間。值越高,表示越接近迴歸線。
  • MAPE:平均絕對百分比誤差 (MAPE) 是標籤和預測值之間的平均絕對百分比差異。這項指標的範圍介於零到無限大之間,值越小代表模型品質越好。
    如果目標資料欄包含任何 0 值,系統就不會顯示 MAPE。在此情況下,MAPE 未定義。
  • 模型特徵歸因: Agent Platform 會顯示各項特徵對模型的影響程度。系統會為每個特徵提供百分比值,百分比越高,代表該特徵對模型訓練的影響越大。請檢閱這項資訊,確保所有最重要的特徵對您的資料和業務問題具有合理意義。

預測

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE:平均絕對誤差 (MAE) 是目標值與預測值之間的平均絕對差異。這項指標的範圍從零到無限大,值越低代表模型品質越好。
  • RMSE:均方根誤差是目標與預測值之間均方差的平方根。RMSE 對離群值比 MAE 更敏感,所以如果您擔心大型誤差,RMSE 可作為更實用的評估指標。RMSE 和 MAE 一樣,值越小代表模型品質越高 (0 代表完美預測因子)。
  • RMSLE:均方根對數誤差指標與均方根誤差類似,但會使用預測值和實際值的自然對數加 1。相較於高估,均方根對數誤差對低估的懲罰較重。如果不想因大型推論值差異而受到比小型推論值差異更重的處罰,這也是不錯的指標。這項指標的範圍從零到無限大,值越低代表模型品質越高。只有在所有標籤和預測值皆為非負數時,系統才會傳回 RMSLE 評估指標。
  • r^2:r 平方 (r^2) 是標籤與預測值之間的皮爾森相關係數平方,這項指標的範圍介於 0 到 1 之間。值越高,表示越接近迴歸線。
  • MAPE:平均絕對百分比誤差 (MAPE) 是標籤和預測值之間的平均絕對百分比差異。這項指標的範圍介於零到無限大之間,值越小代表模型品質越好。
    如果目標資料欄包含任何 0 值,系統就不會顯示 MAPE。在此情況下,MAPE 未定義。
  • WAPE:加權絕對百分比誤差 (WAPE) 是模型預測值與觀察值之間的整體差異,除以觀察值。相較於 RMSE,WAPE 著重於整體差異,而非個別差異,因此較不會受到低值或間歇值影響。值越小代表模型品質越高。
  • RMSPE:均方根百分比誤差 (RMSPE) 會以實際值的百分比顯示 RMSE,而非絕對值。值越小代表模型品質越高。
  • 分位數:百分比分位數,表示觀察到的值低於預測值的機率。舉例來說,在 0.5 分位數,觀察到的值預計有 50% 的時間會低於預測值。
  • 觀察到的分位數:顯示實際值低於特定分位數預測值的百分比。
  • 縮放的保齡球損失:特定分位數的縮放保齡球損失。 值越低代表模型在指定分位數的品質越高。

筆記本教學課程

AutoML:表格

自訂訓練:表格

Gemini Enterprise Agent Platform Model Registry

後續步驟