Google 會運用 AI 技術將內容翻譯成你偏好的語言，但可能會出錯。

在 Agent Platform 中評估模型

這項推論 AI 評估服務可讓您評估模型在特定用途上的表現。您也可以將評估視為觀察模型效能的觀測能力。Agent Platform 提供的模型評估功能可透過多種方式，融入典型的機器學習工作流程：

訓練模型後，請先查看模型評估指標，再部署模型。比較多個模型的評估指標，決定要部署哪個模型。
將模型部署至實際工作環境後，請定期使用新資料評估模型。如果評估指標顯示模型效能下降，請考慮重新訓練模型。這個程序稱為「持續評估」。

如何解讀及使用這些指標，取決於您的業務需求，以及模型接受訓練解決的問題。舉例來說，您對正向誤判的容忍度可能比負向誤判低，反之亦然。這類問題會影響您在模型疊代時著重的指標。

預測式 AI 模型評估服務提供的主要指標包括：

功能

如要使用 Agent Platform 評估模型，您需要訓練完成的模型、批次推論輸出內容和真值資料集。以下是使用 Agent Platform 評估模型的典型工作流程：

訓練模型。您可以在 Gemini Enterprise Agent Platform 中，使用 AutoML 或自訂訓練執行這項操作。
對模型執行批次推論工作，產生推論結果。
準備實際資料，也就是由人工判定的「正確標籤」資料。通常是模型訓練期間使用的測試資料集。
對模型執行評估工作，評估批次推論結果與實際資料相比的準確度。
分析評估工作產生的指標。
反覆調整模型，看看是否能提高模型準確率。您可以執行多項評估工作，並比較不同模型或模型版本的結果。

您可以在 Agent Platform 中透過多種方式評估模型：

透過Google Cloud 控制台中的 Gemini Enterprise Agent Platform Model Registry 建立評估。
將 Agent Platform 的模型評估結果做為管道元件，搭配 Gemini Enterprise Agent Platform Pipelines 使用。您可以建立管道執行和範本，將模型評估納入自動化 MLOps 工作流程。

您可以單獨執行模型評估元件，也可以搭配其他管道元件 (例如批次推論元件) 執行。

Agent Platform 支援評估下列模型類型：

圖片

表格

迴歸

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案：
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE：平均絕對誤差 (MAE) 是目標值與預測值之間的平均絕對差異。這項指標的範圍從零到無限大，值越低代表模型品質越好。
RMSE：均方根誤差是目標與預測值之間均方差的平方根。RMSE 對離群值比 MAE 更敏感，所以如果您擔心大型誤差，RMSE 可作為更實用的評估指標。RMSE 和 MAE 一樣，值越小代表模型品質越高 (0 代表完美預測因子)。
RMSLE：均方根對數誤差指標與均方根誤差類似，但會使用預測值和實際值的自然對數加 1。相較於高估，均方根對數誤差對低估的懲罰較重。如果不想因大型推論值差異而受到比小型推論值差異更重的處罰，這也是不錯的指標。這項指標的範圍從零到無限大，值越低代表模型品質越高。只有在所有標籤和預測值皆為非負數時，系統才會傳回 RMSLE 評估指標。
r^2：r 平方 (r^2) 是標籤與預測值之間的皮爾森相關係數平方，這項指標的範圍介於 0 到 1 之間。值越高，表示越接近迴歸線。
MAPE：平均絕對百分比誤差 (MAPE) 是標籤和預測值之間的平均絕對百分比差異。這項指標的範圍介於零到無限大之間，值越小代表模型品質越好。
如果目標資料欄包含任何 0 值，系統就不會顯示 MAPE。在此情況下，MAPE 未定義。
模型特徵歸因： Agent Platform 會顯示各項特徵對模型的影響程度。系統會為每個特徵提供百分比值，百分比越高，代表該特徵對模型訓練的影響越大。請檢閱這項資訊，確保所有最重要的特徵對您的資料和業務問題具有合理意義。

預測

您可以從下列 Cloud Storage 位置查看及下載結構定義檔案：
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE：平均絕對誤差 (MAE) 是目標值與預測值之間的平均絕對差異。這項指標的範圍從零到無限大，值越低代表模型品質越好。
RMSE：均方根誤差是目標與預測值之間均方差的平方根。RMSE 對離群值比 MAE 更敏感，所以如果您擔心大型誤差，RMSE 可作為更實用的評估指標。RMSE 和 MAE 一樣，值越小代表模型品質越高 (0 代表完美預測因子)。
RMSLE：均方根對數誤差指標與均方根誤差類似，但會使用預測值和實際值的自然對數加 1。相較於高估，均方根對數誤差對低估的懲罰較重。如果不想因大型推論值差異而受到比小型推論值差異更重的處罰，這也是不錯的指標。這項指標的範圍從零到無限大，值越低代表模型品質越高。只有在所有標籤和預測值皆為非負數時，系統才會傳回 RMSLE 評估指標。
r^2：r 平方 (r^2) 是標籤與預測值之間的皮爾森相關係數平方，這項指標的範圍介於 0 到 1 之間。值越高，表示越接近迴歸線。
MAPE：平均絕對百分比誤差 (MAPE) 是標籤和預測值之間的平均絕對百分比差異。這項指標的範圍介於零到無限大之間，值越小代表模型品質越好。
如果目標資料欄包含任何 0 值，系統就不會顯示 MAPE。在此情況下，MAPE 未定義。
WAPE：加權絕對百分比誤差 (WAPE) 是模型預測值與觀察值之間的整體差異，除以觀察值。相較於 RMSE，WAPE 著重於整體差異，而非個別差異，因此較不會受到低值或間歇值影響。值越小代表模型品質越高。
RMSPE：均方根百分比誤差 (RMSPE) 會以實際值的百分比顯示 RMSE，而非絕對值。值越小代表模型品質越高。
分位數：百分比分位數，表示觀察到的值低於預測值的機率。舉例來說，在 0.5 分位數，觀察到的值預計有 50% 的時間會低於預測值。
觀察到的分位數：顯示實際值低於特定分位數預測值的百分比。
縮放的保齡球損失：特定分位數的縮放保齡球損失。值越低代表模型在指定分位數的品質越高。