推論是訓練完成的機器學習模型輸出內容。本頁面將概述在 Agent Platform 上從模型取得推論結果的作業流程。
Agent Platform 提供兩種取得推論結果的方法:
-
線上推論是對部署至
Endpoint的模型發出的同步要求。因此,您必須先將Model資源部署至端點,才能傳送要求。這項操作會將運算資源與模型建立關聯,讓模型以低延遲的方式提供線上推論結果。如要依據應用程式輸入內容發出要求,或是需要及時進行推論,您可以選用「線上推論」模式。 -
批次推論是對未部署至端點的模型發出的非同步要求。您直接將要求 (做為
BatchPredictionJob資源) 傳送至Model資源。如果您不需要立即取得回覆,並想透過單一要求處理累積的資料,即可使用這類工作。
在本地測試模型
在開發和測試階段,建議您先將模型部署至本機端點,再取得推論結果。這樣一來,您就能更快地疊代模型,並在不將模型部署至線上端點或產生推論費用的情況下進行測試。本機部署適用於本機開發和測試,不適用於正式版部署。
如要在本機部署模型,請使用 Agent Platform SDK for Python,並將 LocalModel 部署至 LocalEndpoint。如需示範,請參閱這個筆記本。
即使您的用戶端不是以 Python 編寫,您仍可使用 Python 適用的 Agent Platform SDK 啟動容器和伺服器,以便測試來自用戶端的要求。
透過自訂訓練模型取得推論結果
如要取得推論結果,請先匯入模型。匯入後,模型會成為 Model 資源,並顯示在Model Registry中。
接著,請參閱下列說明文件,瞭解如何取得推論結果:
後續步驟
- 瞭解預測的運算資源。