如要從訓練好的模型取得線上推論結果,必須先將模型部署至端點。您可以使用 Google Cloud 控制台、Google Cloud CLI 或 Vertex AI API 執行這項操作。
本文說明將模型部署至端點的程序。
部署模型後會發生什麼事
部署過程中,系統會將實體資源與模型建立關聯,讓模型以低延遲的方式提供線上推論結果。
您可以將多個模型部署至一個端點,也可以將同一個模型部署至多個端點。詳情請參閱「Reasons to deploy more than one model to the same endpoint」。
準備將模型部署至端點
部署模型時,您會做出幾項與如何執行線上推論的相關的重大決策,這些決策如下:
已建立資源 | 在建立資源時指定的設定 |
---|---|
端點 | 執行推論的位置 |
模型 | 要使用的容器 (ModelContainerSpec ) |
DeployedModel | 用於線上推論的運算資源 |
模型部署至端點後,就無法變更這些部署設定。如要變更這些設定,請重新部署模型。
部署程序的第一步是決定要使用的端點類型。詳情請參閱「選擇端點類型」。
接著,請確認模型是否顯示在 Vertex AI Model Registry 中。 模型必須經過轉換才能部署。 如要瞭解 Model Registry,包括如何匯入模型構件或直接在 Model Registry 中建立模型構件,請參閱「Vertex AI Model Registry 簡介」。
接下來要決定的是,要使用哪些運算資源來供應模型。模型的訓練類型 (AutoML 或自訂) 和 (AutoML) 資料類型,會決定模型可用的實體資源種類。模型部署完成後,您可以mutate
部分資源,不必建立新的部署作業。
端點資源會提供您用來要求推論的服務端點 (網址)。例如:
https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict
將模型部署至端點
您可以使用 Google Cloud 控制台,或使用 gcloud CLI 或 Vertex AI API,將模型部署至端點。
使用 Google Cloud 控制台將模型部署至公開端點
在 Google Cloud 控制台中,您可以將模型部署至現有的專屬或共用公開端點,也可以在部署過程中建立新的端點。詳情請參閱「使用 Google Cloud 控制台部署模型」。
使用 gcloud CLI 或 Vertex AI API 將模型部署至公開端點
使用 gcloud CLI 或 Vertex AI API 部署模型時,您必須先建立專屬或共用端點,然後將模型部署至該端點。詳情請參閱:
將模型部署至 Private Service Connect 端點
詳情請參閱「使用 Private Service Connect 端點進行線上推論」。
使用滾動式部署作業更新已部署的模型
您可以使用輪流部署,將已部署的模型替換為相同模型的新版本。新模型會沿用先前的運算資源。詳情請參閱「使用滾動式部署取代已部署的模型」。
取消部署模型並刪除端點
您可以取消部署模型並刪除端點。詳情請參閱「取消部署模型並刪除端點」。
將多個模型部署至同一個端點的原因
將兩個模型部署至相同端點,即可逐步以一個模型取代另一個模型。舉例來說,假設您正在使用某個模型,並發現可透過新的訓練資料提高該模型準確度的方法,不過,您不想更新應用程式以指向新的端點網址,也不想在應用程式中突然進行變更。您可以將新模型新增至相同端點,只處理一小部分的流量,然後逐步提高新模型的流量分配比例,直到處理 100% 的流量為止。
由於資源與模型 (而非端點) 相關聯,因此您可以將不同類型的模型部署至同一個端點。不過,最佳做法是將特定類型的模型 (例如 AutoML 表格或自訂訓練模型) 部署至端點。這種設定較容易管理。
將模型部署至多個端點的原因
您可能想為不同的應用程式環境 (例如測試和正式環境) 部署模型時,使用不同的資源。您可能也想為推論要求支援不同的服務等級目標。或許其中一個應用程式的效能需求遠高於其他應用程式。在這種情況下,您可以將該模型部署至效能較高的端點,並提供更多機器資源。如要節省費用,也可以將模型部署至效能較低的端點,減少機器資源用量。
資源調度行為
Vertex AI Inference 自動調度資源功能會根據並行要求數量,調整推論節點數量。這可讓您在管理費用的同時,動態調整以因應不斷變化的要求負載。詳情請參閱「為 Vertex AI Inference 調整推論節點規模」。
後續步驟
- 選擇端點類型。
- 使用 Google Cloud 控制台部署模型。
- 瞭解專屬端點和 Private Service Connect 端點的推論要求/回應記錄。
- 瞭解如何取得線上推論結果。
- 瞭解如何變更推論記錄的預設設定。