將模型部署至端點

如要從訓練好的模型取得線上推論結果,必須先將模型部署至端點。您可以使用 Google Cloud 控制台、Google Cloud CLI 或 Vertex AI API 執行這項操作。

本文說明將模型部署至端點的程序。

部署模型後會發生什麼事

部署過程中,系統會將實體資源與模型建立關聯,讓模型以低延遲的方式提供線上推論結果。

您可以將多個模型部署至一個端點,也可以將同一個模型部署至多個端點。詳情請參閱「Reasons to deploy more than one model to the same endpoint」。

準備將模型部署至端點

部署模型時,您會做出幾項與如何執行線上推論的相關的重大決策,這些決策如下:

已建立資源 在建立資源時指定的設定
端點 執行推論的位置
模型 要使用的容器 (ModelContainerSpec)
DeployedModel 用於線上推論的運算資源

模型部署至端點後,就無法變更這些部署設定。如要變更這些設定,請重新部署模型。

部署程序的第一步是決定要使用的端點類型。詳情請參閱「選擇端點類型」。

接著,請確認模型是否顯示在 Vertex AI Model Registry 中。 模型必須經過轉換才能部署。 如要瞭解 Model Registry,包括如何匯入模型構件或直接在 Model Registry 中建立模型構件,請參閱「Vertex AI Model Registry 簡介」。

接下來要決定的是,要使用哪些運算資源來供應模型。模型的訓練類型 (AutoML 或自訂) 和 (AutoML) 資料類型,會決定模型可用的實體資源種類。模型部署完成後,您可以mutate部分資源,不必建立新的部署作業。

端點資源會提供您用來要求推論的服務端點 (網址)。例如:

   https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

將模型部署至端點

您可以使用 Google Cloud 控制台,或使用 gcloud CLI 或 Vertex AI API,將模型部署至端點。

使用 Google Cloud 控制台將模型部署至公開端點

在 Google Cloud 控制台中,您可以將模型部署至現有的專屬或共用公開端點,也可以在部署過程中建立新的端點。詳情請參閱「使用 Google Cloud 控制台部署模型」。

使用 gcloud CLI 或 Vertex AI API 將模型部署至公開端點

使用 gcloud CLI 或 Vertex AI API 部署模型時,您必須先建立專屬或共用端點,然後將模型部署至該端點。詳情請參閱:

  1. 建立專用或共用的公開端點
  2. 使用 gcloud CLI 或 Vertex AI API 部署模型

將模型部署至 Private Service Connect 端點

詳情請參閱「使用 Private Service Connect 端點進行線上推論」。

使用滾動式部署作業更新已部署的模型

您可以使用輪流部署,將已部署的模型替換為相同模型的新版本。新模型會沿用先前的運算資源。詳情請參閱「使用滾動式部署取代已部署的模型」。

取消部署模型並刪除端點

您可以取消部署模型並刪除端點。詳情請參閱「取消部署模型並刪除端點」。

將多個模型部署至同一個端點的原因

將兩個模型部署至相同端點,即可逐步以一個模型取代另一個模型。舉例來說,假設您正在使用某個模型,並發現可透過新的訓練資料提高該模型準確度的方法,不過,您不想更新應用程式以指向新的端點網址,也不想在應用程式中突然進行變更。您可以將新模型新增至相同端點,只處理一小部分的流量,然後逐步提高新模型的流量分配比例,直到處理 100% 的流量為止。

由於資源與模型 (而非端點) 相關聯,因此您可以將不同類型的模型部署至同一個端點。不過,最佳做法是將特定類型的模型 (例如 AutoML 表格或自訂訓練模型) 部署至端點。這種設定較容易管理。

將模型部署至多個端點的原因

您可能想為不同的應用程式環境 (例如測試和正式環境) 部署模型時,使用不同的資源。您可能也想為推論要求支援不同的服務等級目標。或許其中一個應用程式的效能需求遠高於其他應用程式。在這種情況下,您可以將該模型部署至效能較高的端點,並提供更多機器資源。如要節省費用,也可以將模型部署至效能較低的端點,減少機器資源用量。

資源調度行為

Vertex AI Inference 自動調度資源功能會根據並行要求數量,調整推論節點數量。這可讓您在管理費用的同時,動態調整以因應不斷變化的要求負載。詳情請參閱「為 Vertex AI Inference 調整推論節點規模」。

後續步驟