本頁面由 Cloud Translation API 翻譯而成。

將模型部署至端點

如要從訓練好的模型取得線上推論結果，必須先將模型部署至端點。您可以使用 Google Cloud 控制台、Google Cloud CLI 或 Vertex AI API 執行這項操作。

本文說明將模型部署至端點的程序。

部署模型後會發生什麼事

部署過程中，系統會將實體資源與模型建立關聯，讓模型以低延遲的方式提供線上推論結果。

您可以將多個模型部署至一個端點，也可以將同一個模型部署至多個端點。詳情請參閱「Reasons to deploy more than one model to the same endpoint」。

準備將模型部署至端點

部署模型時，您會做出幾項與如何執行線上推論的相關的重大決策，這些決策如下：

已建立資源	在建立資源時指定的設定
端點	執行推論的位置
模型	要使用的容器 (`ModelContainerSpec`)
DeployedModel	用於線上推論的運算資源

模型部署至端點後，就無法變更這些部署設定。如要變更這些設定，請重新部署模型。

部署程序的第一步是決定要使用的端點類型。詳情請參閱「選擇端點類型」。

接著，請確認模型是否顯示在 Vertex AI Model Registry 中。模型必須經過轉換才能部署。如要瞭解 Model Registry，包括如何匯入模型構件或直接在 Model Registry 中建立模型構件，請參閱「Vertex AI Model Registry 簡介」。

接下來要決定的是，要使用哪些運算資源來供應模型。模型的訓練類型 (AutoML 或自訂) 和 (AutoML) 資料類型，會決定模型可用的實體資源種類。模型部署完成後，您可以mutate部分資源，不必建立新的部署作業。

端點資源會提供您用來要求推論的服務端點 (網址)。例如：

   https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

將模型部署至端點

您可以使用 Google Cloud 控制台，或使用 gcloud CLI 或 Vertex AI API，將模型部署至端點。

使用 Google Cloud 控制台將模型部署至公開端點

在 Google Cloud 控制台中，您可以將模型部署至現有的專屬或共用公開端點，也可以在部署過程中建立新的端點。詳情請參閱「使用 Google Cloud 控制台部署模型」。

使用 gcloud CLI 或 Vertex AI API 將模型部署至公開端點

使用 gcloud CLI 或 Vertex AI API 部署模型時，您必須先建立專屬或共用端點，然後將模型部署至該端點。詳情請參閱：

將模型部署至 Private Service Connect 端點

詳情請參閱「使用 Private Service Connect 端點進行線上推論」。

使用滾動式部署作業更新已部署的模型

您可以使用輪流部署，將已部署的模型替換為相同模型的新版本。新模型會沿用先前的運算資源。詳情請參閱「使用滾動式部署取代已部署的模型」。

取消部署模型並刪除端點

您可以取消部署模型並刪除端點。詳情請參閱「取消部署模型並刪除端點」。

將多個模型部署至同一個端點的原因

將兩個模型部署至相同端點，即可逐步以一個模型取代另一個模型。舉例來說，假設您正在使用某個模型，並發現可透過新的訓練資料提高該模型準確度的方法，不過，您不想更新應用程式以指向新的端點網址，也不想在應用程式中突然進行變更。您可以將新模型新增至相同端點，只處理一小部分的流量，然後逐步提高新模型的流量分配比例，直到處理 100% 的流量為止。

由於資源與模型 (而非端點) 相關聯，因此您可以將不同類型的模型部署至同一個端點。不過，最佳做法是將特定類型的模型 (例如 AutoML 表格或自訂訓練模型) 部署至端點。這種設定較容易管理。

將模型部署至多個端點的原因

您可能想為不同的應用程式環境 (例如測試和正式環境) 部署模型時，使用不同的資源。您可能也想為推論要求支援不同的服務等級目標。或許其中一個應用程式的效能需求遠高於其他應用程式。在這種情況下，您可以將該模型部署至效能較高的端點，並提供更多機器資源。如要節省費用，也可以將模型部署至效能較低的端點，減少機器資源用量。

資源調度行為

Vertex AI Inference 自動調度資源功能會根據並行要求數量，調整推論節點數量。這可讓您在管理費用的同時，動態調整以因應不斷變化的要求負載。詳情請參閱「為 Vertex AI Inference 調整推論節點規模」。

後續步驟

選擇端點類型。
使用 Google Cloud 控制台部署模型。
瞭解專屬端點和 Private Service Connect 端點的推論要求/回應記錄。
瞭解如何取得線上推論結果。
瞭解如何變更推論記錄的預設設定。

將模型部署至端點 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

部署模型後會發生什麼事

準備將模型部署至端點

將模型部署至端點

使用 Google Cloud 控制台將模型部署至公開端點

使用 gcloud CLI 或 Vertex AI API 將模型部署至公開端點

將模型部署至 Private Service Connect 端點

使用滾動式部署作業更新已部署的模型

取消部署模型並刪除端點

將多個模型部署至同一個端點的原因

將模型部署至多個端點的原因

資源調度行為

後續步驟

將模型部署至端點