將模型部署至端點

您必須先將模型部署至端點，才能使用模型進行線上預測。部署模型時，系統會將實體資源與模型建立關聯，以便提供低延遲的線上預測結果。

本頁說明如何使用線上預測，將模型部署至端點。

事前準備

將模型部署至端點前，請先匯出用於預測工作的模型構件，並確保符合該頁面的所有必要條件。

如要取得部署線上預測模型所需的權限，請要求專案 IAM 管理員授予您 Vertex AI 預測管理員 (vertex-ai-prediction-Admin) 角色。如要瞭解這個角色，請參閱「準備 IAM 權限」。

建立資源集區

ResourcePool自訂資源可讓您精細控管模型的行為。您可以定義下列設定：

自動調度資源設定。
機器類型，定義 CPU 和記憶體需求。
加速器選項，例如 GPU 資源。

您傳送至建立預測叢集的節點集區規格要求，必須包含機器類型。

對於已部署模型的資源集區，加速器數量和類型會決定 GPU 用量。機器類型只會決定要求的 CPU 和記憶體資源。因此，在 ResourcePool 規格中加入 GPU 加速器時，machineType 欄位會控管模型的 CPU 和記憶體需求，而 acceleratorType 欄位則會控管 GPU。此外，acceleratorCount 欄位會控管 GPU 區塊數量。

請按照下列步驟建立ResourcePool自訂資源：

建立定義 ResourcePool 自訂資源的 YAML 檔案。以下範例包含資源集區的 YAML 檔案，其中有 GPU 加速器 (以 GPU 為基礎的機型) 和沒有 GPU 加速器 (以 CPU 為基礎的機型)：

以 GPU 為基礎的模型

  apiVersion: prediction.aiplatform.gdc.goog/v1
  kind: ResourcePool
  metadata:
    name: RESOURCE_POOL_NAME
    namespace: PROJECT_NAMESPACE
  spec:
    resourcePoolID: RESOURCE_POOL_NAME
    enableContainerLogging: false
    dedicatedResources:
      machineSpec:
        # The system adds computing overhead to the nodes for mandatory components.
        # Choose a machineType value that allocates fewer CPU and memory resources
        # than those used by the nodes in the prediction cluster.
        machineType: a2-highgpu-1g-gdc
        acceleratorType: nvidia-a100-80gb
        # The accelerator count is a slice of the requested virtualized GPUs.
        # The value corresponds to one-seventh of 80 GB of GPUs for each count.
        acceleratorCount: 2
      autoscaling:
        minReplica: 2
        maxReplica: 10

以 CPU 為基礎的型號

  apiVersion: prediction.aiplatform.gdc.goog/v1
  kind: ResourcePool
  metadata:
    name: RESOURCE_POOL_NAME
    namespace: PROJECT_NAMESPACE
  spec:
    resourcePoolID: RESOURCE_POOL_NAME
    enableContainerLogging: false
    dedicatedResources:
      machineSpec:
        # The system adds computing overhead to the nodes for mandatory components.
        # Choose a machineType value that allocates fewer CPU and memory resources
        # than those used by the nodes in the prediction cluster.
        machineType: n2-highcpu-8-gdc
      autoscaling:
        minReplica: 2
        maxReplica: 10

更改下列內容：

RESOURCE_POOL_NAME：您要授予 ResourcePool 定義檔案的名稱。
PROJECT_NAMESPACE：與預測叢集相關聯的專案命名空間名稱。

根據資源需求和預測叢集中的可用資源，修改 dedicatedResources 欄位的值。

將 ResourcePool 定義檔案套用至預測叢集：
```
kubectl --kubeconfig PREDICTION_CLUSTER_KUBECONFIG apply -f RESOURCE_POOL_NAME.yaml
```
更改下列內容：
- PREDICTION_CLUSTER_KUBECONFIG：預測叢集中的 kubeconfig 檔案路徑。
- RESOURCE_POOL_NAME：ResourcePool 定義檔案的名稱。

建立 ResourcePool 自訂資源時，Kubernetes API 和 Webhook 服務會驗證 YAML 檔案，並回報成功或失敗。當您將模型部署至端點時，預測運算子會從資源集區佈建及保留資源。