エンドポイントにモデルをデプロイする

オンライン予測用にモデルを配信する前に、モデルをエンドポイントにデプロイする必要があります。モデルをデプロイすると、少ないレイテンシでオンライン予測を提供するために、物理リソースが関連付けられます。

このページでは、オンライン予測を使用してモデルをエンドポイントにデプロイするために必要な手順について説明します。

始める前に

モデルをエンドポイントにデプロイする前に、予測に使用するモデルアーティファクトをエクスポートし、そのページの前提条件をすべて満たしていることを確認します。

オンライン予測モデルのデプロイに必要な権限を取得するには、プロジェクト IAM 管理者に Vertex AI 予測管理者（vertex-ai-prediction-Admin）ロールの付与を依頼します。このロールの詳細については、IAM 権限を準備するをご覧ください。

リソースプールを作成する

ResourcePool カスタムリソースを使用すると、モデルの動作をきめ細かく制御できます。次のような設定を定義できます。

自動スケーリング構成。
CPU とメモリの要件を定義するマシンタイプ。
GPU リソースなどのアクセラレータオプション。

マシンタイプは、予測クラスタの作成に送信するノードプール仕様リクエストに不可欠です。

デプロイされたモデルのリソースプールの場合、アクセラレータの数とタイプによって GPU 使用率が決まります。マシンタイプは、リクエストされた CPU とメモリリソースのみを指定します。このため、ResourcePool 仕様に GPU アクセラレータを含める場合、machineType フィールドはモデルの CPU とメモリの要件を制御し、acceleratorType フィールドは GPU を制御します。また、acceleratorCount フィールドは GPU スライスの数を制御します。

ResourcePool カスタムリソースを作成する手順は次のとおりです。

ResourcePool カスタムリソースを定義する YAML ファイルを作成します。次の例には、GPU アクセラレータ（GPU ベースのモデル）を使用するリソースプールと GPU アクセラレータ（CPU ベースのモデル）を使用しないリソースプールの YAML ファイルが含まれています。

GPU ベースのモデル

  apiVersion: prediction.aiplatform.gdc.goog/v1
  kind: ResourcePool
  metadata:
    name: RESOURCE_POOL_NAME
    namespace: PROJECT_NAMESPACE
  spec:
    resourcePoolID: RESOURCE_POOL_NAME
    enableContainerLogging: false
    dedicatedResources:
      machineSpec:
        # The system adds computing overhead to the nodes for mandatory components.
        # Choose a machineType value that allocates fewer CPU and memory resources
        # than those used by the nodes in the prediction cluster.
        machineType: a2-highgpu-1g-gdc
        acceleratorType: nvidia-a100-80gb
        # The accelerator count is a slice of the requested virtualized GPUs.
        # The value corresponds to one-seventh of 80 GB of GPUs for each count.
        acceleratorCount: 2
      autoscaling:
        minReplica: 2
        maxReplica: 10

CPU ベースのモデル

  apiVersion: prediction.aiplatform.gdc.goog/v1
  kind: ResourcePool
  metadata:
    name: RESOURCE_POOL_NAME
    namespace: PROJECT_NAMESPACE
  spec:
    resourcePoolID: RESOURCE_POOL_NAME
    enableContainerLogging: false
    dedicatedResources:
      machineSpec:
        # The system adds computing overhead to the nodes for mandatory components.
        # Choose a machineType value that allocates fewer CPU and memory resources
        # than those used by the nodes in the prediction cluster.
        machineType: n2-highcpu-8-gdc
      autoscaling:
        minReplica: 2
        maxReplica: 10

次のように置き換えます。

RESOURCE_POOL_NAME: ResourcePool 定義ファイルに付ける名前。
PROJECT_NAMESPACE: 予測クラスタに関連付けられているプロジェクト Namespace の名前。

リソースのニーズと予測クラスタで使用可能な内容に応じて、dedicatedResources フィールドの値を変更します。

ResourcePool 定義ファイルを予測クラスタに適用します。
```
kubectl --kubeconfig PREDICTION_CLUSTER_KUBECONFIG apply -f RESOURCE_POOL_NAME.yaml
```
次のように置き換えます。
- PREDICTION_CLUSTER_KUBECONFIG: 予測クラスタ内の kubeconfig ファイルのパス。
- RESOURCE_POOL_NAME: ResourcePool 定義ファイルの名前。

ResourcePool カスタムリソースを作成すると、Kubernetes API と Webhook サービスが YAML ファイルを検証し、成功または失敗を報告します。予測演算子は、モデルをエンドポイントにデプロイするときに、リソースプールからリソースをプロビジョニングして予約します。