オンライン推論に専用パブリック エンドポイントを使用する

「専用パブリック エンドポイント」は、オンライン推論用のパブリック エンドポイントです。このエンドポイントには次のようなメリットがあります。

  • 専用のネットワーキング: 専用パブリック エンドポイントに推論リクエストを送信すると、他のユーザーのトラフィックから分離されます。
  • ネットワーク レイテンシの最適化
  • より大きなペイロードをサポート: 最大 10 MB。
  • リクエストのタイムアウトが長い: 最大 1 時間まで構成可能。
  • 生成 AI に対応: ストリーミングと gRPC がサポートされています。推論タイムアウトは最大 1 時間まで構成できます。

このような理由から、Vertex AI オンライン推論のサービス提供には、ベスト プラクティスとして専用パブリック エンドポイントをおすすめします。

詳細については、エンドポイントのタイプを選択するをご覧ください。

専用パブリック エンドポイントを作成してモデルをデプロイする

Google Cloud コンソールを使用して、専用エンドポイントを作成し、モデルをデプロイできます。詳細については、 Google Cloud コンソールを使用してモデルをデプロイするをご覧ください。

次のように Vertex AI API を使用して、専用パブリック エンドポイントを作成し、モデルをデプロイすることもできます。

  1. 専用パブリック エンドポイントを作成します。推論タイムアウトとリクエスト / レスポンス ロギングの設定は、エンドポイントの作成時にサポートされます。
  2. Vertex AI API を使用してモデルをデプロイします。

専用パブリック エンドポイントからオンライン推論を取得する

専用エンドポイントは、HTTP と gRPC の両方の通信プロトコルをサポートしています。gRPC リクエストの場合、エンドポイントを適切に識別するには、x-vertex-ai-endpoint-id ヘッダーを含める必要があります。次の API がサポートされています。

  • Predict
  • RawPredict
  • StreamRawPredict
  • Chat Completion(Model Garden のみ)

Vertex AI SDK for Python を使用して、専用パブリック エンドポイントにオンライン推論リクエストを送信できます。詳細については、専用パブリック エンドポイントにオンライン推論リクエストを送信するをご覧ください。

チュートリアル

制限事項

  • チューニングされた Gemini モデルのデプロイはサポートされていません。
  • VPC Service Controls はサポートされていません。代わりに Private Service Connect エンドポイントを使用してください。

次のステップ