オンライン推論用にモデルをデプロイするには、エンドポイントが必要です。エンドポイントは次のタイプに分類できます。
パブリック エンドポイントには、公共のインターネット経由でアクセスできます。プライベート ネットワーク インフラストラクチャが不要なため、使いやすくなっています。パブリック エンドポイントには、専用と共有の 2 種類があります。専用パブリック エンドポイントは、共有パブリック エンドポイントよりも高速なエンドポイントであり、本番環境の分離、より大きなペイロード サイズのサポート、より長いリクエスト タイムアウトを提供します。また、専用パブリック エンドポイントに推論リクエストを送信すると、他のユーザーのトラフィックから分離されます。このような理由から、専用パブリック エンドポイントはベスト プラクティスとして推奨されます。
Private Service Connect を使用する専用のプライベート エンドポイントは、オンプレミスとGoogle Cloud間のプライベート通信に安全な接続を提供します。これらは、Private Service Connect API を使用して Google API トラフィックを制御するために使用できます。ベスト プラクティスとして推奨されます。
プライベート エンドポイントは、モデルへの安全な接続も提供し、オンプレミスとGoogle Cloud間のプライベート通信にも使用できます。VPC ネットワーク ピアリング接続を介してプライベート サービス アクセスを使用します。
エンドポイントへのモデルのデプロイの詳細については、エンドポイントにモデルをデプロイするをご覧ください。
次の表に、Vertex AI オンライン推論のサービングでサポートされているエンドポイント タイプを比較します。
専用パブリック エンドポイント(推奨) | 共有パブリック エンドポイント | Private Service Connect を使用する専用プライベート エンドポイント(推奨) | プライベート エンドポイント | |
---|---|---|---|---|
目的 | デフォルトのネットワーキング エクスペリエンス。パブリック インターネットからのリクエストの送信を有効にします。 | デフォルトのネットワーキング エクスペリエンス。パブリック インターネットからのリクエストの送信を有効にします。 | 本番環境のエンタープライズ アプリケーションに推奨されます。リクエストとレスポンスが非公開でルーティングされるようにすることで、ネットワーク レイテンシとセキュリティを向上させます。 | 本番環境のエンタープライズ アプリケーションに推奨されます。リクエストとレスポンスが非公開でルーティングされるようにすることで、ネットワーク レイテンシとセキュリティを向上させます。 |
ネットワーキング アクセス | 専用のネットワーキング プレーンを使用する公共のインターネット | 共有ネットワーキング プレーンを使用する公共のインターネット | Private Service Connect エンドポイントを使用するプライベート ネットワーキング | プライベート サービス アクセス(VPC ネットワーク ピアリング)を使用するプライベート ネットワーキング |
VPC Service Controls | サポートされていません。代わりに専用のプライベート エンドポイントを使用してください。 | サポート対象 | サポート対象 | サポート対象 |
費用 | Vertex AI 推論 | Vertex AI 推論 | Vertex AI Inference + Private Service Connect エンドポイント | Vertex AI Inference + プライベート サービス アクセス(「Private Service Connect エンドポイント(転送ルール)を使用して、公開済みのサービスにアクセスする」をご覧ください) |
ネットワーク レイテンシ | 最適化 | 最適化なし | 最適化 | 最適化 |
転送データの暗号化 | CA 署名付き証明書を使用した TLS | CA 署名付き証明書を使用した TLS | 自己署名証明書を使用した TLS(省略可) | なし |
推論のタイムアウト | 構成可能(最大 1 時間) | 60 秒 | 構成可能(最大 1 時間) | 60 秒 |
ペイロード サイズの上限 | 10 MB | 1.5 MB | 10 MB | 10 MB |
QPM の割り当て | 無制限 | 30,000 | 無制限 | 無制限 |
プロトコル サポート | HTTP または gRPC | HTTP | HTTP または gRPC | HTTP |
ストリーミングのサポート | はい(SSE) | いいえ | はい(SSE) | いいえ |
トラフィック分割 | はい | はい | はい | いいえ |
リクエストとレスポンスのロギング | はい | はい | はい | いいえ |
アクセス ロギング | はい | はい | はい | いいえ |
チューニングされた Gemini モデルのデプロイ | いいえ | ○ | いいえ | いいえ |
AutoML モデルと説明可能性 | いいえ | ○ | いいえ | いいえ |
サポートされているクライアント ライブラリ | Vertex AI SDK for Python | Vertex AI クライアント ライブラリ、Vertex AI SDK for Python | Vertex AI SDK for Python | Vertex AI SDK for Python |
次のステップ
- エンドポイントにモデルをデプロイする方法について確認してください。