專屬公開端點是線上推論的公開端點,這項功能有以下優點:
- 專屬網路:將推論要求傳送至專屬公開端點時,系統會將要求與其他使用者的流量隔離。
- 最佳化網路延遲
- 支援較大的酬載:最多 10 MB。
- 延長要求逾時時間:可設定最長 1 小時。
- 支援生成式 AI:支援串流和 gRPC。推論逾時時間最長可設定為 1 小時。
因此,建議您採用專屬公開端點,做為提供 Vertex AI 線上推論的最佳做法。
詳情請參閱「選擇端點類型」。
建立專屬公開端點,並將模型部署至該端點
您可以使用Google Cloud 控制台建立專屬端點,並將模型部署至該端點。詳情請參閱「使用 Google Cloud 控制台部署模型」一文。
您也可以建立專用的公開端點,並使用 Vertex AI API 將模型部署至該端點,方法如下:
- 建立專用的公開端點。 建立端點時,系統支援推論逾時和要求/回應記錄設定。
- 使用 Vertex AI API 部署模型。
透過專屬公開端點取得線上推論結果
專屬端點支援 HTTP 和 gRPC 通訊協定。如果是 gRPC 要求,則必須加入 x-vertex-ai-endpoint-id 標頭,才能正確識別端點。系統支援下列 API:
- 預測
- RawPredict
- StreamRawPredict
- Chat Completion (僅限 Model Garden)
您可以使用 Python 適用的 Vertex AI SDK,將線上推論要求傳送至專屬公開端點。詳情請參閱「將線上推論要求傳送至專屬公開端點」。
教學課程
限制
- 不支援部署微調後的 Gemini 模型。
- 不支援 VPC Service Controls。請改用 Private Service Connect 端點。
後續步驟
- 瞭解 Vertex AI 線上推論端點類型。