Vertex AI 說明文件不再更新
Vertex AI 的服務現已併入 Gemini Enterprise Agent Platform。如要查看最新資訊,請參閱 Agent Platform 說明文件。
Google uses AI technology to translate content into your preferred language. AI translations can contain errors.
使用專用公開端點進行線上推論
透過集合功能整理內容
你可以依據偏好儲存及分類內容。
專屬公開端點是線上推論的公開端點,這項功能有以下優點:
- 專屬網路:將推論要求傳送至專屬公開端點時,系統會將要求與其他使用者的流量隔離。
- 最佳化網路延遲
- 支援較大的酬載:最多 10 MB。
- 延長要求逾時時間:可設定最長 1 小時。
- 支援生成式 AI:支援串流和 gRPC。推論逾時時間最長可設定為 1 小時。
因此,建議您採用專屬公開端點,做為提供 Vertex AI 線上推論的最佳做法。
詳情請參閱「選擇端點類型」。
建立專屬公開端點,並將模型部署至該端點
您可以使用Google Cloud 控制台建立專屬端點,並將模型部署至該端點。詳情請參閱「使用 Google Cloud 控制台部署模型」一文。
您也可以建立專用的公開端點,並使用 Vertex AI API 將模型部署至該端點,方法如下:
- 建立專用的公開端點。
建立端點時,系統支援推論逾時和要求/回應記錄設定。
- 使用 Vertex AI API 部署模型。
透過專屬公開端點取得線上推論結果
專屬端點支援 HTTP 和 gRPC 通訊協定。如果是 gRPC 要求,則必須加入 x-vertex-ai-endpoint-id 標頭,才能正確識別端點。系統支援下列 API:
- 預測
- RawPredict
- StreamRawPredict
- Chat Completion (僅限 Model Garden)
您可以使用 Python 適用的 Vertex AI SDK,將線上推論要求傳送至專屬公開端點。詳情請參閱「將線上推論要求傳送至專屬公開端點」。
教學課程
限制
- 不支援部署微調後的 Gemini 模型。
- 不支援 VPC Service Controls。請改用 Private Service Connect 端點。
後續步驟
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2026-05-20 (世界標準時間)。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["難以理解","hardToUnderstand","thumb-down"],["資訊或程式碼範例有誤","incorrectInformationOrSampleCode","thumb-down"],["缺少我需要的資訊/範例","missingTheInformationSamplesINeed","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2026-05-20 (世界標準時間)。"],[],[]]