Preview. This feature is subject to the "Pre-GA Offerings Terms" in the General Service Terms section of the Service Specific Terms.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

使用专用公共端点进行在线推理

专用公共端点是一种用于在线推理的公共端点。它具有以下优点：

专用网络：当您向专用公共端点发送推理请求时，该请求会与其他用户的流量隔离开。
优化后的网络延迟
支持更大的载荷：最高 10 MB。
更长的请求超时时间：最多可配置 1 小时。
支持生成式 AI：支持流式传输和 gRPC。推理超时时间最多可配置 1 小时。

因此，建议采用专用公共端点作为最佳实践，以提供 Gemini Enterprise Agent Platform 在线推理服务。

如需了解详情，请参阅选择端点类型。

创建专用公共端点并向其部署模型

您可以使用 Google Cloud 控制台创建专用端点并向其部署模型。如需了解详情，请参阅使用 Google Cloud 控制台部署模型。

您还可以使用 Gemini Enterprise API 创建专用公共端点并向其部署模型，具体方法如下：

创建专用公共端点。在创建端点时，系统支持配置推理超时时间和请求-响应日志记录设置。
使用 Gemini Enterprise API 部署模型。

从专用公共端点获取在线推理结果

专用端点同时支持 HTTP 和 gRPC 通信协议。对于 gRPC 请求，必须包含 x-vertex-ai-endpoint-id 标头，以便正确识别端点。支持以下 API：

预测
RawPredict
StreamRawPredict
Chat Completion（仅限 Model Garden）

您可以使用 Agent Platform SDK for Python 向专用公共端点发送在线推理请求。如需了解详情，请参阅向专用公共端点发送在线推理请求。

教程

限制

不支持部署经过调优的 Gemini 模型。
不支持 VPC Service Controls。请改用 Private Service Connect 端点。

后续步骤

了解 Gemini Enterprise Agent Platform 在线推理端点类型。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2026-06-06。