专用公共端点是一种用于在线推理的公共端点。 它具有以下优点:
- 专用网络:当您向专用公共端点发送推理请求时,该请求会与其他用户的流量隔离开。
- 优化后的网络延迟
- 支持更大的载荷:最高 10 MB。
- 更长的请求超时时间:最多可配置 1 小时。
- 支持生成式 AI:支持流式传输和 gRPC。推理超时时间最多可配置 1 小时。
因此,建议采用专用公共端点作为最佳实践,以提供 Gemini Enterprise Agent Platform 在线推理服务。
如需了解详情,请参阅 选择端点类型。
创建专用公共端点并向其部署模型
您可以使用 Google Cloud 控制台创建专用端点并向其部署模型。如需了解详情,请参阅 使用 Google Cloud 控制台部署模型。
您还可以使用 Gemini Enterprise API 创建专用公共端点并向其部署模型,具体方法如下:
- 创建专用公共端点。 在创建端点时,系统支持配置推理超时时间和请求-响应日志记录设置。
- 使用 Gemini Enterprise API 部署模型。
从专用公共端点获取在线推理结果
专用端点同时支持 HTTP 和 gRPC 通信协议。对于 gRPC 请求,必须包含 x-vertex-ai-endpoint-id 标头,以便正确识别端点。支持以下 API:
- 预测
- RawPredict
- StreamRawPredict
- Chat Completion(仅限 Model Garden)
您可以使用 Agent Platform SDK for Python 向专用公共端点发送在线推理请求。如需了解详情,请参阅 向专用公共端点发送在线推理请求。
教程
限制
- 不支持部署经过调优的 Gemini 模型。
- 不支持 VPC Service Controls。请改用 Private Service Connect 端点。
后续步骤
- 了解 Gemini Enterprise Agent Platform 在线推理 端点类型。