使用专用公共端点进行在线推理

专用公共端点是一种用于在线推理的公共端点。 它具有以下优点:

  • 专用网络:当您向专用公共端点发送推理请求时,该请求会与其他用户的流量隔离开。
  • 优化后的网络延迟
  • 支持更大的载荷:最高 10 MB。
  • 更长的请求超时时间:最多可配置 1 小时。
  • 支持生成式 AI:支持流式传输和 gRPC。推理超时时间最多可配置 1 小时。

因此,建议采用专用公共端点作为最佳实践,以提供 Gemini Enterprise Agent Platform 在线推理服务。

如需了解详情,请参阅 选择端点类型

创建专用公共端点并向其部署模型

您可以使用 Google Cloud 控制台创建专用端点并向其部署模型。如需了解详情,请参阅 使用 Google Cloud 控制台部署模型。

您还可以使用 Gemini Enterprise API 创建专用公共端点并向其部署模型,具体方法如下:

  1. 创建专用公共端点。 在创建端点时,系统支持配置推理超时时间和请求-响应日志记录设置。
  2. 使用 Gemini Enterprise API 部署模型

从专用公共端点获取在线推理结果

专用端点同时支持 HTTP 和 gRPC 通信协议。对于 gRPC 请求,必须包含 x-vertex-ai-endpoint-id 标头,以便正确识别端点。支持以下 API:

  • 预测
  • RawPredict
  • StreamRawPredict
  • Chat Completion(仅限 Model Garden)

您可以使用 Agent Platform SDK for Python 向专用公共端点发送在线推理请求。如需了解详情,请参阅 向专用公共端点发送在线推理请求

教程

限制

  • 不支持部署经过调优的 Gemini 模型。
  • 不支持 VPC Service Controls。请改用 Private Service Connect 端点。

后续步骤

  • 了解 Gemini Enterprise Agent Platform 在线推理 端点类型