选择端点类型

如需部署模型以进行在线推理,您需要一个端点。端点可分为以下类型:

  • 公共端点可通过公共互联网访问。它们更易于使用,因为不需要任何专用网络基础设施。公共端点有两种类型:专用和共享。专用公共端点是速度更快的端点,可提供生产隔离、支持更大的载荷大小,并且请求超时时间比共享公共端点更长。此外,当您向专用公共端点发送推理请求时,该请求会与其他用户的流量隔离开。因此,建议采用专用公共端点作为最佳实践。

  • 使用 Private Service Connect 的专用私有端点可为本地环境与Google Cloud之间的私密通信提供安全连接。它们可用于通过使用 Private Service Connect API 来控制 Google API 流量。建议将使用专用端点作为最佳实践。

  • 专用端点还可提供与模型的安全连接,也可用于本地环境与Google Cloud之间的私密通信。它们通过 VPC 网络对等互连连接使用专用服务访问通道

如需详细了解如何将模型部署到端点,请参阅将模型部署到端点

下表比较了用于提供 Vertex AI 在线推理的受支持的端点类型。

专用公共端点(推荐) 共享公共端点 使用 Private Service Connect 的专用私有端点(推荐) 专用端点
用途 默认网络体验。支持从公用互联网提交请求。 默认网络体验。支持从公用互联网提交请求。 建议用于生产企业应用。通过确保请求和响应以专用方式进行路由,从而缩短网络延迟时间并提高安全性。 建议用于生产企业应用。通过确保请求和响应以专用方式进行路由,从而缩短网络延迟时间并提高安全性。
网络访问 使用专用网络层面的公共互联网 使用共享网络层面的公共互联网 使用 Private Service Connect 端点的专用网络 使用专用服务访问通道 (VPC 网络对等互连) 的专用网络
VPC Service Controls 不受支持。请改用专用私有端点。 支持 支持 支持
费用 Vertex AI Inference Vertex AI Inference Vertex AI Inference + Private Service Connect 端点 Vertex AI Inference + 专用服务访问通道(请参阅“使用 Private Service Connect 端点(转发规则)访问已发布的服务”)
网络延迟 优化 未优化 优化 优化
传输加密 使用 CA 签名证书的 TLS 使用 CA 签名证书的 TLS 使用自签名证书的可选 TLS
推理超时 最多可配置 1 小时 60 秒 最多可配置 1 小时 60 秒
载荷大小限制 10 MB 1.5 MB 10 MB 10 MB
QPM 配额 无限制 30000 无限制 无限制
协议支持 HTTP 或 gRPC HTTP HTTP 或 gRPC HTTP
流式传输支持 是 (SSE) 是 (SSE)
流量拆分
请求和响应日志记录
访问日志记录
部署调优后的 Gemini 模型
AutoML 模型和可解释性
支持的客户端库 Python 版 Vertex AI SDK Vertex AI 客户端库Vertex AI SDK for Python Python 版 Vertex AI SDK Python 版 Vertex AI SDK

后续步骤