如需部署模型以进行在线推理,您需要一个端点。端点可分为以下类型:
公共端点可通过公共互联网访问。它们更易于使用,因为不需要任何专用网络基础设施。公共端点有两种类型:专用和共享。专用公共端点是速度更快的端点,可提供生产隔离、支持更大的载荷大小,并且请求超时时间比共享公共端点更长。此外,当您向专用公共端点发送推理请求时,该请求会与其他用户的流量隔离开。因此,建议采用专用公共端点作为最佳实践。
使用 Private Service Connect 的专用私有端点可为本地环境与Google Cloud之间的私密通信提供安全连接。它们可用于通过使用 Private Service Connect API 来控制 Google API 流量。建议将使用专用端点作为最佳实践。
专用端点还可提供与模型的安全连接,也可用于本地环境与Google Cloud之间的私密通信。它们通过 VPC 网络对等互连连接使用专用服务访问通道。
如需详细了解如何将模型部署到端点,请参阅将模型部署到端点。
下表比较了用于提供 Vertex AI 在线推理的受支持的端点类型。
专用公共端点(推荐) | 共享公共端点 | 使用 Private Service Connect 的专用私有端点(推荐) | 专用端点 | |
---|---|---|---|---|
用途 | 默认网络体验。支持从公用互联网提交请求。 | 默认网络体验。支持从公用互联网提交请求。 | 建议用于生产企业应用。通过确保请求和响应以专用方式进行路由,从而缩短网络延迟时间并提高安全性。 | 建议用于生产企业应用。通过确保请求和响应以专用方式进行路由,从而缩短网络延迟时间并提高安全性。 |
网络访问 | 使用专用网络层面的公共互联网 | 使用共享网络层面的公共互联网 | 使用 Private Service Connect 端点的专用网络 | 使用专用服务访问通道 (VPC 网络对等互连) 的专用网络 |
VPC Service Controls | 不受支持。请改用专用私有端点。 | 支持 | 支持 | 支持 |
费用 | Vertex AI Inference | Vertex AI Inference | Vertex AI Inference + Private Service Connect 端点 | Vertex AI Inference + 专用服务访问通道(请参阅“使用 Private Service Connect 端点(转发规则)访问已发布的服务”) |
网络延迟 | 优化 | 未优化 | 优化 | 优化 |
传输加密 | 使用 CA 签名证书的 TLS | 使用 CA 签名证书的 TLS | 使用自签名证书的可选 TLS | 无 |
推理超时 | 最多可配置 1 小时 | 60 秒 | 最多可配置 1 小时 | 60 秒 |
载荷大小限制 | 10 MB | 1.5 MB | 10 MB | 10 MB |
QPM 配额 | 无限制 | 30000 | 无限制 | 无限制 |
协议支持 | HTTP 或 gRPC | HTTP | HTTP 或 gRPC | HTTP |
流式传输支持 | 是 (SSE) | 否 | 是 (SSE) | 否 |
流量拆分 | 是 | 是 | 是 | 否 |
请求和响应日志记录 | 是 | 是 | 是 | 否 |
访问日志记录 | 是 | 是 | 是 | 否 |
部署调优后的 Gemini 模型 | 否 | 是 | 否 | 否 |
AutoML 模型和可解释性 | 否 | 是 | 否 | 否 |
支持的客户端库 | Python 版 Vertex AI SDK | Vertex AI 客户端库、Vertex AI SDK for Python | Python 版 Vertex AI SDK | Python 版 Vertex AI SDK |
后续步骤
- 详细了解如何将模型部署到端点。