选择端点类型

如需部署模型以进行在线推理，您需要一个端点。端点可分为以下类型：

公共端点可通过公共互联网访问。它们更易于使用，因为不需要任何专用网络基础设施。公共端点有两种类型：专用和共享。专用公共端点是速度更快的端点，可提供生产隔离、支持更大的载荷大小，并且请求超时时间比共享公共端点更长。此外，当您向专用公共端点发送推理请求时，该请求会与其他用户的流量隔离开。因此，建议采用专用公共端点作为最佳实践。
使用 Private Service Connect 的专用私有端点可为本地环境与Google Cloud之间的私密通信提供安全连接。它们可用于通过使用 Private Service Connect API 来控制 Google API 流量。建议将使用专用端点作为最佳实践。
专用端点还可提供与模型的安全连接，也可用于本地环境与Google Cloud之间的私密通信。它们通过 VPC 网络对等互连连接使用专用服务访问通道。

如需详细了解如何将模型部署到端点，请参阅将模型部署到端点。

下表比较了用于提供 Vertex AI 在线推理的受支持的端点类型。

	专用公共端点（推荐）	共享公共端点	使用 Private Service Connect 的专用私有端点（推荐）	专用端点
用途	默认网络体验。支持从公用互联网提交请求。	默认网络体验。支持从公用互联网提交请求。	建议用于生产企业应用。通过确保请求和响应以专用方式进行路由，从而缩短网络延迟时间并提高安全性。	建议用于生产企业应用。通过确保请求和响应以专用方式进行路由，从而缩短网络延迟时间并提高安全性。
网络访问	使用专用网络层面的公共互联网	使用共享网络层面的公共互联网	使用 Private Service Connect 端点的专用网络	使用专用服务访问通道 (VPC 网络对等互连) 的专用网络
VPC Service Controls	不受支持。请改用专用私有端点。	支持	支持	支持
费用	Vertex AI Inference	Vertex AI Inference	Vertex AI Inference + Private Service Connect 端点	Vertex AI Inference + 专用服务访问通道（请参阅“使用 Private Service Connect 端点（转发规则）访问已发布的服务”）
网络延迟	优化	未优化	优化	优化
传输加密	使用 CA 签名证书的 TLS	使用 CA 签名证书的 TLS	使用自签名证书的可选 TLS	无
推理超时	最多可配置 1 小时	60 秒	最多可配置 1 小时	60 秒
载荷大小限制	10 MB	1.5 MB	10 MB	10 MB
QPM 配额	无限制	30000	无限制	无限制
协议支持	HTTP 或 gRPC	HTTP	HTTP 或 gRPC	HTTP
流式传输支持	是 (SSE)	否	是 (SSE)	否
流量拆分	是	是	是	否
请求和响应日志记录	是	是	是	否
访问日志记录	是	是	是	否
部署调优后的 Gemini 模型	否	是	否	否
AutoML 模型和可解释性	否	是	否	否
支持的客户端库	Python 版 Vertex AI SDK	Vertex AI 客户端库、Vertex AI SDK for Python	Python 版 Vertex AI SDK	Python 版 Vertex AI SDK

后续步骤

详细了解如何将模型部署到端点。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-12-04。