您必须先将训练好的模型部署到端点,然后才能通过该模型获取在线推理结果。您可以使用 Google Cloud 控制台、Google Cloud CLI 或 Vertex AI API 来执行此操作。
本文档介绍了将模型部署到端点的流程。
部署模型时发生的情况
部署模型的操作会将物理资源与模型相关联,以便它以较低的延迟执行在线推理。
您可以将多个模型部署到一个端点,也可以将同一模型部署到多个端点。如需了解详情,请参阅将多个模型部署到同一端点的原因。
准备将模型部署到端点
在模型部署期间,您要针对如何运行在线推理做出以下重要决策:
资源已创建 | 在创建资源时指定的设置 |
---|---|
端点 | 运行推理的位置 |
型号 | 要使用的容器 (ModelContainerSpec ) |
DeployedModel | 用于在线推理的计算资源 |
将模型部署到端点后,这些部署设置便无法更改。如需更改这些设置,您必须重新部署模型。
部署流程的第一步是确定要使用的端点类型。如需了解详情,请参阅选择端点类型。
接下来,确保模型在 Vertex AI Model Registry 中可见。这是模型可部署的必要条件。 如需了解 Model Registry(包括如何导入模型制品或直接在 Model Registry 中创建模型制品),请参阅 Vertex AI Model Registry 简介。
接下来要决定的是使用哪些计算资源来提供模型服务。模型的训练类型(AutoML 或自定义)和 (AutoML) 数据类型决定了模型可用的物理资源类型。部署模型后,您可以 mutate
其中一些资源,而无需创建新部署。
端点资源提供用于请求推理的服务端点(网址)。例如:
https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict
将模型部署到端点
您可以通过使用 Google Cloud 控制台或使用 gcloud CLI 或 Vertex AI API 将模型部署到端点。
使用 Google Cloud 控制台将模型部署到公共端点
在 Google Cloud 控制台中,您可以将模型部署到现有的专用或共享公共端点,也可以在部署过程中创建新端点。如需了解详情,请参阅使用 Google Cloud 控制台部署模型。
使用 gcloud CLI 或 Vertex AI API 将模型部署到公共端点
使用 gcloud CLI 或 Vertex AI API 部署模型时,您必须先创建专用端点或共享端点,然后将模型部署到该端点。有关详情,请参阅:
将模型部署到 Private Service Connect 端点
如需了解详情,请参阅使用 Private Service Connect 端点进行在线推理。
使用滚动部署更新已部署的模型
您可以使用滚动部署将已部署的模型替换为同一模型的新版本。新模型会重复使用上一个模型的计算资源。如需了解详情,请参阅使用滚动部署替换已部署的模型。
取消部署模型并删除端点
您可以取消部署模型并删除端点。如需了解详情,请参阅取消部署模型并删除端点。
将多个模型部署到同一端点的原因
将两个模型部署到同一端点后,您可以逐步替换其中一个模型。例如,假设您正在使用某个模型,然后找到一种方法可通过新训练数据来提高该模型的准确率。但是,您不希望将应用更新为指向新的端点网址,也不希望应用发生突然的变化。您可以将新模型添加到同一端点,处理一小部分流量,然后逐渐增加新模型的流量分配比例,直到新模型处理所有流量。
由于资源与模型(而非端点)关联,您可以将不同类型的模型部署到同一端点。但是,最佳做法是将某个特定类型的模型(例如,AutoML 表格或自定义训练)部署到一个端点。此配置更易于管理。
将一个模型部署到多个端点的原因
您可能需要针对不同的应用环境(例如测试和生产)部署具有不同资源的模型。您可能还需要为推理请求支持不同的 SLO。也许您的某一个应用的性能需求明显高于其他应用。在这种情况下,您可以将该模型部署到具有更多机器资源的高性能端点。如需优化费用,您还可以将模型部署到具有较少机器资源的低性能端点。
扩缩行为
Vertex AI 推理自动扩缩功能会根据并发请求的数量扩缩推理节点的数量。这样一来,您就可以在管理费用的同时,根据不断变化的请求负载动态调整容量。如需了解详情,请参阅扩缩 Vertex AI Inference 的推理节点。
后续步骤
- 选择端点类型。
- 使用 Google Cloud 控制台部署模型。
- 了解针对专用端点和 Private Service Connect 端点的推理请求-响应日志记录。
- 了解如何获取在线推理结果。
- 了解如何更改推理日志记录的默认设置。