将模型部署到端点

您必须先将训练好的模型部署到端点,然后才能通过该模型获取在线推理结果。您可以使用 Google Cloud 控制台、Google Cloud CLI 或 Vertex AI API 来执行此操作。

本文档介绍了将模型部署到端点的流程。

部署模型时发生的情况

部署模型的操作会将物理资源与模型相关联,以便它以较低的延迟执行在线推理。

您可以将多个模型部署到一个端点,也可以将同一模型部署到多个端点。如需了解详情,请参阅将多个模型部署到同一端点的原因

准备将模型部署到端点

在模型部署期间,您要针对如何运行在线推理做出以下重要决策:

资源已创建 在创建资源时指定的设置
端点 运行推理的位置
型号 要使用的容器 (ModelContainerSpec)
DeployedModel 用于在线推理的计算资源

将模型部署到端点后,这些部署设置便无法更改。如需更改这些设置,您必须重新部署模型。

部署流程的第一步是确定要使用的端点类型。如需了解详情,请参阅选择端点类型

接下来,确保模型在 Vertex AI Model Registry 中可见。这是模型可部署的必要条件。 如需了解 Model Registry(包括如何导入模型制品或直接在 Model Registry 中创建模型制品),请参阅 Vertex AI Model Registry 简介

接下来要决定的是使用哪些计算资源来提供模型服务。模型的训练类型(AutoML 或自定义)和 (AutoML) 数据类型决定了模型可用的物理资源类型。部署模型后,您可以 mutate 其中一些资源,而无需创建新部署。

端点资源提供用于请求推理的服务端点(网址)。例如:

   https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

将模型部署到端点

您可以通过使用 Google Cloud 控制台使用 gcloud CLI 或 Vertex AI API 将模型部署到端点。

使用 Google Cloud 控制台将模型部署到公共端点

在 Google Cloud 控制台中,您可以将模型部署到现有的专用或共享公共端点,也可以在部署过程中创建新端点。如需了解详情,请参阅使用 Google Cloud 控制台部署模型

使用 gcloud CLI 或 Vertex AI API 将模型部署到公共端点

使用 gcloud CLI 或 Vertex AI API 部署模型时,您必须先创建专用端点或共享端点,然后将模型部署到该端点。有关详情,请参阅:

  1. 创建专用或共享公共端点
  2. 使用 gcloud CLI 或 Vertex AI API 部署模型

将模型部署到 Private Service Connect 端点

如需了解详情,请参阅使用 Private Service Connect 端点进行在线推理

使用滚动部署更新已部署的模型

您可以使用滚动部署将已部署的模型替换为同一模型的新版本。新模型会重复使用上一个模型的计算资源。如需了解详情,请参阅使用滚动部署替换已部署的模型

取消部署模型并删除端点

您可以取消部署模型并删除端点。如需了解详情,请参阅取消部署模型并删除端点

将多个模型部署到同一端点的原因

将两个模型部署到同一端点后,您可以逐步替换其中一个模型。例如,假设您正在使用某个模型,然后找到一种方法可通过新训练数据来提高该模型的准确率。但是,您不希望将应用更新为指向新的端点网址,也不希望应用发生突然的变化。您可以将新模型添加到同一端点,处理一小部分流量,然后逐渐增加新模型的流量分配比例,直到新模型处理所有流量。

由于资源与模型(而非端点)关联,您可以将不同类型的模型部署到同一端点。但是,最佳做法是将某个特定类型的模型(例如,AutoML 表格或自定义训练)部署到一个端点。此配置更易于管理。

将一个模型部署到多个端点的原因

您可能需要针对不同的应用环境(例如测试和生产)部署具有不同资源的模型。您可能还需要为推理请求支持不同的 SLO。也许您的某一个应用的性能需求明显高于其他应用。在这种情况下,您可以将该模型部署到具有更多机器资源的高性能端点。如需优化费用,您还可以将模型部署到具有较少机器资源的低性能端点。

扩缩行为

Vertex AI 推理自动扩缩功能会根据并发请求的数量扩缩推理节点的数量。这样一来,您就可以在管理费用的同时,根据不断变化的请求负载动态调整容量。如需了解详情,请参阅扩缩 Vertex AI Inference 的推理节点

后续步骤