在此教程中,您将使用 Model Garden 将 Gemma 2B 开放模型部署到受 TPU 支持的 Vertex AI 端点。您必须先将模型部署到端点,然后才能使用该模型执行在线预测。部署模型会将物理资源与模型相关联,以便以低延迟方式执行在线预测。
部署 Gemma 2B 模型后,您可以使用 PredictionServiceClient
获取在线预测结果,以通过经过训练的模型进行推理。在线预测是指向部署到端点的模型发出的同步请求。
使用 Model Garden 部署 Gemma
将 Gemma 2B 模型部署到针对中小规模训练优化的 ct5lp-hightpu-1t
Compute Engine 机器类型。该类型的机器有一个 TPU v5e 加速器。如需详细了解如何使用 TPU 训练模型,请参阅 Cloud TPU v5e 训练。
在本教程中,您将使用 Model Garden 中的模型卡片部署指令调优的 Gemma 2B 开放模型。具体模型版本为 gemma2-2b-it
- -it
表示指令调优。
Gemma 2B 模型的参数规模较小,这意味着对资源的要求较低,同时能够提供较高的部署灵活性。
在 Google Cloud 控制台中,前往 Model Garden 页面。
点击 Gemma 2 模型卡片。
点击部署以打开部署模型窗格。
在部署模型窗格中,指定以下详细信息。
在部署环境部分,点击 Vertex AI。
在部署模型部分:
在资源 ID 部分,选择
gemma-2b-it
。对于模型名称和端点名称,接受默认值即可。例如:
- 模型名称:
gemma2-2b-it-1234567891234
- 端点名称:
gemma2-2b-it-mg-one-click-deploy
记下端点名称。您需要用该名称来查找代码示例中使用的端点 ID。
- 模型名称:
在部署设置部分:
对于基本设置,接受默认选项即可。
在区域部分,接受默认值或从列表中选择一个区域。记下相应区域。代码示例需要用到该区域。
在机器规格部分,选择受 TPU 支持的实例:
ct5lp-hightpu-1t (1 TPU_V5_LITEPOD; ct5lp-hightpu-1t)
。
点击部署。部署完成后,您会收到一封邮件,其中包含有关新端点的详细信息。您也可以通过依次点击在线预测 > 端点并选择相应区域,来查看端点详细信息。
使用 PredictionServiceClient 推断 Gemma 2B
部署 Gemma 2B 后,您可以使用 PredictionServiceClient
获取以下提示的在线预测结果:“为什么天空是蓝色的?”。
代码参数
PredictionServiceClient
代码示例需要您更新以下内容。
PROJECT_ID
:如需查找项目 ID,请按以下步骤操作。前往 Google Cloud 控制台中的欢迎页面。
从页面顶部的项目选择器中,选择您的项目。
项目名称、项目编号和项目 ID 会显示在欢迎标头后面。
ENDPOINT_REGION
:这是您在其中部署端点的区域。ENDPOINT_ID
:如要查找端点 ID,您可以在控制台中查看,或者运行gcloud ai endpoints list
命令。您需要记下部署模型窗格中的端点名称和区域。控制台
您可以通过依次点击在线预测 > 端点并选择相应区域,来查看端点详细信息。请注意
ID
列中显示的数字。gcloud
您可以运行
gcloud ai endpoints list
命令来查看端点详细信息。gcloud ai endpoints list \ --region=ENDPOINT_REGION \ --filter=display_name=ENDPOINT_NAME
输出类似于以下内容。
Using endpoint [https://us-central1-aiplatform.googleapis.com/] ENDPOINT_ID: 1234567891234567891 DISPLAY_NAME: gemma2-2b-it-mg-one-click-deploy
示例代码
在相应编程语言的示例代码中,更新 PROJECT_ID
、ENDPOINT_REGION
和 ENDPOINT_ID
。然后运行代码。
Python
如需了解如何安装或更新 Vertex AI SDK for Python,请参阅安装 Vertex AI SDK for Python。 如需了解详情,请参阅 Python API 参考文档。
Node.js
在尝试此示例之前,请按照《Vertex AI 快速入门:使用客户端库》中的 Node.js 设置说明执行操作。 如需了解详情,请参阅 Vertex AI Node.js API 参考文档。
如需向 Vertex AI 进行身份验证,请设置应用默认凭证。 如需了解详情,请参阅为本地开发环境设置身份验证。
Java
在尝试此示例之前,请按照《Vertex AI 快速入门:使用客户端库》中的 Java 设置说明执行操作。 如需了解详情,请参阅 Vertex AI Java API 参考文档。
如需向 Vertex AI 进行身份验证,请设置应用默认凭证。 如需了解详情,请参阅为本地开发环境设置身份验证。
Go
在尝试此示例之前,请按照《Vertex AI 快速入门:使用客户端库》中的 Go 设置说明执行操作。 如需了解详情,请参阅 Vertex AI Go API 参考文档。
如需向 Vertex AI 进行身份验证,请设置应用默认凭证。 如需了解详情,请参阅为本地开发环境设置身份验证。