选择 Gemini Enterprise Agent Platform 无服务器训练方法

如果您要编写自己的训练代码,而不使用 AutoML,可以考虑以下几种 Gemini Enterprise Agent Platform 无服务器训练方式。本文档简要介绍运行无服务器训练的不同方法。

Agent Platform 上的无服务器训练资源

您可以创建三种类型的 Agent Platform 资源来在 Agent Platform 上训练自定义模型:

创建自定义作业时,您需要指定 Agent Platform 运行训练代码所需的设置,包括:

在工作器池中,您可以指定以下设置:

超参数调节作业具有配置额外设置,例如指标。详细了解 超参数调节

训练流水线用其他步骤编排无服务器训练作业或超参数调优作业,例如,在训练作业成功完成后加载数据集或将模型上传到 Agent Platform。

无服务器训练资源

如需查看项目中的现有训练流水线,请前往控制台的 Agent Platform 部分中的Training Pipelines 页面。Google Cloud

转到“训练流水线”

要查看项目中的现有自定义作业,请转到自定义作业页面。

转到“自定义作业”

要查看项目中的现有超参数调节作业,请转到超参数调节页面。

转到超参数调节

预构建和自定义容器

在向 Agent Platform 提交无服务器训练作业、超参数 调优作业或 训练流水线之前,您需要创建一个 Python 训练应用自定义容器定义您要在 Agent Platform 上运行的训练代码和 依赖项。如果您使用 TensorFlow、PyTorch、scikit- learn 或 XGBoost 创建 Python 训练应用,则可以使用我们的预构建容器运行您的代码。如果您不确定选择哪个选项,请参阅训练代码要求了解详情。

分布式训练

您可以通过指定多个工作器池来为分布式训练配置无服务器训练作业、超参数调优作业或训练流水线:

  • 使用第一个工作器池配置主副本,并将副本计数设置为 1。
  • 添加更多工作器池来配置工作器副本、参数服务器副本或评估器副本(如果您的机器学习框架支持分布式训练的这些额外集群任务)。

详细了解如何使用分布式训练

后续步骤