训练和使用您自己的模型

本页面简要介绍了用于在 Agent Platform 上训练和使用您自己的机器学习 (ML) 模型的工作流。 Agent Platform 提供了一系列训练方法,旨在满足您的需求,从完全自动化到完全自定义。

  • AutoML:只需极少的技术工作,即可利用 Google 的自动化机器学习功能构建高质量的模型。
  • Vertex AI 无服务器训练:在全托管式按需环境中运行自定义训练代码,而无需担心基础架构。
  • Vertex AI 训练集群:在专门预留给您独占使用的加速器集群上运行大规模、高性能的 训练作业。
  • Agent Platform 上的 Ray:使用 代管式服务中的开源 Ray 框架扩缩 Python 应用和机器学习工作负载。

如需有关如何决定使用上述哪个方法的帮助,请参阅 选择训练方法

AutoML

借助 Gemini Enterprise Agent Platform 上的 AutoML,您可以根据您提供的训练数据构建无代码机器学习模型。AutoML 可以自动执行数据准备、模型选择、超参数调整和部署等任务,适用于各种数据类型和预测任务,这使得机器学习对更广泛的用户来说更易于使用。

您可以使用 AutoML 构建的模型类型

您可以构建的模型类型取决于您拥有的数据类型。 Gemini Enterprise Agent Platform 会为以下数据类型和模型目标提供 AutoML 解决方案:

数据类型 支持的目标
图片数据 分类、对象检测
表格数据 分类/回归、预测。

如需详细了解 AutoML,请参阅 AutoML 训练概览

在 Agent Platform 上运行自定义训练代码

如果 AutoML 无法满足您的需求,您可以提供自己的训练代码,并在 Agent Platform 的受管基础设施上运行该代码。这样一来,您就可以完全掌控并灵活调整模型的架构和训练逻辑,并使用您选择的任何机器学习框架。

Agent Platform 提供了两种主要模式来运行自定义训练代码:无服务器按需环境或专用预留集群。

Vertex AI 无服务器训练

无服务器训练是一项全托管式服务,可让您运行自定义训练应用,而无需预配或管理任何基础设施。您将代码打包到容器中,定义机器规范(包括 CPU 和 GPU),然后将其作为 CustomJob 提交。

Agent Platform 会处理剩下的工作:

  • 在作业运行期间预配计算资源。
  • 执行训练代码。
  • 在作业完成后删除资源。

这种按使用量付费的按需模型非常适合用于实验、快速原型设计,以及不需要保证瞬时容量的生产作业。

如需了解详情,请参阅 创建无服务器训练自定义作业

Vertex AI 训练集群

对于大规模、高性能和任务关键型训练,您可以预留专用加速器集群。这样可确保容量并消除排队,确保作业立即开始。

虽然您可以独占使用这些资源,但 Agent Platform 仍会处理管理集群的运营开销,包括硬件维护和操作系统修补。这种“托管有服务器”方法可让您获得专用集群的强大功能,而无需承担管理复杂性。

Gemini Enterprise Agent Platform 上的 Ray

Gemini Enterprise Agent Platform 上的 Ray 是一项服务,可让您直接在 Agent Platform 中使用开源 Ray 框架来伸缩 AI 和 Python 应用。Ray 旨在为机器学习工作流提供分布式计算和并行处理的基础设施。

Gemini Enterprise Agent Platform 上的 Ray 提供了一个托管环境,用于使用 Ray 框架运行 分布式应用,并提供可伸缩性以及与 服务的 Google Cloud 集成。

如需详细了解 Gemini Enterprise Agent Platform 上的 Ray,请参阅 Gemini Enterprise Agent Platform 上的 Ray 概览