本页面简要介绍了用于在 Vertex AI 上训练和使用您自己的机器学习 (ML) 模型的工作流。Vertex AI 提供了一系列训练方法,旨在满足您的需求,从完全自动化到完全自定义。
- AutoML:利用 Google 的自动化机器学习功能,只需极少的技术工作即可构建高质量的模型。
- Vertex AI 无服务器训练:在全托管式按需环境中运行自定义训练代码,而无需担心基础架构。
- Vertex AI 训练集群:在专门预留给您独占使用的加速器集群上运行大规模、高性能的训练作业。
- Ray on Vertex AI:使用托管式服务中的开源 Ray 框架扩缩 Python 应用和机器学习工作负载。
如需有关如何决定使用上述哪个方法的帮助,请参阅选择训练方法。
AutoML
借助 Vertex AI 上的 AutoML,您可以根据您提供的训练数据构建无代码机器学习模型。AutoML 可以自动执行数据准备、模型选择、超参数调优和部署等任务,适用于各种数据类型和预测任务,从而让更多用户能够使用机器学习。
您可以使用 AutoML 构建的模型类型
您可以构建的模型类型取决于您拥有的数据类型。Vertex AI 会为以下数据类型和模型目标提供 AutoML 解决方案:
| 数据类型 | 支持的目标 |
|---|---|
| 图片数据 | 分类、对象检测 |
| 表格数据 | 分类/回归、预测。 |
如需详细了解 AutoML,请参阅 AutoML 训练概览。
在 Vertex AI 上运行自定义训练代码
如果 AutoML 无法满足您的需求,您可以提供自己的训练代码,并在 Vertex AI 的受管基础设施上运行该代码。这样一来,您就可以完全掌控并灵活调整模型的架构和训练逻辑,并使用您选择的任何机器学习框架。
Vertex AI 提供了两种主要模式来运行自定义训练代码:无服务器按需环境或专用预留集群。
Vertex AI 无服务器训练
无服务器训练是一项全托管式服务,可让您运行自定义训练应用,而无需预配或管理任何基础设施。您将代码打包到容器中,定义机器规范(包括 CPU 和 GPU),然后将其作为 CustomJob 提交。
Vertex AI 会处理剩下的工作:
- 在作业运行期间预配计算资源。
- 执行训练代码。
- 在作业完成后删除资源。
这种按使用量付费的按需模型非常适合用于实验、快速原型设计,以及不需要保证瞬时容量的生产作业。
如需了解详情,请参阅创建无服务器训练
训练集群
对于大规模、高性能和任务关键型训练,您可以预留专用加速器集群。这样可确保容量并消除排队,确保作业立即开始。
虽然您可以独占使用这些资源,但 Vertex AI 仍会处理管理集群的运营开销,包括硬件维护和操作系统修补。这种“托管有服务器”方法可让您获得专用集群的强大功能,而无需承担管理复杂性。
Ray on Vertex AI
Ray on Vertex AI 是一项服务,可让您直接在 Vertex AI 平台中使用开源 Ray 框架来扩缩 AI 和 Python 应用。Ray 旨在为机器学习工作流提供分布式计算和并行处理的基础设施。
Ray on Vertex AI 提供了一个托管式环境,用于使用 Ray 框架运行分布式应用,并提供可伸缩性以及与 Google Cloud 服务的集成。
如需详细了解 Ray on Vertex AI,请参阅 Ray on Vertex AI 概览。