了解如何在 Antigravity 的 Google Cloud Data Agent Kit 扩展程序中训练 AI 和 ML 模型。
在本快速入门中,您将使用会话模板和示例 Jupyter 笔记本预测纽约市出租车小费金额。使用带有 PySpark 的远程 Jupyter 内核,您可以尝试各种模型,例如线性回归、随机森林和 XGBoost。通过此流程,您可以执行分布式训练和推理。它展示了如何使用 Spark ML 和 XGBoost 库在多台机器上实现可伸缩性。
虽然本快速入门未涵盖,但您可以通过多种方式使用 Google Cloud Data Agent Kit 扩展程序来训练 Antigravity 的 AI 和机器学习模型:
- 如果您的训练数据集较大,或者您想使用 Apache Spark 提供的分布式训练功能,则可以使用带有远程内核的 Spark 笔记本。
- 如果您的数据集位于 BigQuery 中,并且 BigQuery ML 支持您的使用情形,则可以使用 BigQuery DataFrames 笔记本。
- 如果您的数据集较小,并且您想在本地训练模型,可以使用 Python 笔记本。
创建 Spark 运行时模板
借助 Serverless Spark 运行时模板,您可以启动具有一组给定配置的 Apache Spark 会话。如需创建新的无服务器运行时模板,请完成以下步骤:
- 在 IDE 活动栏中,点击 Google Cloud Data Agent Kit 图标。
- 在 Google Cloud Data Agent Kit 菜单中,展开 Apache Spark。
- 展开无服务器,然后点击 + 创建无服务器运行时。系统会显示无服务器运行时创建表单。
- 在显示名称字段中,输入
ai-ml-tutorial。 - 前往自动扩缩部分。
- 在下拉列表中将
spark.dynamicAllocation.enabled设置为 false。此设置是 XGBoost 与 Apache Spark 搭配使用的必要条件。 - 将所有其他字段保留为默认值。
- 点击提交。
新建笔记本
接下来,创建一个新的 Spark 笔记本:
- 在 Google Cloud Data Agent Kit 标签页的 Apache Spark 下,点击 + 新建 Spark Notebook。
- 选择 Remote Kernel 作为内核类型。
- 点击从示例笔记本开始。
- 在示例列表中,选择 Data Science with PySpark and Distributed XGBoost。系统会显示一个未命名的 Jupyter 笔记本。
训练模型
- 在笔记本标签页中,点击全部运行。内核选择器会要求您选择用于执行笔记本的内核。
- 点击选择其他内核。
- 点击 Remote Spark Kernels。
- 选择您之前创建的运行时模板 ai-ml-tutorial on Serverless Spark。
当系统创建无服务器 Spark 会话时,您会看到以下通知:Connecting to kernel: ai-ml-tutorial on Serverless Spark。当笔记本连接到远程 PySpark 内核时,执行会从第一个单元格开始。此过程大约需要两到三分钟。
检查 Spark 会话
- 在“Google Cloud Data Agent Kit”标签页中,展开“Apache Spark”下的 ai-ml-tutorial 运行时模板。IDE 会显示您使用此运行时模板创建的交互式会话的列表。
- 找到系统通过执行笔记本创建的会话(位于列表顶部)。点击相应会话即可查看其详细信息。您可以查看会话配置以及系统执行笔记本时消耗的资源。
清理
成功执行笔记本后,请执行以下清理步骤。
- 在“Google Cloud Data Agent Kit”标签页中,右键点击“Apache Spark”下的 Serverless,然后选择列出 Serverless 运行时。系统会显示无服务器运行时列表。
- 点击
ai-ml-tutorial的操作菜单,列出系统根据您的模板创建的所有互动会话。 - 在操作下,点击删除。
- 返回“无服务器运行时”窗口。
- 在
ai-ml-tutorial的操作下,点击删除。 - 点击确认以删除您为本教程创建的模板。