了解如何在适用于 Visual Studio Code 的 Google Cloud Data Agent Kit 扩展程序中训练 AI 和机器学习模型。
在本快速入门中,您将使用会话模板和示例 Jupyter 笔记本预测纽约市出租车小费金额。您将使用带有 PySpark 的远程 Jupyter 内核,尝试各种模型,例如线性回归、随机森林和 XGBoost。通过此流程,您可以执行分布式训练和推理。它演示了使用 Spark ML 和 XGBoost 库在多台机器上的可伸缩性。
虽然本快速入门未涵盖,但您可以使用适用于 Visual Studio Code 的 Google Cloud Data Agent Kit 扩展程序以多种方式训练 AI 和机器学习模型:
- 如果您的训练数据集很大,或者您需要 Apache Spark 提供的分布式训练功能,则可以使用带有远程内核的 Spark 笔记本。
- 如果您的数据集位于 BigQuery 中,并且 BigQuery ML 支持您的使用场景,则可以使用 BigQuery DataFrames 笔记本。
- 如果您的数据集很小,并且您想在本地训练模型,则可以使用 Python 笔记本。
创建 Spark 运行时模板
借助 Serverless Spark 运行时模板,您可以使用给定的配置集启动 Apache Spark 会话。如需创建新的 Serverless 运行时模板,请完成以下步骤:
- 在 IDE 活动栏中,点击 Google Cloud Data Agent Kit 图标。
- 在 Google Cloud Data Agent Kit 菜单中,展开 Apache Spark 。
- 展开 Serverless ,然后点击 + Create serverless runtimes 。系统会显示 Serverless 运行时创建表单。
- 在显示名称 字段中,输入
ai-ml-tutorial。 - 前往自动扩缩 部分。
- 在下拉列表中,将
spark.dynamicAllocation.enabled设置为 false。XGBoost 需要此设置才能与 Apache Spark 搭配使用。 - 将所有其他字段保留为默认设置。
- 点击提交 。
新建笔记本
接下来,创建一个新的 Spark 笔记本:
- 在 Google Cloud Data Agent Kit 标签页的 Apache Spark 下,点击 + New Spark Notebook。
- 为内核类型选择远程内核 。
- 点击从示例笔记本开始 。
- 在示例列表中,选择 Data Science with PySpark and Distributed XGBoost 。系统会显示一个未命名的 Jupyter 笔记本。
训练模型
- 在笔记本标签页中,点击全部运行 。内核选择器会要求您选择一个内核来执行笔记本。
- 点击选择其他内核 。
- 点击 Remote Spark Kernels 。
- 选择 ai-ml-tutorial on Serverless Spark,即您之前创建的运行时模板 。
在系统创建 Serverless Spark 会话时,您会看到以下通知:Connecting to kernel: ai-ml-tutorial on Serverless Spark。当笔记本连接到远程 PySpark 内核时,执行会从第一个单元格开始。此过程大约需要两到三分钟。
检查 Spark 会话
- 在 Google Cloud Data Agent Kit 标签页的 Apache Spark 下,展开 ai-ml-tutorial 运行时模板。IDE 会显示您使用此运行时模板创建的交互式会话列表。
- 在列表顶部找到系统通过执行笔记本创建的会话。点击该会话可查看其详细信息。您可以查看会话配置以及系统执行笔记本时使用的资源。
清理
成功执行笔记本后,请执行以下清理步骤。
- 在 Google Cloud Data Agent Kit 标签页的 Apache Spark 下,右键点击 Serverless ,然后选择 List Serverless Runtimes 。系统会显示 Serverless 运行时列表。
- 点击
ai-ml-tutorial的操作 菜单,列出系统从您的模板创建的所有交互式会话。 - 在操作 下,点击删除 。
- 返回 Serverless 运行时窗口。
- 在
ai-ml-tutorial的操作 下,点击删除 。 - 点击确认 以删除您为本教程创建的模板。