训练 AI 和机器学习模型

了解如何在适用于 Visual Studio Code 的 Google Cloud Data Agent Kit 扩展程序中训练 AI 和机器学习模型。

在本快速入门中,您将使用会话模板和示例 Jupyter 笔记本预测纽约市出租车小费金额。您将使用带有 PySpark 的远程 Jupyter 内核,尝试各种模型,例如线性回归、随机森林和 XGBoost。通过此流程,您可以执行分布式训练和推理。它演示了使用 Spark ML 和 XGBoost 库在多台机器上的可伸缩性。

虽然本快速入门未涵盖,但您可以使用适用于 Visual Studio Code 的 Google Cloud Data Agent Kit 扩展程序以多种方式训练 AI 和机器学习模型:

  • 如果您的训练数据集很大,或者您需要 Apache Spark 提供的分布式训练功能,则可以使用带有远程内核的 Spark 笔记本。
  • 如果您的数据集位于 BigQuery 中,并且 BigQuery ML 支持您的使用场景,则可以使用 BigQuery DataFrames 笔记本。
  • 如果您的数据集很小,并且您想在本地训练模型,则可以使用 Python 笔记本。

创建 Spark 运行时模板

借助 Serverless Spark 运行时模板,您可以使用给定的配置集启动 Apache Spark 会话。如需创建新的 Serverless 运行时模板,请完成以下步骤:

  1. 在 IDE 活动栏中,点击 Google Cloud Data Agent Kit 图标。
  2. 在 Google Cloud Data Agent Kit 菜单中,展开 Apache Spark
  3. 展开 Serverless ,然后点击 + Create serverless runtimes 。系统会显示 Serverless 运行时创建表单。
  4. 显示名称 字段中,输入 ai-ml-tutorial
  5. 前往自动扩缩 部分。
  6. 在下拉列表中,将 spark.dynamicAllocation.enabled 设置为 false。XGBoost 需要此设置才能与 Apache Spark 搭配使用。
  7. 将所有其他字段保留为默认设置。
  8. 点击提交

新建笔记本

接下来,创建一个新的 Spark 笔记本:

  1. 在 Google Cloud Data Agent Kit 标签页的 Apache Spark 下,点击 + New Spark Notebook
  2. 为内核类型选择远程内核
  3. 点击从示例笔记本开始
  4. 在示例列表中,选择 Data Science with PySpark and Distributed XGBoost 。系统会显示一个未命名的 Jupyter 笔记本。

训练模型

  1. 在笔记本标签页中,点击全部运行 。内核选择器会要求您选择一个内核来执行笔记本。
  2. 点击选择其他内核
  3. 点击 Remote Spark Kernels
  4. 选择 ai-ml-tutorial on Serverless Spark,即您之前创建的运行时模板 。

在系统创建 Serverless Spark 会话时,您会看到以下通知:Connecting to kernel: ai-ml-tutorial on Serverless Spark。当笔记本连接到远程 PySpark 内核时,执行会从第一个单元格开始。此过程大约需要两到三分钟。

检查 Spark 会话

  1. 在 Google Cloud Data Agent Kit 标签页的 Apache Spark 下,展开 ai-ml-tutorial 运行时模板。IDE 会显示您使用此运行时模板创建的交互式会话列表。
  2. 在列表顶部找到系统通过执行笔记本创建的会话。点击该会话可查看其详细信息。您可以查看会话配置以及系统执行笔记本时使用的资源。

清理

成功执行笔记本后,请执行以下清理步骤。

  1. 在 Google Cloud Data Agent Kit 标签页的 Apache Spark 下,右键点击 Serverless ,然后选择 List Serverless Runtimes 。系统会显示 Serverless 运行时列表。
  2. 点击 ai-ml-tutorial操作 菜单,列出系统从您的模板创建的所有交互式会话。
  3. 操作 下,点击删除
  4. 返回 Serverless 运行时窗口。
  5. ai-ml-tutorial操作 下,点击删除
  6. 点击确认 以删除您为本教程创建的模板。

后续步骤