Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

训练 AI 和机器学习模型

了解如何在适用于 Visual Studio Code 的 Google Cloud Data Agent Kit 扩展程序中训练 AI 和机器学习模型。

在本快速入门中，您将使用会话模板和示例 Jupyter 笔记本预测纽约市出租车小费金额。使用带有 PySpark 的远程 Jupyter 内核，您可以尝试各种模型，例如线性回归、随机森林和 XGBoost。通过此流程，您可以执行分布式训练和推理。它展示了如何使用 Spark ML 和 XGBoost 库在多台机器上实现可伸缩性。

虽然本快速入门未涵盖，但您可以使用适用于 Visual Studio Code 的 Google Cloud Data Agent Kit 扩展程序，通过多种方式训练 AI 和机器学习模型：

如果您的训练数据集较大，或者您想使用 Apache Spark 提供的分布式训练功能，则可以使用带有远程内核的 Spark 笔记本。
如果您的数据集位于 BigQuery 中，并且 BigQuery ML 支持您的使用情形，则可以使用 BigQuery DataFrames 笔记本。
如果您的数据集较小，并且您想在本地训练模型，可以使用 Python 笔记本。

准备工作

在开始之前，请执行以下操作：

创建 Spark 运行时模板

借助 Serverless Spark 运行时模板，您可以启动具有一组给定配置的 Apache Spark 会话。如需创建新的无服务器运行时模板，请完成以下步骤：

在 IDE 活动栏中，点击 Google Cloud Data Agent Kit 图标。
在 Google Cloud Data Agent Kit 菜单中，展开 Apache Spark。
展开无服务器，然后点击 + 创建无服务器运行时。系统会显示无服务器运行时创建表单。
在显示名称字段中，输入 ai-ml-tutorial。
前往自动扩缩部分。
在下拉列表中将 spark.dynamicAllocation.enabled 设置为 false。此设置是 XGBoost 与 Apache Spark 搭配使用的必要条件。
将所有其他字段保留为默认值。
点击提交。

新建笔记本

接下来，创建一个新的 Spark 笔记本：

在 Google Cloud Data Agent Kit 标签页的 Apache Spark 下，点击 + 新建 Spark Notebook。
选择 Remote Kernel 作为内核类型。
点击从示例笔记本开始。
在示例列表中，选择 Data Science with PySpark and Distributed XGBoost。系统会显示一个未命名的 Jupyter 笔记本。

训练模型

在笔记本标签页中，点击全部运行。内核选择器会要求您选择用于执行笔记本的内核。
点击选择其他内核。
点击 Remote Spark Kernels。
选择您之前创建的运行时模板 ai-ml-tutorial on Serverless Spark。

当系统创建无服务器 Spark 会话时，您会看到以下通知：Connecting to kernel: ai-ml-tutorial on Serverless Spark。当笔记本连接到远程 PySpark 内核时，执行会从第一个单元格开始。此过程大约需要 2-3 分钟。

检查 Spark 会话

在“Google Cloud Data Agent Kit”标签页中，展开“Apache Spark”下方的 ai-ml-tutorial 运行时模板。IDE 会显示您使用此运行时模板创建的交互式会话的列表。
找到系统通过执行笔记本创建的会话，该会话位于列表顶部。点击相应会话即可查看其详细信息。您可以查看会话配置以及系统为执行笔记本消耗的资源。

清理

成功执行笔记本后，请执行以下清理步骤。

在“Google Cloud Data Agent Kit”标签页中，右键点击 Apache Spark 下的无服务器，然后选择列出无服务器运行时。系统会显示无服务器运行时列表。
点击 ai-ml-tutorial 的操作菜单，列出系统根据您的模板创建的所有互动会话。
在操作下，点击删除。
返回“无服务器运行时”窗口。
在 ai-ml-tutorial 的操作下，点击删除。
点击确认以删除您为本教程创建的模板。