本教程介绍如何使用 Colab Enterprise 数据科学智能体通过自然语言提示构建机器学习 (ML) 模型。
在本教程中,您将使用爱荷华州酒类零售公开数据集构建一个机器学习模型来预测酒类销量。借助这款 AI 赋能的智能体,您可以使用自然语言提示直接在笔记本中编写、解释和排查代码问题,从而加快数据科学工作流程。
本教程面向数据从业者。
目标
在本教程中,您将学习如何使用数据科学智能体执行以下任务:
- 对爱荷华州酒类零售销售公开数据集执行探索性数据分析 (EDA),以了解数据分布、检查缺失值并验证总体数据质量。
- 找出所有产品中酒精饮料销量最高的商店。
- 使用 BigQuery ML 构建、训练和评估预测酒类销售额的模型。
- 生成并总结关键洞见和模型表现。
费用
在本文档中,您将使用 Google Cloud的以下收费组件:
如需根据您的预计使用情况来估算费用,请使用价格计算器。
完成本文档中描述的任务后,您可以通过删除所创建的资源来避免继续计费。如需了解详情,请参阅清理。
准备工作
- 登录您的 Google Cloud 账号。如果您是 Google Cloud新手,请 创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
启用 BigQuery、Gemini for Google Cloud、Dataform 和 Compute Engine API。
启用 API 所需的角色
如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (
roles/serviceusage.serviceUsageAdmin),该角色包含serviceusage.services.enable权限。了解如何授予角色。对于新项目,BigQuery API 会自动启用。
所需的角色
如果您创建了新项目,则您已拥有完成本教程所需的所有权限。如果您使用现有项目,请让管理员授予您以下角色。
用于创建和运行笔记本的权限
如需获得创建和运行笔记本所需的权限,请让您的管理员为您授予项目的 BigQuery Studio User (roles/bigquery.studioUser) IAM 角色。
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
如需查看创建和运行笔记本所需的权限,请参阅创建笔记本页面上的设置步骤。
如需详细了解 BigQuery Identity and Access Management (IAM),请参阅使用 IAM 进行访问权限控制。
创建 Colab Enterprise 笔记本并连接到运行时
Colab Enterprise 笔记本是由 Dataform 提供支持的 BigQuery Studio 代码资产。借助笔记本,您可以使用 SQL、Python 以及其他常见的软件包和 API 完成分析和机器学习工作流。
如需创建新笔记本并将其连接到默认运行时,请按以下步骤操作:
转到 BigQuery 页面。
在左侧窗格中,展开您的项目,然后点击 Notebooks。
依次点击新建笔记本 > 空白笔记本。
点击保存。
如需查看新笔记本,请点击笔记本标签页。您可能需要点击刷新 刷新。
对于未命名的笔记本,点击 more_vert 打开操作,然后选择重命名。
对于笔记本名称,输入
predict_liquor_sales,然后点击重命名。点击
predict_liquor_sales标签页。在笔记本工具栏中,点击连接,将笔记本连接到默认运行时环境。
使用数据科学智能体分析数据
数据科学智能体是一款由 Gemini 赋能的助理,可以直接在笔记本中编写、解释和排查代码问题。它可以帮助您完成各种任务,从探索性数据分析到生成机器学习预测和预报,包括以下任务:
- 生成计划。创建分步计划以解决数据科学问题。
- 数据探索和清理。识别缺失值、离群值并直观呈现分布。
- 特征工程。转换分类特征并创建新特征。
- 模型训练和评估。训练线性回归或随机森林等模型,并比较它们的性能。
在本教程中,您将使用数据科学智能体分析爱荷华州酒类零售公开数据集中的数据,并创建一个用于预测酒类销量的模型。
如需使用数据科学智能体分析数据,请按以下步骤操作:
在
predict_liquor_sales笔记本中,如果 Gemini 对话窗口未打开,请点击星光图标 在 Colab 中切换 Gemini,以打开对话框。在聊天界面中,输入以下提示:
Analyze the liquor sales data from bigquery-public-data.iowa_liquor_sales.sales by performing exploratory data analysis. Find the stores that sold the most gallons of alcohol across all products. Then, create a model that predicts liquor sales by store by using BigQuery ML. Visualize the results, evaluate the model, summarize the model's performance, and provide any key insights.验证模型是否已设置为 Gemini 3.0 Flash。
点击发送。
查看代理生成的方案。该方案类似于以下内容。
“我已分析了爱荷华州酒类销售数据请求,并制定了战略计划。由于数据存储在 BigQuery 中,并且您已指定使用 BigQuery ML,因此我们将从数据探索开始,确定表现最佳的商店,然后构建回归模型来预测销售额。以下是分步计划:
- 数据探索和分析:对“bigquery-public-data.iowa_liquor_sales.sales”表执行初始探索,以了解数据分布、检查缺失值,并验证关键列(例如商店信息、销售量和销售额)的数据质量。
- 按销量确定顶级商店:汇总每家商店所有产品的酒精总销量(以加仑为单位),并确定表现最佳的商店。
- 数据准备:按商店汇总酒类销售数据,并为预测模型选择相关特征,从而准备训练数据。
- 模型开发:使用 BigQuery ML 训练回归模型,以预测每家商店的酒类销售额。
- 模型评估:使用标准回归指标评估经过训练的模型的性能。
- 模型预测:使用训练后的模型生成酒类销售预测。
- 可视化:创建散点图,比较预测的酒类销售额与实际值,直观评估模型的准确率。
- 完成任务:总结模型性能,提供有关实体店销售的关键数据洞见,并结束分析。
查看方案后,点击接受并运行。代理会生成第一个子任务:探索和分析数据。代理会暂停,直到您查看并接受代码。如果代理正在等待用户输入,则生成的单元格会以绿色背景呈现。
查看生成的代码单元和代理提供的推理。
点击接受并运行。如果代理在处理问题时遇到问题,它会提供有关如何纠正问题的推理,并提示您接受更改后的代码。
查看代码单元中的输出。
在结果下方,代理会创建一个新单元格来完成下一个子任务:查找酒类销售额最高的商店。
查看生成的 SQL 代码,该代码用于查询按酒精饮料销售加仑数排名的顶级商店的数据。您可以查看代码上方的推理文本单元格,了解智能体的推理过程。如果您确认代码正确无误,请点击接受并运行。
检查单元格输出中的查询结果。结果类似于以下内容:
查看代理针对下一个子任务(准备用于模型训练的数据)生成的代码和推理。
验证 SQL 代码正确无误后,点击接受并运行。
查看代码单元中的输出。您会看到类似如下内容的消息:
JOB ID 123456 successfully executed.查看代理针对下一个子任务(训练回归模型)生成的代码和推理。
查看代码和推理后,点击接受并运行。
查看代码单元中的输出。您会看到类似如下内容的消息:
JOB ID 123456 successfully executed.查看代理针对下一个子任务(模型评估)生成的代码和推理。
查看代码和推理后,点击接受并运行。
查看代码单元中的输出。
查看代理针对下一个子任务(生成预测)生成的代码和推理。
查看代码和推理后,点击接受并运行。
查看代码单元中的输出。您会看到类似如下内容的消息:
JOB ID 123456 successfully executed.查询运行后,代理会创建一个代码单元,用于执行下一个子任务:直观呈现数据。
查看代码和推理后,点击接受并运行。
查看代码单元中的输出。您会看到一个图表,其中绘制了实际酒类销售额与预测酒类销售额的对比情况。图表类似于以下内容:
生成图表后,该智能体将生成包含主要发现和洞见的分析结果摘要。
查看摘要后,点击接受以完成方案。
清理
为避免因本教程中使用的资源导致您的 Google Cloud 账号产生费用,请删除包含这些资源的项目,或者保留项目但删除各个资源。
为避免系统因本教程中使用的资源向您的 Google Cloud 账号收取费用,您可以删除您创建的笔记本。如需删除笔记本,请按以下步骤操作:转到 BigQuery 页面。
在左侧窗格中,展开您的项目,然后点击 Notebooks。
对于
predict_liquor_sales笔记本,点击 more_vert 打开操作,然后选择删除。点击删除以移除笔记本。
后续步骤
- 了解数据科学智能体的功能。
- 详细了解 BigQuery 中的 Colab Enterprise 笔记本。
- 请参阅 Gemini in BigQuery 文档。