使用笔记本库创建和运行笔记本
开始使用 BigQuery Studio 中的笔记本库分析数据。
准备工作
- 登录您的 Google Cloud 账号。如果您是 Google Cloud新手, 请创建一个账号来评估我们的产品在 实际场景中的表现。新客户还可获享 $300 赠金,用于 运行、测试和部署工作负载。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.
-
启用 BigQuery API。
启用 API 所需的角色
如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (
roles/serviceusage.serviceUsageAdmin),该角色包含serviceusage.services.enable权限。了解如何授予角色。对于新项目,BigQuery API 会 自动启用。
- 可选:为项目启用结算功能。如果您不想启用结算功能或提供信用卡,本文档中的步骤仍然有效。BigQuery 提供执行这些步骤的沙盒。如需了解详情,请参阅启用 BigQuery 沙盒。
所需角色
如需获取创建运行 Notebooks 所需的权限,请让管理员向您授予项目的以下 IAM 角色:
- BigQuery Read Session User (
roles/bigquery.readSessionUser) - BigQuery Studio User (
roles/bigquery.studioUser)
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
您也可以通过自定义 角色或其他预定义 角色来获取所需的权限。
如果您是 BigQuery 笔记本的新手,请参阅 所需权限(位于 创建笔记本页面)。
笔记本库
笔记本库是探索和使用预构建笔记本模板的中心枢纽。借助这些模板,您可以执行常见任务,例如数据准备、数据分析和可视化。笔记本模板还可以帮助您探索 BigQuery Studio 功能、管理工作流和推广最佳实践。
您可以使用笔记本库模板来简化整个意图到洞察工作流,该工作流涵盖数据生命周期的每个阶段,从注入和探索到高级分析和 BigQuery ML。
笔记本库提供适用于各种技能水平的模板。该库包含适用于 SQL、Python、Apache Spark 和 DataFrames 的基本模板。您还可以探索 BigQuery 中的生成式 AI 和多模态数据分析等主题。
如需详细了解如何使用笔记本库模板,请参阅 使用笔记本库创建笔记本。
通过笔记本库模板创建笔记本
以下示例使用 BigQuery Studio 中的笔记本简介模板。此笔记本向您展示了如何执行以下任务:
- 查询数据:使用 SQL 单元运行查询。
- 直观呈现查询结果:使用 可视化单元创建可视化图表,无需编写代码。
- 清理和转换数据:使用 BigQuery DataFrames (pandas) API 对数据进行排序、去重和过滤。
- 运行 AI 预测:使用 BigQuery DataFrames 中的
(
AI.FORECAST函数) 生成预测。AI.FORECAST函数使用 TimesFM 基础模型直接从数据集生成 预测,无需进行模型训练。 - 绘制数据:使用 Python 的内置可视化库绘制数据。您可以使用由 Matplotlib 和 Pandas 提供支持的 BigQuery DataFrames 可视化库绘制数据。
如需使用笔记本,请打开模板,将其转换为可运行的笔记本,连接到笔记本的运行时环境,然后运行笔记本。
打开模板并将其转换为可运行的笔记本
您必须先将模板转换为可运行的笔记本,然后才能使用通过笔记本库模板创建的笔记本。
如需在笔记本库中打开“BigQuery Studio 中的笔记本简介”模板,并将其转换为可运行的笔记本,请按照以下步骤操作:
前往 Studio 页面。
点击 arrow drop-down 下拉箭头,然后选择 Notebook > All templates。
或者,在 BigQuery Studio 首页中,点击查看笔记本库 。
点击 BigQuery Studio 中的笔记本简介 卡片,或在库中搜索该卡片。
打开模板后,点击使用此模板 将模板转换为可运行的笔记本。
连接到默认运行时
您必须先将笔记本连接到 Gemini Enterprise Agent Platform 运行时,然后才能运行笔记本。运行时是运行笔记本中代码的计算资源。运行时必须与笔记本位于同一区域。
如需详细了解运行时,请参阅 运行时和运行时模板。如需详细了解如何配置区域设置,请参阅为代码资产设置默认区域。
在本教程中,您将使用默认运行时。默认运行时是预设运行时,只需要最少的设置。如需连接到默认运行时,请按照以下步骤操作:
打开笔记本后,点击连接 。
如果尚无活跃运行时,则可能需要几分钟时间才能连接到默认运行时。
运行时准备就绪后,您应该会看到一个对勾标记,并显示 RAM 和磁盘图表。如果您将鼠标悬停在图表上,则会看到运行时类型和运行时的配置。
运行笔记本
BigQuery Studio 中的笔记本简介包含文本、SQL、 可视化图表和代码 单元。除了文本单元之外,其他单元可以单独运行,也可以按从第一个到最后一个的顺序运行所有单元。
在本教程中,您将单独运行笔记本中的单元,以便分阶段查看结果。如需运行笔记本,请执行以下操作:
在 使用 SQL 单元查询数据 部分中,将鼠标悬停在 SQL 单元上, 然后点击 运行单元。
此 SQL 单元查询
bigquery-public-data.epa_historical_air_quality.pm25_frm_daily_summary历史空气质量公共数据集中的表 ,并返回旧金山过去几年的每日平均 PM2.5(一种常见的空气质量指标)。查看结果。查询结果会显示在 DataFrame 中。
在直观呈现数据 部分中,将鼠标悬停在可视化单元上,然后点击 运行单元。
查看生成的可视化图表。
结果显示了一个时序图,该图绘制了您之前生成的
dfDataFrame 中的每日平均 PM2.5 值。此图表显示了 PM2.5 水平随时间变化的趋势。在清理数据 部分中,将鼠标悬停在代码单元上,然后点击 运行单元。
查看结果。结果会显示在 DataFrame 中。
代码会执行以下操作:
- 导入
bigframes.pandas库。 - 确保
date_local字段为时间戳。 - 按日期对结果进行排序,这是进行预测所必需的。
- 移除重复的行。
- 删除
avg_pm25为null的行。 - 过滤掉离群值。
- 在名为
df_cleaned的 BigQuery DataFrames 中显示结果。
- 导入
在 使用
AI.FORECAST预测值 部分中,将鼠标悬停在 SQL 单元上,然后点击 运行单元 。查看结果。查询结果会显示在 DataFrame 中。
此 SQL 单元运行一个查询,该查询使用
AI.FORECAST函数来预测未来每日平均 PM2.5,并使用您之前生成的df_cleanedDataFrame。在使用 Python 直观呈现数据 部分中,将鼠标悬停在代码单元上, 然后点击 运行单元。
查看结果。结果会显示在图表中。
Python 代码会执行以下操作:
- 导入
datetime模块。 - 先绘制历史数据并获取轴。
- 在同一轴上绘制预测数据。
- 绘制置信区间。
此可视化图表类似于标准 Python 绘图,但
df_cleaned.plot是 BigQuery DataFrames 命令。该命令仅检索呈现图表所需的数据(样本),而不是整个数据集。- 导入
清理
为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。
- 在 Google Cloud 控制台中,前往 管理资源 页面。
- 在项目列表中,选择要删除的项目,然后点击删除。
- 在对话框中输入项目 ID,然后点击 关闭以删除项目。
或者,如需保留项目并删除本教程中使用的资源,请按照以下步骤操作:
前往 Studio 页面。
在左侧窗格中,展开您的项目,然后点击笔记本 。
对于要删除的笔记本,点击 打开操作 > 删除。
在删除笔记本 对话框中,点击删除 进行确认。
后续步骤
如需在笔记本库中运行其他示例笔记本模板,请参阅:如需详细了解 DataFrames,请参阅:
如需详细了解 BigQuery 中的生成式 AI 和 ML 函数, 请参阅生成式 AI 概览。