使用笔记本库创建和运行笔记本

开始使用 BigQuery Studio 中的笔记本库分析数据。

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud新手, 请创建一个账号来评估我们的产品在 实际场景中的表现。新客户还可获享 $300 赠金,用于 运行、测试和部署工作负载。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  6. 启用 BigQuery API。

    启用 API 所需的角色

    如需启用 API,您需要拥有 Service Usage Admin IAM 角色 (roles/serviceusage.serviceUsageAdmin),该角色包含 serviceusage.services.enable 权限。了解如何授予角色

    启用 API

    对于新项目,BigQuery API 会 自动启用。

  7. 可选:为项目启用结算功能。如果您不想启用结算功能或提供信用卡,本文档中的步骤仍然有效。BigQuery 提供执行这些步骤的沙盒。如需了解详情,请参阅启用 BigQuery 沙盒

所需角色

如需获得创建运行笔记本所需的权限,请让您的管理员为您授予项目的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义 角色或其他预定义 角色来获取所需的权限。

如果您刚开始接触 BigQuery 中的笔记本,请参阅 创建笔记本页面上的 所需权限。

笔记本库是探索和使用预构建笔记本模板的中心枢纽。借助这些模板,您可以执行常见任务,例如数据准备、数据分析和可视化。笔记本模板还可以帮助您探索 BigQuery Studio 功能、管理工作流和推广最佳实践。

您可以使用笔记本库模板来简化整个意图到洞察的工作流,涵盖数据生命周期的每个阶段,从注入和探索到高级分析和 BigQuery ML。

笔记本库提供适用于各种技能水平的模板。该库包含适用于 SQL、Python、Apache Spark 和 DataFrames 的基本模板。您还可以探索 BigQuery 中的生成式 AI 和多模态数据分析等主题。

如需详细了解如何使用笔记本库模板,请参阅 使用笔记本库创建笔记本

以下示例使用 BigQuery Studio 中的笔记本简介模板。此笔记本向您展示了如何执行以下任务:

  • 查询数据:使用 SQL 单元运行查询。
  • 直观呈现查询结果:使用 可视化单元创建可视化图表,无需编写代码。
  • 清理和转换数据:使用 BigQuery DataFrames (pandas) API 对数据进行排序、去重和过滤。
  • 运行 AI 预测:在 BigQuery DataFrames 中使用 (AI.FORECAST 函数) 生成预测。AI.FORECAST 函数使用 TimesFM 基础模型直接从数据集生成 预测,无需进行模型训练。
  • 绘制数据:使用 Python 的内置可视化库绘制数据。您可以使用由 Matplotlib 和 Pandas 提供支持的 BigQuery DataFrames 可视化库绘制数据。

如需使用笔记本,您需要打开模板,将其转换为可运行的笔记本,连接到笔记本的运行时环境,然后运行笔记本。

打开模板并将其转换为可运行的笔记本

您必须先将模板转换为可运行的笔记本,然后才能使用通过笔记本库模板创建的笔记本。

如需在笔记本库中打开“BigQuery Studio 中的笔记本简介”模板,并将其转换为可运行的笔记本,请按照以下步骤操作:

  1. 前往 Studio 页面。

    前往 Studio

  2. 点击 arrow drop-down 下拉箭头,然后选择 笔记本 > 所有模板

  3. 或者,在 BigQuery Studio 首页中,点击查看笔记本库

    BigQuery Studio 首页上的“查看笔记本库”链接。

  4. 点击 BigQuery Studio 中的笔记本简介 卡片,或在库中搜索该卡片。

  5. 打开模板后,点击使用此模板 将模板转换为可运行的笔记本。

连接到默认运行时

您必须先将笔记本连接到 Vertex AI 运行时,然后才能运行笔记本。运行时是运行笔记本中代码的计算资源。运行时必须与笔记本位于同一区域。

如需详细了解运行时,请参阅 运行时和运行时模板。如需详细了解如何配置区域设置,请参阅为代码资产设置默认区域

在本教程中,您将使用默认运行时。默认运行时是预设运行时,只需要最少的设置。如需连接到默认运行时,请按照以下步骤操作:

  1. 打开笔记本后,点击连接

    如果尚无活跃运行时,则可能需要几分钟时间才能连接到默认运行时。

  2. 运行时准备就绪后,您应该会看到一个对勾标记,并显示 RAM 和磁盘图表。如果您将鼠标悬停在图表上,则会看到运行时类型和运行时的配置。

    默认运行时的配置设置

运行笔记本

BigQuery Studio 中的笔记本简介包含文本、SQL、可视化图表和代码 单元。除了文本单元之外,其他单元可以单独运行,也可以按从第一个到最后一个的顺序运行所有单元。

在本教程中,您将单独运行笔记本中的单元,以便分阶段查看结果。如需运行笔记本,请执行以下操作:

  1. Query your data using SQL cells 部分中,将鼠标悬停在 SQL 单元上, 然后点击 运行单元

    SQL 单元格中的“运行单元格”按钮

    此 SQL 单元查询历史空气质量公开数据集中的 bigquery-public-data.epa_historical_air_quality.pm25_frm_daily_summary 表,并返回旧金山过去几年的每日平均 PM2.5(一种常见的空气质量指标)。

  2. 查看结果。查询结果会显示在 DataFrame 中。

    BigQuery DataFrames 中的查询结果

  3. 直观呈现数据 部分中,将鼠标悬停在可视化单元上,然后点击 运行单元

  4. 查看生成的可视化图表。

    可视化图表单元格生成的图表

    结果显示了一个时序图表,该图表绘制了您之前生成的 df DataFrame 中的每日平均 PM2.5 值。此图表显示了 PM2.5 水平随时间变化的趋势。

  5. 清理数据 部分中,将鼠标悬停在代码单元上,然后点击 运行单元

  6. 查看结果。结果会显示在 DataFrame 中。

    BigQuery DataFrames 中的结果

    代码会执行以下操作:

    • 导入 bigframes.pandas 库。
    • 确保 date_local 字段为时间戳。
    • 按日期对结果进行排序,这是进行预测所必需的。
    • 移除重复的行。
    • 删除 avg_pm25null 的行。
    • 过滤掉离群值。
    • 在名为 df_cleaned 的 BigQuery DataFrames 中显示结果。
  7. Predict values using AI.FORECAST 部分中,将鼠标悬停在 SQL 单元上,然后点击 运行单元

  8. 查看结果。查询结果会显示在 DataFrame 中。

    `AI.FORECAST` 函数生成的结果

    此 SQL 单元运行一个查询,该查询使用 AI.FORECAST 函数来预测未来每日平均 PM2.5,并使用您之前生成的 df_cleaned DataFrame。

  9. Visualize data using Python 部分中,将鼠标悬停在代码单元上, 然后点击 运行单元

  10. 查看结果。结果会显示在图表中。

    由 Python 代码单元格生成的图表

    Python 代码会执行以下操作:

    • 导入 datetime 模块。
    • 先绘制历史数据并获取轴。
    • 在同一轴上绘制预测数据。
    • 绘制置信区间。

    此可视化图表类似于标准 Python 绘图,但 df_cleaned.plot 是 BigQuery DataFrames 命令。该命令仅检索呈现图表所需的数据(一个示例),而不是整个数据集。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

  1. 在 Google Cloud 控制台中,前往 管理资源 页面。

    前往“管理资源”

  2. 在项目列表中,选择要删除的项目,然后点击删除
  3. 在对话框中输入项目 ID,然后点击 关闭以删除项目。

或者,如需保留项目并删除本教程中使用的资源,请按照以下步骤操作:

  1. 前往 Studio 页面。

    前往 Studio

  2. 在左侧窗格中,展开您的项目,然后点击笔记本

  3. 对于要删除的笔记本,点击 打开操作 > 删除

  4. 删除笔记本 对话框中,点击删除 进行确认。

后续步骤

如需在笔记本库中运行其他示例笔记本模板,请参阅:

如需详细了解 DataFrames,请参阅:

如需详细了解 BigQuery 中的生成式 AI 和 ML 函数, 请参阅生成式 AI 概览