安装 BigQuery DataFrames

BigQuery DataFrames 提供由 BigQuery 引擎提供支持的 Python DataFrame 和机器学习 (ML) API。BigQuery DataFrames 是一个开源软件包。

安装 BigQuery DataFrames

如需安装最新版本的 BigQuery DataFrames,请运行 pip install --upgrade bigframes

可用的库

BigQuery DataFrames 提供三个库:

  • bigframes.pandas 提供了一个 pandas API,可用于分析和操作 BigQuery 中的数据。只需更改一些导入,即可将许多工作负载从 pandas 迁移到 bigframes。bigframes.pandas API 可以扩缩,支持处理 TB 级的 BigQuery 数据,并使用 BigQuery 查询引擎执行计算。
  • bigframes.bigquery 提供了许多可能没有 pandas 等效函数的 BigQuery SQL 函数。
  • bigframes.ml 提供类似于 scikit-learn API 的 API 以用于机器学习。 借助 BigQuery DataFrames 中的机器学习功能,您可以预处理数据,然后基于该数据训练模型。您还可以将这些操作链接在一起以创建数据流水线。

所需的角色

如需获得完成本文档中的任务所需的权限,请让您的管理员为您授予项目的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

在笔记本、Python REPL 或命令行等交互式环境中执行最终用户身份验证时,BigQuery DataFrames 会根据需要提示进行身份验证。否则,请参阅如何为各种环境设置应用默认凭证

配置安装选项

安装 BigQuery DataFrames 后,您可以指定以下选项。

位置和项目

您需要指定要在其中使用 BigQuery DataFrames 的位置项目

您可以通过以下方式在笔记本中定义位置和项目:

import bigframes.pandas as bpd

PROJECT_ID = "bigframes-dev"  # @param {type:"string"}
REGION = "US"  # @param {type:"string"}

# Set BigQuery DataFrames options
# Note: The project option is not required in all environments.
# On BigQuery Studio, the project ID is automatically detected.
bpd.options.bigquery.project = PROJECT_ID

# Note: The location option is not required.
# It defaults to the location of the first table or query
# passed to read_gbq(). For APIs where a location can't be
# auto-detected, the location defaults to the "US" location.
bpd.options.bigquery.location = REGION

数据处理位置

BigQuery DataFrames 旨在实现缩放功能,通过在 BigQuery 服务上保留数据并进行处理来实现。但是,您可以通过对 DataFrame 或 Series 对象调用 .to_pandas() 将数据放入客户端机器的内存中。如果您选择这样做,则应遵循客户端机器的内存限制。

后续步骤