安装 BigQuery DataFrames
BigQuery DataFrames 提供由 BigQuery 引擎提供支持的 Python DataFrame 和机器学习 (ML) API。BigQuery DataFrames 是一个开源软件包。
安装 BigQuery DataFrames
如需安装最新版本的 BigQuery DataFrames,请运行 pip install
--upgrade bigframes。
可用的库
BigQuery DataFrames 提供三个库:
bigframes.pandas提供了一个 pandas API,可用于分析和操作 BigQuery 中的数据。只需更改一些导入,即可将许多工作负载从 pandas 迁移到 bigframes。bigframes.pandasAPI 可以扩缩,支持处理 TB 级的 BigQuery 数据,并使用 BigQuery 查询引擎执行计算。bigframes.bigquery提供了许多可能没有 pandas 等效函数的 BigQuery SQL 函数。bigframes.ml提供类似于 scikit-learn API 的 API 以用于机器学习。 借助 BigQuery DataFrames 中的机器学习功能,您可以预处理数据,然后基于该数据训练模型。您还可以将这些操作链接在一起以创建数据流水线。
所需的角色
如需获得完成本文档中的任务所需的权限,请让您的管理员为您授予项目的以下 IAM 角色:
-
BigQuery Job User (
roles/bigquery.jobUser) -
BigQuery Read Session User (
roles/bigquery.readSessionUser) -
在 BigQuery 笔记本中使用 BigQuery DataFrames:
-
BigQuery User (
roles/bigquery.user) -
Notebook Runtime User (
roles/aiplatform.notebookRuntimeUser) -
Code Creator (
roles/dataform.codeCreator)
-
BigQuery User (
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
在笔记本、Python REPL 或命令行等交互式环境中执行最终用户身份验证时,BigQuery DataFrames 会根据需要提示进行身份验证。否则,请参阅如何为各种环境设置应用默认凭证。
配置安装选项
安装 BigQuery DataFrames 后,您可以指定以下选项。
位置和项目
您需要指定要在其中使用 BigQuery DataFrames 的位置和项目。
您可以通过以下方式在笔记本中定义位置和项目:
数据处理位置
BigQuery DataFrames 旨在实现缩放功能,通过在 BigQuery 服务上保留数据并进行处理来实现。但是,您可以通过对 DataFrame 或 Series 对象调用 .to_pandas() 将数据放入客户端机器的内存中。如果您选择这样做,则应遵循客户端机器的内存限制。
后续步骤
- 了解如何使用 BigQuery DataFrames 处理数据。
- 了解如何使用 Gemini 生成 BigQuery DataFrames 代码。
- 了解如何使用 BigQuery DataFrames 分析通过 PyPI 进行的软件包下载情况。
- 在 GitHub 上查看 BigQuery DataFrames 的源代码、示例笔记本和示例。
- 探索 BigQuery DataFrames API 参考文档。