您可以使用 BigQuery 中的 Colab Enterprise 笔记本来探索 BigQuery 查询结果。
在本教程中,您将查询 BigQuery 公共数据集中的数据,并在笔记本中探索查询结果。
所需权限
如需创建和运行笔记本,您需要以下 Identity and Access Management (IAM) 角色:
- BigQuery User (
roles/bigquery.user
) - Notebook Runtime User (
roles/aiplatform.notebookRuntimeUser
) - Code Creator (
roles/dataform.codeCreator
)
在笔记本中打开查询结果
您可以运行 SQL 查询,然后使用笔记本来探索数据。如果您想要在使用数据之前先在 BigQuery 中修改数据,或者如果您只需要表中的部分字段,则此方法会非常有用。
在 Google Cloud 控制台中,前往 BigQuery 页面。
在输入内容即可搜索字段中,输入
bigquery-public-data
。如果未显示该项目,请在搜索字段中输入
bigquery
,然后点击搜索所有项目,将搜索字符串与现有项目匹配。选择 bigquery-public-data > ml_datasets > penguins。
对于 penguins 表,点击
查看操作,然后点击查询。在生成的查询中添加星号 (
*
),以便选择字段,如下所示:SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
点击
运行。在查询结果部分中,点击探索数据,然后点击使用 Python 笔记本进行探索。
准备好笔记本以供使用
通过连接到运行时并设置应用默认值来准备好笔记本,以供使用。
- 在笔记本标头中,点击连接以连接到默认运行时。
- 在设置代码块中,点击 运行单元。
探索数据
- 若要将 penguins 数据加载到 BigQuery DataFrame 中并显示结果,请单击从 BigQuery 作业加载为 DataFrame 的结果集部分的代码块中的 运行单元。
- 如需获取有关数据的描述性指标,请点击使用 describe() 显示描述性统计信息部分的代码块中的 运行单元。
- 可选:使用其他 Python 函数或软件包来探索和分析数据。
以下代码示例展示了使用 bigframes.pandas
分析数据,以及使用 bigframes.ml
根据 BigQuery DataFrame 中的 penguins 数据创建线性回归模型: