创建流水线
本文档介绍了如何在 BigQuery 中创建数据流水线。流水线由 Dataform 提供支持。
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
创建流水线:Code Creator (
roles/dataform.codeCreator
) -
修改和运行流水线:Dataform Editor (
roles/dataform.editor
) 转到 BigQuery 页面。
在探索器窗格中,找到启用了代码资源的项目。
点击项目旁边的
查看操作,然后点击更改我的默认代码区域。对于区域,请选择您要用于代码资产的区域。
点击选择。
转到 BigQuery 页面。
在编辑器窗格的标签页栏中,点击 + 号旁边的
箭头,然后点击流水线。可选:如需重命名流水线,请点击流水线名称,然后输入新名称。
点击开始,然后前往设置标签页。
在身份验证部分,选择使用 Google 账号用户凭据或服务账号授权流水线。
- 如需使用您的 Google 账号用户凭据(预览版),请选择使用我的用户凭据执行。
- 如需使用服务账号,请选择使用所选服务账号执行,然后选择一个服务账号。
在位置部分,为流水线选择处理区域。
- 如需选择特定区域,请选择区域,然后在区域菜单中选择相应区域。
- 如需选择多区域位置,请选择多区域,然后在多区域菜单中选择相应多区域位置。
流水线处理区域无需与代码资产的默认存储区域相匹配。
如果您打算将笔记本添加到流水线中,请在笔记本选项部分中执行以下操作:
在“运行时模板”字段中,接受默认的笔记本运行时,或搜索并选择现有运行时。
- 如需查看默认运行时的规范,请点击相邻的箭头。
- 如需创建新运行时,请参阅创建运行时模板。
在 Cloud Storage 存储桶字段中,点击浏览,然后选择或创建一个 Cloud Storage 存储桶,用于在流水线中存储笔记本的输出。
请按照将主账号添加到存储桶级层政策中中的说明,将您的自定义 Dataform 服务账号作为主账号添加到您计划用于存储预定流水线运行输出的 Cloud Storage 存储桶,并向此主账号授予 Storage Admin (
roles/storage.admin
) 角色。所选的自定义 Dataform 服务账号必须在所选存储桶中获得 Storage Admin IAM 角色。
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
如需添加代码资产(例如 SQL 查询、笔记本或数据准备),请执行以下操作:
SQL 查询
点击添加任务,然后选择查询。您可以创建新的查询,也可以导入现有查询。
可选:在 Query task details(查询任务详情)窗格中的在完成以下哪一项操作以后运行菜单中,选择将在查询之前运行的任务。
您的查询会取决于前置任务。
创建新查询
点击修改查询旁边的
箭头菜单,然后选择在上下文中或在新标签页中。搜索现有查询。
选择一个查询名称,然后按 Enter 键。
点击保存。
可选:如需重命名查询,请点击“Pipeline”窗格中的查询名称,点击修改查询,点击屏幕顶部的现有查询名称,然后输入新名称。
导入现有查询
点击修改查询旁边的
箭头菜单,然后点击导入副本。搜索要导入的现有查询,或从搜索窗格中选择现有查询。导入查询后,原始查询会保持不变,因为查询的源文件会复制到流水线中。
点击修改以打开导入的查询。
点击保存。
笔记本
点击添加任务,然后选择笔记本。 您可以创建新记事,也可以导入现有记事。 如需更改笔记本运行时模板的设置,请参阅“笔记本”选项。
可选:在 Notebook task details(笔记本任务详情)窗格中的在完成以下哪一项操作以后运行菜单中,选择将在笔记本之前运行的任务。
您的笔记本会取决于前置任务。
创建新笔记本
点击修改记事本旁边的
箭头菜单,然后选择在上下文中或在新标签页中。搜索现有笔记本。
选择一个记事本名称,然后按 Enter 键。
点击保存。
可选:如需重命名笔记本,请点击“Pipeline”窗格中的笔记本名称,点击修改笔记本,点击屏幕顶部的现有笔记本名称,然后输入新名称。
导入现有笔记本
点击修改笔记本旁边的
箭头菜单,然后点击导入副本。搜索要导入的现有笔记本,或从搜索窗格中选择现有笔记本。导入笔记本后,原始笔记本会保持不变,因为笔记本的源文件会复制到流水线中。
如需打开导入的记事本,请点击修改。
点击保存。
数据准备
点击添加任务,然后选择数据准备。您可以创建新的准备数据流程,也可以导入现有准备数据流程。
可选:在 Data preparation task details(数据准备任务详情)窗格中的在完成以下哪一项操作以后运行菜单中,选择将在数据准备之前运行的任务。
您的数据准备工作将取决于前置任务。
创建新的准备数据流程
点击修改数据准备旁边的
箭头菜单,然后选择在上下文中或在新标签页中。搜索现有的数据准备。
选择数据准备名称,然后按 Enter 键。
点击保存。
可选:如需重命名数据准备步骤,请点击“流水线”窗格中的数据准备步骤名称,点击修改数据准备步骤,点击屏幕顶部的名称,然后输入新名称。
导入现有的数据准备
点击修改数据准备旁边的
箭头下拉菜单,然后点击导入副本。搜索要导入的现有数据准备,或从搜索窗格中选择现有数据准备。导入数据准备流程后,原始数据准备流程保持不变,因为数据准备流程的源文件会复制到流水线中。
如需打开导入的数据准备,请点击修改。
点击保存。
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
点击所选任务。
如需更改前置任务,请在在完成以下哪一项操作以后运行菜单中,选择将在查询或笔记本之前运行的任务。
如需修改所选任务的内容,请点击修改。
在打开的新标签页中,修改任务内容,然后保存对任务的更改。
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
点击所选任务。
在任务详情窗格中,点击删除删除图标。
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
点击共享,然后选择管理权限。
点击添加用户/群组。
在新的主账号字段中,输入至少一个用户或群组的名称。
对于分配角色,请选择一个角色。
点击保存。
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
点击共享,然后选择分享链接。系统会将您的流水线的网址复制到计算机的剪贴板。
在 Google Cloud 控制台中,前往 BigQuery 页面。
在探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。
点击运行。如果您选择了身份验证选项中的使用我的用户凭据执行,则必须授权您的 Google 账号(预览版)。
可选:如需检查运行情况,请查看过去的手动运行情况。
- 前往您的 Google 账号页面。
- 点击 BigQuery 流水线。
- 点击解除使用权限。
- 详细了解 BigQuery 流水线。
- 了解如何管理流水线。
- 了解如何安排流水线。
流水线所需的角色
如需获得创建流水线所需的权限,请让管理员向您授予项目的以下 IAM 角色:
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
如需详细了解 Dataform IAM,请参阅使用 IAM 控制访问权限。
笔记本选项所需的角色
如需获得在笔记本选项中选择运行时模板所需的权限,请让您的管理员为您授予项目的 Notebook Runtime User (roles/aiplatform.notebookRuntimeUser
) IAM 角色。
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
如果您没有此角色,则可以选择默认的笔记本运行时规范。
设置代码资源的默认区域
如果这是您第一次创建代码资源,则应为代码资源设置默认区域。代码资源创建后,便无法更改该区域。
BigQuery Studio 中的所有代码资产都使用相同的默认区域。如需设置代码资源的默认区域,请按以下步骤操作:
如需查看可使用 BigQuery Studio 的区域列表,请参阅 BigQuery Studio 位置。
创建流水线
如需创建数据流水线,请按以下步骤操作:
笔记本选项
添加流水线任务
如需将任务添加到流水线,请按以下步骤操作:
修改流水线任务
如需修改流水线任务,请按以下步骤操作:
删除流水线任务
如需从流水线中删除任务,请按以下步骤操作:
共享流水线
如需共享流水线,请按以下步骤操作:
分享流水线链接
运行流水线
如需手动运行流水线的当前版本,请按以下步骤操作:
授权您的 Google 账号
如需使用您的 Google 账号用户凭据对资源进行身份验证,您必须手动向 BigQuery 流水线授予代表您获取 Google 账号访问令牌和访问源数据的权限。您可以通过 OAuth 对话框界面手动进行批准。
您只需向 BigQuery 流水线授予一次权限。
如需撤消您授予的权限,请按以下步骤操作:
如果您的流水线包含一个记事本,您还必须手动向 Colab Enterprise 授予权限,以便其获取您的 Google 账号的访问令牌并代表您访问源数据。您只需授予一次权限。您可以在 Google 账号页面上撤消此权限。