创建流水线

本文档介绍了如何在 BigQuery 中创建数据流水线。流水线由 Dataform 提供支持。

准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  8. 流水线所需的角色

    如需获得创建流水线所需的权限,请让管理员向您授予项目的以下 IAM 角色:

    如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

    您也可以通过自定义角色或其他预定义角色来获取所需的权限。

    如需详细了解 Dataform IAM,请参阅使用 IAM 控制访问权限

    笔记本选项所需的角色

    如需获得在笔记本选项中选择运行时模板所需的权限,请让您的管理员为您授予项目的 Notebook Runtime User (roles/aiplatform.notebookRuntimeUser) IAM 角色。 如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

    您也可以通过自定义角色或其他预定义角色来获取所需的权限。

    如果您没有此角色,则可以选择默认的笔记本运行时规范。

    设置代码资源的默认区域

    如果这是您第一次创建代码资源,则应为代码资源设置默认区域。代码资源创建后,便无法更改该区域。

    BigQuery Studio 中的所有代码资产都使用相同的默认区域。如需设置代码资源的默认区域,请按以下步骤操作:

    1. 转到 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,找到启用了代码资源的项目。

    3. 点击项目旁边的 查看操作,然后点击更改我的默认代码区域

    4. 对于区域,请选择您要用于代码资产的区域。

    5. 点击选择

    如需查看可使用 BigQuery Studio 的区域列表,请参阅 BigQuery Studio 位置

    创建流水线

    如需创建数据流水线,请按以下步骤操作:

    1. 转到 BigQuery 页面。

      转到 BigQuery

    2. 在编辑器窗格的标签页栏中,点击 + 号旁边的 箭头,然后点击流水线

    3. 可选:如需重命名流水线,请点击流水线名称,然后输入新名称。

    4. 点击开始,然后前往设置标签页。

    5. 身份验证部分,选择使用 Google 账号用户凭据或服务账号授权流水线。

      • 如需使用您的 Google 账号用户凭据(预览版),请选择使用我的用户凭据执行
      • 如需使用服务账号,请选择使用所选服务账号执行,然后选择一个服务账号。
    6. 位置部分,为流水线选择处理区域。

      1. 如需选择特定区域,请选择区域,然后在区域菜单中选择相应区域。
      2. 如需选择多区域位置,请选择多区域,然后在多区域菜单中选择相应多区域位置。

      流水线处理区域无需与代码资产的默认存储区域相匹配。

    笔记本选项

    1. 如果您打算将笔记本添加到流水线中,请在笔记本选项部分中执行以下操作:

      1. “运行时模板”字段中,接受默认的笔记本运行时,或搜索并选择现有运行时。

        • 如需查看默认运行时的规范,请点击相邻的箭头。
        • 如需创建新运行时,请参阅创建运行时模板
      2. Cloud Storage 存储桶字段中,点击浏览,然后选择或创建一个 Cloud Storage 存储桶,用于在流水线中存储笔记本的输出。

      3. 请按照将主账号添加到存储桶级层政策中中的说明,将您的自定义 Dataform 服务账号作为主账号添加到您计划用于存储预定流水线运行输出的 Cloud Storage 存储桶,并向此主账号授予 Storage Admin (roles/storage.admin) 角色。

        所选的自定义 Dataform 服务账号必须在所选存储桶中获得 Storage Admin IAM 角色。

    添加流水线任务

    如需将任务添加到流水线,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 如需添加代码资产(例如 SQL 查询、笔记本或数据准备),请执行以下操作:

      SQL 查询

      1. 点击添加任务,然后选择查询。您可以创建新的查询,也可以导入现有查询。

      2. 可选:在 Query task details(查询任务详情)窗格中的在完成以下哪一项操作以后运行菜单中,选择将在查询之前运行的任务。

        您的查询会取决于前置任务。

      创建新查询

      1. 点击修改查询旁边的 箭头菜单,然后选择在上下文中在新标签页中

      2. 搜索现有查询。

      3. 选择一个查询名称,然后按 Enter 键。

      4. 点击保存

      5. 可选:如需重命名查询,请点击“Pipeline”窗格中的查询名称,点击修改查询,点击屏幕顶部的现有查询名称,然后输入新名称。

      导入现有查询

      1. 点击修改查询旁边的 箭头菜单,然后点击导入副本

      2. 搜索要导入的现有查询,或从搜索窗格中选择现有查询。导入查询后,原始查询会保持不变,因为查询的源文件会复制到流水线中。

      3. 点击修改以打开导入的查询。

      4. 点击保存

      笔记本

      1. 点击添加任务,然后选择笔记本。 您可以创建新记事,也可以导入现有记事。 如需更改笔记本运行时模板的设置,请参阅“笔记本”选项

      2. 可选:在 Notebook task details(笔记本任务详情)窗格中的在完成以下哪一项操作以后运行菜单中,选择将在笔记本之前运行的任务。

        您的笔记本会取决于前置任务。

      创建新笔记本

      1. 点击修改记事本旁边的 箭头菜单,然后选择在上下文中在新标签页中

      2. 搜索现有笔记本。

      3. 选择一个记事本名称,然后按 Enter 键。

      4. 点击保存

      5. 可选:如需重命名笔记本,请点击“Pipeline”窗格中的笔记本名称,点击修改笔记本,点击屏幕顶部的现有笔记本名称,然后输入新名称。

      导入现有笔记本

      1. 点击修改笔记本旁边的 箭头菜单,然后点击导入副本

      2. 搜索要导入的现有笔记本,或从搜索窗格中选择现有笔记本。导入笔记本后,原始笔记本会保持不变,因为笔记本的源文件会复制到流水线中。

      3. 如需打开导入的记事本,请点击修改

      4. 点击保存

      数据准备

      1. 点击添加任务,然后选择数据准备。您可以创建新的准备数据流程,也可以导入现有准备数据流程。

      2. 可选:在 Data preparation task details(数据准备任务详情)窗格中的在完成以下哪一项操作以后运行菜单中,选择将在数据准备之前运行的任务。

        您的数据准备工作将取决于前置任务。

      创建新的准备数据流程

      1. 点击修改数据准备旁边的 箭头菜单,然后选择在上下文中在新标签页中

      2. 搜索现有的数据准备。

      3. 选择数据准备名称,然后按 Enter 键。

      4. 点击保存

      5. 可选:如需重命名数据准备步骤,请点击“流水线”窗格中的数据准备步骤名称,点击修改数据准备步骤,点击屏幕顶部的名称,然后输入新名称。

      导入现有的数据准备

      1. 点击修改数据准备旁边的 箭头下拉菜单,然后点击导入副本

      2. 搜索要导入的现有数据准备,或从搜索窗格中选择现有数据准备。导入数据准备流程后,原始数据准备流程保持不变,因为数据准备流程的源文件会复制到流水线中。

      3. 如需打开导入的数据准备,请点击修改

      4. 点击保存

    修改流水线任务

    如需修改流水线任务,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 点击所选任务。

    4. 如需更改前置任务,请在在完成以下哪一项操作以后运行菜单中,选择将在查询或笔记本之前运行的任务。

    5. 如需修改所选任务的内容,请点击修改

    6. 在打开的新标签页中,修改任务内容,然后保存对任务的更改。

    删除流水线任务

    如需从流水线中删除任务,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 点击所选任务。

    4. 任务详情窗格中,点击删除删除图标。

    共享流水线

    如需共享流水线,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 点击共享,然后选择管理权限

    4. 点击添加用户/群组

    5. 新的主账号字段中,输入至少一个用户或群组的名称。

    6. 对于分配角色,请选择一个角色。

    7. 点击保存

    1. 在 Google Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 点击共享,然后选择分享链接。系统会将您的流水线的网址复制到计算机的剪贴板。

    运行流水线

    如需手动运行流水线的当前版本,请按以下步骤操作:

    1. 在 Google Cloud 控制台中,前往 BigQuery 页面。

      转到 BigQuery

    2. 探索器窗格中,展开您的项目和流水线文件夹,然后选择一个流水线。

    3. 点击运行。如果您选择了身份验证选项中的使用我的用户凭据执行,则必须授权您的 Google 账号预览版)。

    4. 可选:如需检查运行情况,请查看过去的手动运行情况

    授权您的 Google 账号

    如需使用您的 Google 账号用户凭据对资源进行身份验证,您必须手动向 BigQuery 流水线授予代表您获取 Google 账号访问令牌和访问源数据的权限。您可以通过 OAuth 对话框界面手动进行批准。

    您只需向 BigQuery 流水线授予一次权限。

    如需撤消您授予的权限,请按以下步骤操作:

    1. 前往您的 Google 账号页面
    2. 点击 BigQuery 流水线
    3. 点击解除使用权限

    如果您的流水线包含一个记事本,您还必须手动向 Colab Enterprise 授予权限,以便其获取您的 Google 账号的访问令牌并代表您访问源数据。您只需授予一次权限。您可以在 Google 账号页面上撤消此权限。

    后续步骤