建立管道
本文說明如何在 BigQuery 中建立管道。管道由 Dataform 提供支援。
事前準備
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
如何建立管道:
程式碼建立者 (
roles/dataform.codeCreator
) -
如要編輯及執行管道,請按照下列步驟操作:
Dataform 編輯器 (
roles/dataform.editor
) 前往「BigQuery」頁面
在「Explorer」窗格中,找出已啟用程式碼資產的專案。
按一下專案旁的
「View actions」(查看動作),然後點選「Change my default code region」(變更預設程式碼區域)。在「區域」中,選取要用於程式碼資產的區域。
按一下「選取」。
前往「BigQuery」頁面
在編輯器窗格的分頁列中,按一下「+」符號旁的
箭頭,然後點選「Pipeline」(管道)。選用:如要重新命名管道,請按一下管道名稱,然後輸入新名稱。
按一下「立即開始」,然後前往「設定」分頁標籤。
在「驗證」部分,選擇使用 Google 帳戶使用者憑證或服務帳戶授權管道。
- 如要使用 Google 帳戶使用者憑證 (預覽),請選取「以我的使用者憑證執行」。
- 如要使用服務帳戶,請選取「以所選服務帳戶執行」,然後選取服務帳戶。
在「處理位置」部分,選取管道的處理位置。
如要啟用自動選取位置功能,請選取「自動選取位置」。這個選項會根據要求中參照的資料集選取位置。選取程序如下:
- 如果查詢參照相同位置的資料集,BigQuery 會使用該位置。
- 如果查詢參照來自兩個以上不同位置的資料集,就會發生錯誤。如要進一步瞭解這項限制,請參閱「跨區域資料集複製」。
- 如果查詢未參照任何資料集,BigQuery 預設會使用
US
多區域。
如要選取特定區域,請選取「區域」,然後在「區域」選單中選擇區域。或者,您也可以在查詢中使用
@@location
系統變數。詳情請參閱「指定位置」。如要選取多區域,請選取「多區域」,然後在「多區域」選單中選擇多區域。
管道處理位置不一定要與程式碼資產的預設儲存位置相符。
如要將筆記本新增至管道,請在「Notebook options」(筆記本選項) 部分執行下列操作:
在「執行階段範本」欄位中,接受預設的筆記本執行階段,或搜尋並選取現有的執行階段。
- 如要查看預設執行階段的規格,請按一下旁邊的箭頭。
- 如要建立新的執行階段,請參閱「建立執行階段範本」。
在「Cloud Storage bucket」(Cloud Storage 值區) 欄位中,按一下「Browse」(瀏覽),然後選取或建立 Cloud Storage 值區,用於儲存管道中筆記本的輸出內容。
按照「將主體新增至值區層級政策」一文的說明,將自訂 Dataform 服務帳戶新增為主體,加入您打算用來儲存排定管線執行作業輸出的 Cloud Storage 值區,並將「儲存空間管理員」角色 (
roles/storage.admin
) 授予這個主體。所選自訂 Dataform 服務帳戶必須獲得所選值區的 Storage 管理員 IAM 角色。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在左側窗格中,按一下「Explorer」
:如果沒有看到左側窗格,請按一下「展開左側窗格」圖示
開啟窗格。在「Explorer」窗格中展開專案,按一下「Pipelines」,然後選取管道。
如要新增程式碼素材資源,請選取下列其中一個選項:
SQL 查詢
按一下「新增工作」,然後選取「查詢」。 您可以建立新查詢,或匯入現有查詢。
選用:在「查詢工作詳細資料」窗格的「在以下項目後執行」選單中,選取要先於查詢執行的工作。
建立新的查詢
按一下「編輯查詢」旁的箭頭選單
,然後選取「在內容中」或「在新分頁中」。搜尋現有查詢。
選取查詢名稱,然後按下 Enter 鍵。
按一下 [儲存]。
選用:如要重新命名查詢,請點選管道窗格中的查詢名稱,按一下「編輯查詢」,點選畫面頂端的現有查詢名稱,然後輸入新名稱。
匯入現有查詢
按一下「編輯查詢」旁的
箭頭選單,然後按一下「匯入副本」。搜尋要匯入的現有查詢,或從搜尋窗格選取現有查詢。匯入查詢時,原始查詢不會變更,因為查詢的來源檔案會複製到管道中。
按一下「編輯」開啟匯入的查詢。
按一下 [儲存]。
筆記本
按一下「新增工作」,然後選取「記事本」。 您可以建立新筆記本或匯入現有筆記本。 如要變更筆記本執行階段範本的設定,請參閱筆記本選項。
選用步驟:在「Notebook task details」(筆記本工作詳細資料) 窗格中,從「Run after」(在下列工作完成後執行) 選單中選取要先執行的工作。
建立新筆記本
按一下「編輯記事本」旁的箭頭選單
,然後選取「在內容中」或「在新分頁中」。搜尋現有筆記本。
選取筆記本名稱,然後按下 Enter 鍵。
按一下 [儲存]。
選用:如要重新命名筆記本,請按一下管道窗格中的筆記本名稱,然後按一下「編輯筆記本」,按一下畫面頂端的現有筆記本名稱,然後輸入新名稱。
匯入現有筆記本
按一下「編輯記事本」旁的箭頭選單
,然後點選「匯入副本」。搜尋要匯入的現有筆記本,或從搜尋窗格選取現有筆記本。匯入筆記本時,原始筆記本不會變更,因為筆記本的來源檔案會複製到管道中。
如要開啟匯入的筆記本,請按一下「編輯」。
按一下 [儲存]。
資料準備
按一下「新增工作」,然後選取「資料準備」。 您可以建立新的資料準備作業,或匯入現有作業。
選用:在「資料準備工作詳細資料」窗格的「Run after」(在下列工作完成後執行) 選單中,選取要在資料準備工作前執行的工作。
建立新的資料準備作業
按一下「編輯資料準備」旁的
箭頭選單,然後選取「在內容中」或「在新分頁中」。搜尋現有的資料準備作業。
選取資料準備名稱,然後按 Enter 鍵。
按一下 [儲存]。
選用:如要重新命名資料準備作業,請按一下管道窗格中的資料準備作業名稱,然後依序點選「編輯資料準備作業」和畫面頂端的名稱,並輸入新名稱。
匯入現有的資料準備作業
按一下「編輯資料準備」旁的箭頭下拉式選單
,然後點選「匯入副本」。搜尋要匯入的現有資料準備作業,或從搜尋窗格選取現有資料準備作業。匯入資料準備時,原始資料不會變更,因為資料準備的來源檔案會複製到管道中。
如要開啟匯入的資料準備作業,請按一下「編輯」。
按一下 [儲存]。
資料表
按一下「新增工作」,然後選取「表格」。
輸入資料表名稱。
在「表格工作詳細資料」窗格中,按一下「開啟」即可開啟工作。
使用「詳細資料」>「設定」中的設定,或資料表程式碼編輯器的
config
區塊,設定工作。如要變更中繼資料,請使用「設定」分頁。您可以在這個分頁中,透過程式碼編輯器編輯
config
區塊中的特定值,例如格式為 JavaScript 物件的字串或陣列。使用這個分頁可避免語法錯誤,並確認設定正確無誤。選用:在「Run after」(在下列項目後執行) 選單中,選取要在表格前執行的工作。
您也可以在編輯器的
config
區塊中,定義管道工作的後設資料。詳情請參閱「建立資料表」。編輯器會驗證程式碼,並顯示驗證狀態。
在「詳細資料」> 已編譯的查詢中,查看從 SQLX 程式碼編譯的 SQL。
按一下「執行」,在管道中執行 SQL。
在「查詢結果」中,檢查資料預覽。
查看
按一下「新增工作」,然後選取「查看」。
輸入檢視區塊名稱。
在「查看工作詳細資料」窗格中,按一下「開啟」即可開啟工作。
使用「詳細資料」>「設定」中的設定,或檢視畫面程式碼編輯器的
config
區塊,設定工作。如要變更中繼資料,請使用「設定」分頁。您可以在這個分頁中,透過程式碼編輯器編輯
config
區塊中的特定值,例如格式為 JavaScript 物件的字串或陣列。使用這個分頁可避免語法錯誤,並確認設定正確無誤。(選用) 在「Run after」(在下列項目後執行) 選單中,選取要放在檢視畫面之前的任務。
您也可以在編輯器的
config
區塊中,定義管道工作的後設資料。詳情請參閱使用 Dataform Core 建立檢視區塊。編輯器會驗證程式碼,並顯示驗證狀態。
在「詳細資料」> 已編譯的查詢中,查看從 SQLX 程式碼編譯的 SQL。
按一下「執行」,在管道中執行 SQL。
在「查詢結果」中,檢查資料預覽。
前往 Google Cloud 控制台的「BigQuery」頁面。
在左側窗格中,按一下「Explorer」
:在「Explorer」窗格中展開專案,按一下「Pipelines」,然後選取管道。
按一下選取的工作。
如要變更前置工作,請在「Run after」(在後執行) 選單中,選取要排在工作之前的任務。
如要編輯所選工作內容,請按一下「編輯」。
在新開啟的分頁中編輯工作內容,然後儲存變更。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在左側窗格中,按一下「Explorer」
:在「Explorer」窗格中展開專案,按一下「Pipelines」,然後選取管道。
按一下選取的工作。
在「工作詳細資料」窗格中,按一下「刪除」圖示。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在左側窗格中,按一下「Explorer」
:在「Explorer」窗格中展開專案,按一下「Pipelines」,然後選取管道。
按一下「共用」,然後選取「管理權限」。
按一下「新增使用者/群組」。
在「新增主體」欄位中,輸入至少一位使用者或群組的名稱。
在「指派角色」中選取角色。
按一下 [儲存]。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在左側窗格中,按一下「Explorer」
:在「Explorer」窗格中展開專案,按一下「Pipelines」,然後選取管道。
按一下「共用」,然後選取「共用連結」。系統會將管道網址複製到電腦的剪貼簿。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在左側窗格中,按一下「Explorer」
:在「Explorer」窗格中展開專案,按一下「Pipelines」,然後選取管道。
按一下「執行」。如果您在驗證時選取「使用我的使用者憑證執行」,則必須授權給您的 Google 帳戶 (預覽版)。
選用:如要檢查執行作業,請查看過去的手動執行作業。
- 前往 Google 帳戶頁面。
- 按一下「BigQuery Pipelines」。
- 按一下 [移除存取權]。
- 進一步瞭解 BigQuery 管道。
- 瞭解如何管理管道。
- 瞭解如何排定管道。
管道的必要角色
如要取得建立管道所需的權限,請要求管理員將專案的下列 IAM 角色授予您:
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
如要進一步瞭解 Dataform IAM,請參閱「使用 IAM 控管存取權」。
筆記本選項的必要角色
如要取得在筆記本選項中選取執行階段範本所需的權限,請要求管理員為您授予專案的 Notebook Runtime User (roles/aiplatform.notebookRuntimeUser
) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
如果沒有這個角色,可以選取預設的筆記本執行階段規格。
設定程式碼資產的預設區域
如果您是第一次建立程式碼資產,請設定程式碼資產的預設區域。程式碼資產建立後,就無法變更區域。
BigQuery Studio 中的所有程式碼資產都使用相同的預設區域。如要設定程式碼資產的預設區域,請按照下列步驟操作:
如需支援的區域清單,請參閱「BigQuery Studio 位置」。
建立管道
如要建立管道,請按照下列步驟操作:
筆記本選項
新增管道工作
如要將工作新增至管道,請按照下列步驟操作:
編輯管道工作
如要編輯管道工作,請按照下列步驟操作:
刪除管道工作
如要從管道中刪除工作,請按照下列步驟操作:
分享管道
如要共用管道,請按照下列步驟操作:
分享管道連結
執行管道
如要手動執行管道的目前版本,請按照下列步驟操作:
授權給您的 Google 帳戶
如要使用Google 帳戶使用者憑證驗證資源,您必須手動授予 BigQuery 管道權限,才能取得 Google 帳戶的存取權杖,並代表您存取來源資料。您可以使用 OAuth 對話方塊介面手動核准。
您只需要授予 BigQuery 管道一次權限。
如要撤銷授予的權限,請按照下列步驟操作:
如果管道包含筆記本,您也必須手動授予 Colab Enterprise 權限,才能取得 Google 帳戶的存取權權杖,並以您的名義存取來源資料。你只需要授予一次權限。您可以在 Google 帳戶頁面撤銷這項權限。