本頁面說明如何使用適用於 PostgreSQL 的 AlloyDB Lakehouse Federation,從 BigQuery 原生資料表、具體化檢視區塊、BigQuery 檢視區塊、BigLake 外部資料表 (例如 Apache Iceberg 代管資料表) 和標準外部資料表同步資料。Iceberg 是開放式資料表格式,用於管理及交換資料。
本頁假設您已擁有 AlloyDB 叢集和主要執行個體,以及 BigQuery 資料集和資料表。詳情請參閱「建立資料集」和「建立及使用資料表」。
事前準備
- 請確保 AlloyDB 執行個體已設定
bigquery_fdw.enabled旗標。 - 熟悉支援的 BigQuery 資料類型和資料欄對應。
- 登入 Google Cloud 帳戶。如果您是 Google Cloud新手,歡迎 建立帳戶,親自評估產品在實際工作環境中的成效。新客戶還能獲得價值 $300 美元的免費抵免額,可用於執行、測試及部署工作負載。
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the AlloyDB, Compute Engine, Resource Manager, and BigQuery APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the AlloyDB, Compute Engine, Resource Manager, and BigQuery APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
啟用建立及連線至 AlloyDB for PostgreSQL 時所需的 Cloud API。
在「確認專案」步驟中,按一下「下一步」,確認要變更的專案名稱。
在「啟用 API」步驟中,按一下「啟用」,啟用下列項目:
- AlloyDB API
- Compute Engine API
- Cloud Resource Manager API
- Service Networking API
- BigQuery Storage API
如果您打算使用與 AlloyDB 位於相同 Google Cloud 專案的虛擬私有雲網路,設定 AlloyDB 的網路連線,則必須啟用 Service Networking API。
如要使用位於不同 Google Cloud 專案的虛擬私有雲網路,設定 AlloyDB 的網路連線,則必須使用 Compute Engine API 和 Cloud Resource Manager API。
必要的角色
如要將 BigQuery 資料集的讀取權授予 AlloyDB 叢集服務帳戶,您必須具備下列權限:
- BigQuery 資料檢視者 (
roles/bigquery.dataViewer) 或具有bigquery.tables.get和bigquery.tables.getData權限的任何自訂角色。如果授予資料表或檢視表的權限,這個角色可提供從資料表或檢視表讀取資料和中繼資料的權限。 - BigQuery 讀取工作階段使用者
(
roles/bigquery.readSessionUser) 或具有bigquery.readsessions.create和bigquery.readsessions.getData權限的任何自訂角色。可建立及使用讀取工作階段。
將 BigQuery 資料集存取權授予 AlloyDB
在 AlloyDB 叢集上啟用 Lakehouse Federation 功能後,請將 BigQuery 資料集存取權授予 AlloyDB 叢集服務帳戶。
如要使用 gcloud CLI,可以安裝及初始化 Google Cloud CLI,也可以使用 Cloud Shell。
開啟 gcloud CLI。如果沒有安裝 gcloud CLI,請安裝並初始化 gcloud CLI,或使用 Cloud Shell。
請執行
gcloud beta alloydb clusters describe指令。gcloud beta alloydb clusters describe CLUSTER --region=REGION更改下列內容:
CLUSTER:AlloyDB 叢集 ID。REGION:AlloyDB 叢集的位置,例如asia-east1、us-east1。如要查看完整地區清單,請參閱「管理執行個體位置」。
輸出結果含有
serviceAccountEmail欄位,這是叢集的服務帳戶。您也可以在「叢集詳細資料」頁面中找到服務帳戶。授予必要權限。詳情請參閱「使用 IAM 控管資源存取權」。
如果叢集服務帳戶沒有必要權限,對 BigQuery 資料表執行查詢時,會出現下列錯誤:
The user does not have bigquery.readsessions.create permissionsPermission bigquery.tables.get denied on tablePermission bigquery.tables.getData denied on table
設定擴充功能
建立擴充功能。
- 按照「將 psql 用戶端連線至執行個體」一文中的操作說明,使用 psql 用戶端連線至 AlloyDB 執行個體。或者,您也可以使用 AlloyDB Studio。詳情請參閱「使用 Google Cloud 控制台管理資料」。
執行下列指令:
CREATE EXTENSION bigquery_fdw;
建立外部伺服器,定義遠端 BigQuery 資料集的連線參數。
CREATE SERVER BIGQUERY_SERVER_NAME FOREIGN DATA WRAPPER bigquery_fdw;更改下列內容:
BIGQUERY_SERVER_NAME:外部伺服器的專屬 ID。在特定資料庫中定義一次即可。您可以將BIGQUERY_SERVER_NAME替換成伺服器名稱。
執行
CREATE USER MAPPING指令建立使用者對應,指定連線至外部伺服器時要使用的憑證。CREATE USER MAPPING FOR USERNAME SERVER BIGQUERY_SERVER_NAME ;更改下列內容:
USERNAME:存取外部資料表時使用的資料庫使用者名稱或 IAM 使用者。BIGQUERY_SERVER_NAME:您建立的外部伺服器專屬 ID。
使用
CREATE FOREIGN TABLE指令,定義要存取 BigQuery 中資料表的外來資料表。這個指令可讓您定義遠端資料表的結構。外部資料表可以包含 BigQuery 來源資料表中的所有資料欄,也可以只包含部分資料欄。CREATE FOREIGN TABLE TABLENAME ( COLUMNX_NAME DATA_TYPE, COLUMNX_NAME DATA_TYPE, ... ) SERVER BIGQUERY_SERVER_NAME OPTIONS (project BIGQUERY_PROJECT_ID, dataset BIGQUERY_DATASET_NAME, table BIGQUERY_TABLE_NAME [, mode EXECUTION_MODE]);更改下列內容:
TABLENAME:本機資料庫中的外部資料表名稱。COLUMNX_NAME:AlloyDB 資料欄名稱。 資料欄名稱必須與 BigQuery 來源資料表中對應的資料欄名稱完全一致。X表示資料表可建立多個資料欄。名稱也必須與 BigQuery 資料欄的確切大小寫相符。如果 BigQuery 資料欄名稱包含大寫字母 (例如employeeID),AlloyDB 識別碼必須以雙引號括住 (例如"employeeID"),才能保留大小寫混合或大寫字母。DATA_TYPE:資料欄的資料類型。BIGQUERY_SERVER_NAME:您建立的外部伺服器專屬 ID。BIGQUERY_PROJECT_ID:BigQuery 資料集所在的專案 ID。BIGQUERY_DATASET_NAME:資料表所屬的 BigQuery 資料集名稱。BIGQUERY_TABLE_NAME:BigQuery 資料表的名稱。EXECUTION_MODE:選用。mode選項支援下列設定:query:使用 BigQuery API 執行複雜查詢。storage:使用 BigQuery Storage API,加快大量讀取作業的速度。auto:自動選擇模式。此為預設值。
詳情請參閱「BigQuery 外部資料包裝函式執行模式」。
建立外部資料表後,您就可以像查詢 AlloyDB 中的任何資料表一樣,查詢這個資料表。
同步處理資料
如要將 BigQuery 資料或 BigLake Iceberg 資料同步至 AlloyDB,請按照下列步驟操作:
找出現有資料來源,或建立原生 BigQuery 資料表或新的 Iceberg 受管理資料表。
使用 psql 執行下列指令,建立
local_table:CREATE TABLE local_table AS (SELECT * from foreign_table);這項指令會將 BigQuery 資料表複製到本機原生 AlloyDB 資料表。
視應用程式工作流程而定,您可以設定 PostgreSQLpg_cron擴充功能,定期重新整理 AlloyDB 資料表。
設定排程,將資料同步至 AlloyDB
如要設定排程,將 BigQuery 資料或 BigLake Iceberg 資料同步至 AlloyDB,請按照下列步驟操作:
- 設定
bigquery_fdw擴充功能。 - 在 AlloyDB 執行個體上啟用
pg_cron擴充功能。 詳情請參閱「支援的資料庫擴充功能」。- 將
alloydb.enable_pg_cron旗標設為on。詳情請參閱 alloydb.enable_pg_cron。 - 將
cron.database_name標記設為您安裝bigquery_fdw擴充功能的資料庫名稱,以及要執行同步 SQL 查詢的資料庫名稱。詳情請參閱「支援的資料庫標記」。
- 將
如要定期重新整理外部資料表的本機副本,請在安裝
bigquery_fdw擴充功能的資料庫中執行下列指令:CREATE EXTENSION pg_cron; SELECT cron.schedule(JOB_NAME, SCHEDULE, 'CREATE TABLE IF NOT EXISTS local_table_copy AS (SELECT * FROM foreign_table); DROP TABLE IF EXISTS local_table; ALTER TABLE local_table_copy RENAME TO local_table;');更改下列內容:
JOB_NAME:工作名稱。SCHEDULE:工作排程。
詳情請參閱「什麼是 pg_cron?」。