BigQuery と Iceberg のデータを AlloyDB for PostgreSQL にインポートする

このページでは、BigQuery Views for AlloyDB を使用して、ネイティブ テーブル、BigLake 外部テーブルBigQuery 内の Apache Iceberg 用 BigLake テーブルなど、BigQuery からデータをインポートする方法について説明します。Iceberg は、データを管理、交換するためのオープン テーブル形式です。

このページでは、AlloyDB クラスタとプライマリ インスタンスを作成しており、BigQuery のデータセットとテーブルがあることを前提としています。詳細については、データセットの作成テーブルの作成と使用をご覧ください。

始める前に

  1. クラスタの BigQueryViews 機能へのアクセスをリクエストし、有効化の確認が届いたら、このページの手順に沿って操作してください。
  2. サポートされている BigQuery のデータ型と列のマッピングについて理解しておいてください。
  3. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  7. Verify that billing is enabled for your Google Cloud project.

  8. AlloyDB for PostgreSQL の作成と接続に必要な Cloud APIs を有効にします。

    API を有効にする

  9. [プロジェクトを確認] の手順で、[次へ] をクリックして、変更するプロジェクトの名前を確認します。

  10. [API を有効にする] の手順で、[有効にする] をクリックして、次の機能を有効にします。

    • AlloyDB API
    • Compute Engine API
    • Cloud Resource Manager API
    • Service Networking API
    • BigQuery Storage API

    AlloyDB と同じ Google Cloud プロジェクトにある VPC ネットワークを使用して AlloyDB へのネットワーク接続を構成する場合は、Service Networking API が必要です。

    別の Google Cloud プロジェクトにある VPC ネットワークを使用して AlloyDB へのネットワーク接続を構成する場合は、Compute Engine API と Cloud Resource Manager API が必要です。

  11. 必要なロール

    AlloyDB クラスタのサービス アカウントに BigQuery データセットへの読み取りアクセス権を付与するには、次の権限が必要です。

    • BigQuery データ閲覧者(roles/bigquery.dataViewer)、または bigquery.tables.get 権限と bigquery.tables.getData 権限を含むカスタムロール。このロールをテーブルまたはビューに付与すると、テーブルまたはビューからデータとメタデータを読み取る権限が付与されます。
    • BigQuery 読み取りセッション ユーザー(roles/bigquery.readSessionUser)、または bigquery.readsessions.create 権限と bigquery.readsessions.getData 権限を含むカスタムロール。読み取りセッションを作成および使用する権限が付与されます。

    AlloyDB に BigQuery データセットへのアクセス権を付与する

    AlloyDB クラスタで BigQuery ビュー機能が有効になったら、AlloyDB クラスタのサービス アカウントに BigQuery データセットへのアクセス権を付与します。

    gcloud CLI を使用するには、Google Cloud CLI をインストールして初期化するか、Cloud Shell を使用します。

    1. gcloud CLI を開きます。gcloud CLI がインストールされていない場合は、gcloud CLI をインストールして初期化するか、Cloud Shell を使用します。

    2. gcloud beta alloydb clusters describe コマンドを実行します。

      gcloud beta alloydb clusters describe CLUSTER --region=REGION

      次のように置き換えます。

      出力には、このクラスタのサービス アカウントである serviceAccountEmail フィールドが含まれます。

    3. 必要な権限を付与します。詳細については、IAM を使用してリソースへのアクセスを制御するをご覧ください。

      クラスタのサービス アカウントに必要な権限がない場合、BigQuery テーブルに対してクエリを実行すると、次のエラーが表示されます。

      • The user does not have bigquery.readsessions.create permissions
      • Permission bigquery.tables.get denied on table
      • Permission bigquery.tables.getData denied on table

    拡張機能を構成する

    1. 拡張機能を作成します。

      1. psql クライアントをインスタンスに接続するの手順に沿って、psql クライアントを使用して AlloyDB インスタンスに接続します。または、AlloyDB Studio を使用することもできます。詳細については、 Google Cloud コンソールを使用してデータを管理するをご覧ください。
      2. 次のコマンドを実行します。

        CREATE EXTENSION bigquery_fdw;
        
    2. 外部サーバーを作成して、リモート BigQuery データセットの接続パラメータを定義します。

      CREATE SERVER BIGQUERY_SERVER_NAME FOREIGN DATA WRAPPER bigquery_fdw;
      

      次のように置き換えます。

      • BIGQUERY_SERVER_NAME: 外部サーバーの固有識別子。これは、特定のデータベースで 1 回定義します。BIGQUERY_SERVER_NAME は、実際のサーバー名に置き換えることができます。
    3. CREATE USER MAPPING コマンドを実行してユーザー マッピングを作成します。このコマンドは、外部サーバーに接続するときに使用する認証情報を指定します。

      CREATE USER MAPPING FOR USERNAME SERVER BIGQUERY_SERVER_NAME ;
      

      次のように置き換えます。

      • USERNAME: 外部テーブルにアクセスするデータベース ユーザー名または IAM ユーザー。
      • BIGQUERY_SERVER_NAME: 作成した外部サーバーの固有識別子。
    4. CREATE FOREIGN TABLE コマンドを使用して、BigQuery でアクセスするテーブルに対応する外部テーブルを定義します。このコマンドを使用すると、リモート テーブルの構造を定義できます。外部テーブルには、BigQuery のソーステーブルのすべての列または列のサブセットを含めることができます。

      CREATE FOREIGN TABLE TABLENAME (
      COLUMNX_NAME DATA_TYPE,
      COLUMNX_NAME DATA_TYPE,
      ...
      ) SERVER  BIGQUERY_SERVER_NAME OPTIONS (project BIGQUERY_PROJECT_ID, dataset  BIGQUERY_DATASET_NAME, table  BIGQUERY_TABLE_NAME);
      

      次のように置き換えます。

      • TABLENAME: ローカル データベース内の外部テーブルの名前。
      • COLUMNX_NAME: 列名は BigQuery ソースの列名と一致する必要があります。
      • DATA_TYPE: 列のデータ型。
      • BIGQUERY_SERVER_NAME: 作成した外部サーバーの固有識別子。
      • BIGQUERY_PROJECT_ID: BigQuery データセットがあるプロジェクトの ID。
      • BIGQUERY_DATASET_NAME: テーブルの BigQuery データセットの名前。
      • BIGQUERY_TABLE_NAME: BigQuery テーブルの名前。

      外部テーブルを作成したら、AlloyDB の任意のテーブルにクエリを実行するのと同じ方法で、このテーブルにクエリを実行できます。

    データをインポートする

    BigQuery データまたは BigLake Iceberg データを AlloyDB にインポートする手順は次のとおりです。

    1. 既存のデータソースを特定するか、ネイティブ BigQuery テーブルまたは BigQuery の新しい BigLake Iceberg テーブルを作成します。

    2. 次のコマンドを実行して、psql を使用して local_table を作成します。

      CREATE TABLE local_table AS (SELECT * from foreign_table);
      

      このコマンドは、BigQuery テーブルのコピーをローカルのネイティブ AlloyDB テーブルに作成します。
      アプリケーション ワークフローによっては、PostgreSQL pg_cron 拡張機能を構成して、AlloyDB テーブルを定期的に更新できます。

    AlloyDB にデータをインポートするスケジュールを設定する

    BigQuery データまたは BigLake Iceberg データを AlloyDB にインポートするスケジュールを設定する手順は次のとおりです。

    1. bigquery_fdw 拡張機能を構成します
    2. AlloyDB インスタンスで pg_cron 拡張機能を有効にします。詳細については、サポートされているデータベース拡張機能をご覧ください。
      1. alloydb.enable_pg_cron フラグを on に設定します。詳細については、alloydb.enable_pg_cron をご覧ください。
      2. cron.database_name フラグを、bigquery_fdw 拡張機能をインストールしたデータベースの名前と、インポート用の SQL クエリを実行するデータベースの名前に設定します。詳細については、サポートされているデータベース フラグをご覧ください。
    3. 外部テーブルのローカルコピーを定期的に更新するには、bigquery_fdw 拡張機能をインストールしたデータベースで次のコマンドを実行します。

      CREATE EXTENSION pg_cron;
      SELECT cron.schedule(JOB_NAME, SCHEDULE, 'CREATE TABLE IF NOT EXISTS local_table_copy AS (SELECT * FROM foreign_table); DROP TABLE IF EXISTS local_table; ALTER TABLE local_table_copy RENAME TO local_table;');
      

      次のように置き換えます。

      • JOB_NAME: ジョブの名前。
      • SCHEDULE: ジョブのスケジュール。

      詳細については、pg_cron とはをご覧ください。

    次のステップ