BigQuery- und Iceberg-Daten in AlloyDB for PostgreSQL importieren

Auf dieser Seite wird beschrieben, wie Sie BigQuery-Ansichten für AlloyDB verwenden, um Daten aus BigQuery zu importieren, einschließlich nativer Tabellen, externer BigLake-Tabellen und verwalteter Apache Iceberg-Tabellen. Iceberg ist ein offenes Tabellenformat zum Verwalten und Austauschen von Daten.

Auf dieser Seite wird davon ausgegangen, dass Sie einen AlloyDB-Cluster und eine primäre Instanz, sowie ein BigQuery-Dataset und Tabellen haben. Weitere Informationen, siehe Datasets erstellen und Tabellen erstellen und verwenden.

Hinweis

  1. Fordern Sie Zugriff auf die Funktion „BigQuery-Ansichten“ für Ihren Cluster an und warten Sie, bis Sie die Bestätigung der Aktivierung erhalten, bevor Sie die Anleitung auf dieser Seite befolgen.
  2. Machen Sie sich mit den unterstützten BigQuery-Datentypen und Spaltenzuordnungen vertraut.
  3. Melden Sie sich in Ihrem Google Cloud Konto an. Wenn Sie noch kein Konto haben Google Cloud, erstellen Sie ein Konto, um die Leistung unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Enable the AlloyDB, Compute Engine, Resource Manager, and BigQuery APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  7. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  8. Verify that billing is enabled for your Google Cloud project.

  9. Enable the AlloyDB, Compute Engine, Resource Manager, and BigQuery APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  10. Aktivieren Sie die Cloud APIs, die zum Erstellen einer Verbindung zu AlloyDB for PostgreSQL erforderlich sind.

    APIs aktivieren

  11. Klicken Sie im Schritt Projekt bestätigen auf Weiter , um den Namen des Projekts zu bestätigen, an dem Sie Änderungen vornehmen möchten.

  12. Klicken Sie im Schritt APIs aktivieren auf Aktivieren, um Folgendes zu aktivieren:

    • AlloyDB API
    • Compute Engine API
    • Cloud Resource Manager API
    • Service Networking API
    • BigQuery Storage API

    Die Service Networking API ist erforderlich, wenn Sie die Netzwerkkonnektivität zu AlloyDB mit einem VPC-Netzwerk konfigurieren möchten, das sich im selben Google Cloud Projekt wie AlloyDB befindet.

    Die Compute Engine API und die Cloud Resource Manager API sind erforderlich, wenn Sie die Netzwerkkonnektivität zu AlloyDB mit einem VPC Netzwerk konfigurieren möchten, das sich in einem anderen Google Cloud Projekt befindet.

Erforderliche Rollen

Um dem Dienstkonto des AlloyDB-Clusters Leseberechtigung für das BigQuery-Dataset zu erteilen, benötigen Sie die folgenden Berechtigungen:

  • BigQuery-Datenbetrachter (roles/bigquery.dataViewer) oder eine benutzerdefinierte Rolle mit den Berechtigungen bigquery.tables.get und bigquery.tables.getData. Wenn diese Rolle für eine Tabelle oder Ansicht gewährt wird, bietet sie Berechtigungen zum Lesen von Daten und Metadaten aus der Tabelle oder Ansicht.
  • BigQuery-Lesesitzungsnutzer (roles/bigquery.readSessionUser) oder eine benutzerdefinierte Rolle mit den Berechtigungen bigquery.readsessions.create und bigquery.readsessions.getData. Ermöglicht das Erstellen und Verwenden von Lesesitzungen.

AlloyDB Zugriff auf das BigQuery-Dataset gewähren

Nachdem die Funktion „BigQuery-Ansichten“ in Ihrem AlloyDB-Cluster aktiviert wurde, gewähren Sie dem Dienstkonto des AlloyDB-Clusters Zugriff auf das BigQuery-Dataset.

Wenn Sie die gcloud CLI verwenden möchten, können Sie die Google Cloud CLI installieren und initialisieren oder Cloud Shell verwenden.

  1. Öffnen Sie die gcloud CLI. Wenn die gcloud CLI nicht installiert ist, installieren und initialisieren Sie sie oder verwenden Sie Cloud Shell.

  2. Führen Sie den gcloud beta alloydb clusters describe Befehl aus:

    gcloud beta alloydb clusters describe CLUSTER --region=REGION

    Ersetzen Sie Folgendes:

    • CLUSTER: die AlloyDB-Cluster-ID.
    • REGION: der Standort des AlloyDB-Clusters, z. B. asia-east1 oder us-east1. Eine vollständige Liste der Regionen finden Sie unter Instanzstandorte verwalten.

    Die Ausgabe enthält das Feld serviceAccountEmail, das das Dienstkonto für diesen Cluster ist.

  3. Erforderliche Berechtigungen erteilen. Weitere Informationen finden Sie unter Zugriff auf Ressourcen mit IAM steuern.

    Wenn das Dienstkonto des Clusters nicht die erforderlichen Berechtigungen hat, werden beim Ausführen einer Abfrage für die BigQuery-Tabelle die folgenden Fehler angezeigt:

    • The user does not have bigquery.readsessions.create permissions
    • Permission bigquery.tables.get denied on table
    • Permission bigquery.tables.getData denied on table

Erweiterung konfigurieren

  1. Erstellen Sie die Erweiterung.

    1. Stellen Sie mit dem psql Client eine Verbindung zur AlloyDB-Instanz her. Folgen Sie dazu der Anleitung unter psql-Client mit einer Instanz verbinden. Alternativ können Sie AlloyDB Studio verwenden. Weitere Informationen finden Sie unter Daten mit der Google Cloud Konsole verwalten.
    2. Führen Sie dazu diesen Befehl aus:

      CREATE EXTENSION bigquery_fdw;
      
  2. Erstellen Sie einen externen Server, um die Verbindungsparameter für das externe BigQuery-Dataset zu definieren.

    CREATE SERVER BIGQUERY_SERVER_NAME FOREIGN DATA WRAPPER bigquery_fdw;
    

    Ersetzen Sie Folgendes:

    • BIGQUERY_SERVER_NAME: eindeutige Kennung für den externen Server. Definieren Sie diese Kennung einmal in einer bestimmten Datenbank. Sie können BIGQUERY_SERVER_NAME durch Ihren Servernamen ersetzen.
  3. Erstellen Sie die Nutzerzuordnung, indem Sie den CREATE USER MAPPING Befehl ausführen. Dieser Befehl gibt die Anmeldedaten an, die verwendet werden sollen, wenn Sie eine Verbindung zum externen Server herstellen.

    CREATE USER MAPPING FOR USERNAME SERVER BIGQUERY_SERVER_NAME ;
    

    Ersetzen Sie Folgendes:

    • USERNAME: ein Datenbanknutzername oder ein IAM-Nutzer, der auf die externe Tabelle zugreift.
    • BIGQUERY_SERVER_NAME: eindeutige Kennung für den von Ihnen erstellten externen Server.
  4. Definieren Sie externe Tabellen, die den Tabellen entsprechen, auf die Sie in BigQuery zugreifen möchten, mit dem Befehl CREATE FOREIGN TABLE. Mit diesem Befehl können Sie die Struktur einer externen Tabelle definieren. Die externe Tabelle kann alle oder eine Teilmenge der Spalten in der Quelltabelle in BigQuery haben.

    CREATE FOREIGN TABLE TABLENAME (
    COLUMNX_NAME DATA_TYPE,
    COLUMNX_NAME DATA_TYPE,
    ...
    ) SERVER  BIGQUERY_SERVER_NAME OPTIONS (project BIGQUERY_PROJECT_ID, dataset  BIGQUERY_DATASET_NAME, table  BIGQUERY_TABLE_NAME);
    

    Ersetzen Sie Folgendes:

    • TABLENAME: Name der externen Tabelle in der lokalen Datenbank.
    • COLUMNX_NAME: Der Spaltenname muss mit dem Spaltennamen in der BigQuery-Quelle übereinstimmen.
    • DATA_TYPE: der Datentyp der Spalte.
    • BIGQUERY_SERVER_NAME: eindeutige Kennung für den von Ihnen erstellten externen Server.
    • BIGQUERY_PROJECT_ID: ID des Projekts, in dem sich das BigQuery-Dataset befindet.
    • BIGQUERY_DATASET_NAME: Name des BigQuery-Datasets für die Tabelle.
    • BIGQUERY_TABLE_NAME: Name der BigQuery-Tabelle.

    Nachdem die externe Tabelle erstellt wurde, können Sie sie genauso abfragen wie jede andere Tabelle in AlloyDB.

Daten importieren

So importieren Sie BigQuery- oder BigLake Iceberg-Daten in AlloyDB:

  1. Suchen Sie eine vorhandene Datenquelle oder erstellen Sie eine native BigQuery-Tabelle oder neue verwaltete Iceberg-Tabellen.

  2. Erstellen Sie mit psql local_table, indem Sie den folgenden Befehl ausführen:

    CREATE TABLE local_table AS (SELECT * from foreign_table);
    

    Mit diesem Befehl wird eine Kopie der BigQuery-Tabelle in einer lokalen, nativen AlloyDB-Tabelle erstellt.
    Je nach Workflow Ihrer Anwendung können Sie die PostgreSQL-Erweiterung pg_cron so konfigurieren, dass die AlloyDB-Tabelle in regelmäßigen Abständen aktualisiert wird.

Zeitplan für den Import von Daten in AlloyDB einrichten

So richten Sie einen Zeitplan für den Import von BigQuery- oder BigLake Iceberg-Daten in AlloyDB ein:

  1. Konfigurieren Sie die Erweiterung bigquery_fdw.
  2. Aktivieren Sie die Erweiterung pg_cron in der AlloyDB-Instanz. Weitere Informationen finden Sie unter Unterstützte Datenbankerweiterungen.
    1. Setzen Sie das Flag alloydb.enable_pg_cron auf on. Weitere Informationen finden Sie unter alloydb.enable_pg_cron.
    2. Setzen Sie das Flag cron.database_name auf den Datenbanknamen, in dem Sie die Erweiterung bigquery_fdw installiert haben und in dem Sie die SQL-Abfragen für den Import ausführen möchten. Weitere Informationen finden Sie unter Unterstützte Datenbank-Flags.
  3. Führen Sie die folgenden Befehle in der Datenbank aus, in der Sie die Erweiterung bigquery_fdw installiert haben, um eine lokale Kopie der externen Tabelle regelmäßig zu aktualisieren:

    CREATE EXTENSION pg_cron;
    SELECT cron.schedule(JOB_NAME, SCHEDULE, 'CREATE TABLE IF NOT EXISTS local_table_copy AS (SELECT * FROM foreign_table); DROP TABLE IF EXISTS local_table; ALTER TABLE local_table_copy RENAME TO local_table;');
    

    Ersetzen Sie Folgendes:

    • JOB_NAME: der Name des Jobs.
    • SCHEDULE: der Zeitplan für den Job.

    Weitere Informationen finden Sie unter Was ist pg_cron?.

Nächste Schritte