Esporta i dati in AlloyDB (ETL inversa)

Questo documento descrive come configurare un workflow di estrazione, trasformazione e caricamento (ETL inverso) inverso da BigQuery ad AlloyDB per PostgreSQL. A questo scopo, utilizza l'istruzione EXPORT DATA.

Prima di iniziare

  • Crea un cluster e un'istanza AlloyDB, che includono un database, uno schema e una tabella, per ricevere i dati esportati. Devi disporre dello schema e della tabella di destinazione prima di eseguire il job di esportazione.

  • L'istanza AlloyDB di destinazione deve essere un'istanza PRIMARY in stato READY.

  • Crea una connessione BigQuery per connetterti alla tua istanza AlloyDB. La connessione deve essere autenticata tramite nome utente e password. L'utente del database specificato nella connessione deve disporre dei privilegi INSERT sulla tabella di destinazione e USAGE sullo schema di destinazione.

  • Crea una prenotazione del livello BigQuery Enterprise o Enterprise Plus.

  • Concedi ruoli Identity and Access Management (IAM) che forniscono agli utenti le autorizzazioni necessarie per eseguire ogni attività descritta in questo documento.

Ruoli obbligatori

Per ottenere le autorizzazioni necessarie per esportare i dati BigQuery in AlloyDB, chiedi all'amministratore di concederti i seguenti ruoli IAM nel progetto:

  • Esporta i dati da una tabella BigQuery: Visualizzatore dati BigQuery (roles/bigquery.dataViewer)
  • Esegui un job di estrazione: Utente BigQuery (roles/bigquery.user)
  • Utilizza una connessione BigQuery: Utente connessione BigQuery (roles/bigquery.connectionUser)
  • Connettiti a un'istanza AlloyDB: AlloyDB Client (roles/alloydb.client): il account di servizio di connessione

Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Limitazioni

  • Le esportazioni AlloyDB supportano solo le esportazioni batch. Non puoi utilizzare query continue per l'esportazione in AlloyDB.

  • I dati esportati in AlloyDB vengono aggiunti esclusivamente come nuove righe. Il processo di esportazione non modifica né elimina i record esistenti in AlloyDB. Se la tabella di destinazione non ha vincoli PRIMARY KEY o UNIQUE definiti, l'esportazione degli stessi dati più volte comporterà voci duplicate.

  • Per garantire l'integrità dei dati, ti consigliamo di definire vincoli PRIMARY KEY o UNIQUE nelle tabelle AlloyDB. I job di esportazione non eseguono "upsert", in cui un record esistente viene aggiornato se esiste una chiave di corrispondenza univoca. Se una riga in entrata viola un vincolo PRIMARY KEY o UNIQUE, l'intero job di esportazione non andrà a buon fine.

  • Non è consigliabile eseguire più job EXPORT DATA simultanei nella stessa tabella AlloyDB. In questo modo, il comportamento può essere imprevedibile, ad esempio perdita di dati o errori dei job. Ti consigliamo di verificare che solo un job di esportazione scriva in una tabella specifica alla volta.

  • È supportata solo l'autenticazione con nome utente e password tramite una connessione BigQuery.

  • I tipi di dati ARRAY, BYTES, GEOGRAPHY, INTERVAL e STRUCT BigQuery non sono supportati.

  • Se l'istruzione SELECT BigQuery omette colonne esistenti nella tabella AlloyDB di destinazione, queste colonne devono consentire valori NULL o avere valori predefiniti definiti in AlloyDB. Se hanno un vincolo NOT NULL e nessun valore predefinito, l'esportazione non riuscirà.

  • Le esportazioni in AlloyDB sono supportate solo per le versioni BigQuery Enterprise o Enterprise Plus. L'edizione BigQuery Standard e il calcolo on demand non sono supportati. Per saperne di più, consulta Funzionalità di amministrazione.

  • Un job BigQuery, ad esempio un job di estrazione in AlloyDB, ha una durata massima di 6 ore. Per esportazioni molto grandi, ti consigliamo di suddividerle in più job più piccoli.

Considerazioni sulla posizione

L'esportazione dei dati in AlloyDB ha requisiti specifici in merito alla posizione del set di dati BigQuery e dell'istanza AlloyDB:

  • Esportazioni nella stessa regione: l'istanza AlloyDB di destinazione deve trovarsi esattamente nella stessa regione Google Cloud del set di dati BigQuery. Ad esempio, un set di dati in us-east1 può essere esportato solo in un'istanza AlloyDB in us-east1.

  • Esportazioni multiregionali:

    • I set di dati nella multiregione US possono essere esportati solo in un'istanza AlloyDB che si trova nella regione us-central1.
    • I set di dati nella multiregione EU possono essere esportati solo in un'istanza AlloyDB che si trova nella regione europe-west4.

Le esportazioni tra regioni diverse dalle combinazioni menzionate in precedenza non sono supportate.

Configurare le esportazioni con alloydb_options

Puoi utilizzare l'opzione alloydb_options per specificare lo schema, la tabella e il numero massimo di connessioni di destinazione AlloyDB. La configurazione è espressa come stringa JSON. È obbligatorio solo il parametro table; tutti gli altri parametri sono facoltativi.

Quando configuri l'esportazione, le colonne nell'istruzione SELECT devono avere alias che corrispondono ai nomi delle colonne nella tabella AlloyDB di destinazione.

EXPORT DATA
  WITH CONNECTION `PROJECT_ID.LOCATION.CONNECTION_ID`
  OPTIONS(
    format='ALLOYDB',
    uri="https://alloydb.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/clusters/CLUSTER_ID/instances/INSTANCE_ID",
    alloydb_options="""{
      "schema": "SCHEMA_NAME",
      "table": "TABLE_NAME",
      "max_parallel_connections": MAX_CONNECTIONS
    }"""
  )
AS SELECT * FROM `mydataset.table1`;

Sostituisci quanto segue:

  • PROJECT_ID: il nome del progetto Google Cloud .
  • LOCATION: la posizione della connessione e dell'istanza di destinazione.
  • CONNECTION_ID: il nome della connessione BigQuery.
  • CLUSTER_ID: il nome del tuo cluster AlloyDB.
  • INSTANCE_ID: il nome dell'istanza AlloyDB di destinazione.
  • SCHEMA_NAME (facoltativo): il nome dello schema di destinazione in AlloyDB. Se non fornito, viene utilizzato lo schema predefinito configurato per l'utente del database.
  • TABLE_NAME: il nome di una tabella di destinazione esistente in AlloyDB, senza il prefisso dello schema.
  • MAX_CONNECTIONS (Facoltativo): il numero massimo di connessioni parallele simultanee dai worker BigQuery all'istanza AlloyDB. La limitazione delle connessioni può impedire il sovraccarico dell'istanza di destinazione durante le esportazioni di grandi dimensioni.

Esporta i dati

Puoi utilizzare l'istruzione EXPORT DATA per esportare i dati da una tabella BigQuery in una tabella AlloyDB.

Il seguente esempio esporta i campi selezionati da una tabella denominata mydataset.table1 in una tabella AlloyDB denominata my_target_table:

EXPORT DATA
  WITH CONNECTION `myproject.us-central1.my-alloydb-conn`
  OPTIONS (
    format='ALLOYDB',
    uri="https://alloydb.googleapis.com/v1/projects/myproject/locations/us-central1/clusters/my-cluster/instances/my-instance",
    alloydb_options="""{
      "schema": "public",
      "table": "my_target_table"
    }"""
  )
AS SELECT
  col1 AS id,
  col2 AS name,
  col3 AS value
FROM
  `mydataset.table1`;

Prezzi

Quando esporti dati in AlloyDB utilizzando l'istruzione EXPORT DATA, la fatturazione viene eseguita utilizzando i prezzi di calcolo della capacità di BigQuery.

Una volta esportati i dati, ti vengono addebitati i costi per l'archiviazione in AlloyDB. Per saperne di più, consulta la sezione Prezzi di AlloyDB per PostgreSQL.