Google utilizza la tecnologia AI per tradurre i contenuti nella tua lingua preferita. Le traduzioni generate dall'AI potrebbero contenere errori.

Modello Avro di Cloud Storage a Bigtable

Il modello Avro di Cloud Storage in Bigtable è una pipeline che legge i dati dai file Avro in un bucket Cloud Storage e li scrive in una tabella Bigtable Puoi utilizzare il modello per copiare i dati da Cloud Storage a Bigtable.

Requisiti della pipeline

La tabella Bigtable deve esistere e avere le stesse famiglie di colonne esportate nei file Avro.
Prima di eseguire la pipeline, i file Avro di input devono esistere in un bucket Cloud Storage.
Bigtable prevede uno schema specifico schema dai file Avro di input.

Parametri del modello

Parametri obbligatori

bigtableProjectId: l'ID del progetto Google Cloud che contiene l'istanza Bigtable in cui vuoi scrivere i dati.
bigtableInstanceId: l'ID dell'istanza Bigtable che contiene la tabella.
bigtableTableId: l'ID della tabella Bigtable da importare.
inputFilePattern: il pattern del percorso Cloud Storage in cui si trovano i dati. Ad esempio, gs://<BUCKET_NAME>/FOLDER/PREFIX*.

Parametri facoltativi

splitLargeRows: il flag per abilitare la suddivisione di righe di grandi dimensioni in più richieste MutateRows. Tieni presente che quando una riga di grandi dimensioni viene suddivisa tra più chiamate API, gli aggiornamenti alla riga non sono atomici.

Esegui il modello

Console

Vai alla pagina Dataflow Crea job da modello.

Vai a Crea job da modello

Nel campo Nome job, inserisci un nome job univoco.
(Facoltativo) Per Endpoint regionale, seleziona un valore dal menu a discesa. La regione predefinita è us-central1.
Per un elenco delle regioni in cui puoi eseguire un job Dataflow, consulta Località di Dataflow.
Nel menu a discesa Modello Dataflow, seleziona il modello File Avro su Cloud Storage in Cloud Bigtable.
Inserisci i valori dei parametri nei campi dei parametri forniti.
Fai clic su Esegui job.

gcloud

Esegui il modello nella shell o nel terminale:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/ \
    --region REGION_NAME \
    --parameters \
bigtableProjectId=BIGTABLE_PROJECT_ID,\
bigtableInstanceId=INSTANCE_ID,\
bigtableTableId=TABLE_ID,\
inputFilePattern=INPUT_FILE_PATTERN

Sostituisci quanto segue:

JOB_NAME: un nome job univoco a tua scelta
VERSION: la versione del modello che vuoi utilizzare
Puoi utilizzare i seguenti valori:
- latest per utilizzare la versione più recente del modello, disponibile nella cartella principale non datata nel bucket: gs://dataflow-templates-REGION_NAME/latest/
- il nome della versione, ad esempio 2023-09-12-00_RC00, per utilizzare una versione specifica del modello, che si trova nidificata nella rispettiva cartella principale datata nel bucket: gs://dataflow-templates-REGION_NAME/
Attenzione: la versione più recente dei modelli potrebbe essere aggiornata con modifiche che causano interruzioni. Gli ambienti di produzione devono utilizzare i modelli conservati nella cartella principale datata più recente per evitare che queste modifiche che causano interruzioni influiscano sui workflow di produzione.
REGION_NAME: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1
BIGTABLE_PROJECT_ID: l'ID del Google Cloud progetto dell'istanza Bigtable da cui vuoi leggere i dati
INSTANCE_ID: l'ID dell'istanza Bigtable che contiene la tabella
TABLE_ID: l'ID della tabella Bigtable da esportare
INPUT_FILE_PATTERN: il pattern del percorso Cloud Storage in cui si trovano i dati, ad esempio gs://mybucket/somefolder/prefix*

API

Per eseguire il modello utilizzando l'API REST, invia una richiesta HTTP POST. Per saperne di più sull' API e sui relativi ambiti di autorizzazione, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/
{
   "jobName": "JOB_NAME",
   "parameters": {
       "bigtableProjectId": "BIGTABLE_PROJECT_ID",
       "bigtableInstanceId": "INSTANCE_ID",
       "bigtableTableId": "TABLE_ID",
       "inputFilePattern": "INPUT_FILE_PATTERN",
   },
   "environment": { "zone": "us-central1-f" }
}