Il modello Avro di Cloud Storage in Bigtable è una pipeline che legge i dati dai file Avro in un bucket Cloud Storage e li scrive in una tabella Bigtable Puoi utilizzare il modello per copiare i dati da Cloud Storage a Bigtable.
Requisiti della pipeline
- La tabella Bigtable deve esistere e avere le stesse famiglie di colonne esportate nei file Avro.
- Prima di eseguire la pipeline, i file Avro di input devono esistere in un bucket Cloud Storage.
- Bigtable prevede uno schema specifico schema dai file Avro di input.
Parametri del modello
Parametri obbligatori
- bigtableProjectId: l'ID del progetto Google Cloud che contiene l'istanza Bigtable in cui vuoi scrivere i dati.
- bigtableInstanceId: l'ID dell'istanza Bigtable che contiene la tabella.
- bigtableTableId: l'ID della tabella Bigtable da importare.
- inputFilePattern: il pattern del percorso Cloud Storage in cui si trovano i dati. Ad esempio,
gs://<BUCKET_NAME>/FOLDER/PREFIX*.
Parametri facoltativi
- splitLargeRows: il flag per abilitare la suddivisione di righe di grandi dimensioni in più richieste MutateRows. Tieni presente che quando una riga di grandi dimensioni viene suddivisa tra più chiamate API, gli aggiornamenti alla riga non sono atomici.
Esegui il modello
Console
- Vai alla pagina Dataflow Crea job da modello. Vai a Crea job da modello
- Nel campo Nome job, inserisci un nome job univoco.
- (Facoltativo) Per Endpoint regionale, seleziona un valore dal menu a discesa. La regione predefinita è
us-central1.Per un elenco delle regioni in cui puoi eseguire un job Dataflow, consulta Località di Dataflow.
- Nel menu a discesa Modello Dataflow, seleziona il modello File Avro su Cloud Storage in Cloud Bigtable.
- Inserisci i valori dei parametri nei campi dei parametri forniti.
- Fai clic su Esegui job.
gcloud
Esegui il modello nella shell o nel terminale:
gcloud dataflow jobs run JOB_NAME \ --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/ \ --region REGION_NAME \ --parameters \ bigtableProjectId=BIGTABLE_PROJECT_ID,\ bigtableInstanceId=INSTANCE_ID,\ bigtableTableId=TABLE_ID,\ inputFilePattern=INPUT_FILE_PATTERN
Sostituisci quanto segue:
JOB_NAME: un nome job univoco a tua sceltaVERSION: la versione del modello che vuoi utilizzarePuoi utilizzare i seguenti valori:
latestper utilizzare la versione più recente del modello, disponibile nella cartella principale non datata nel bucket: gs://dataflow-templates-REGION_NAME/latest/- il nome della versione, ad esempio
2023-09-12-00_RC00, per utilizzare una versione specifica del modello, che si trova nidificata nella rispettiva cartella principale datata nel bucket: gs://dataflow-templates-REGION_NAME/
REGION_NAME: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempious-central1BIGTABLE_PROJECT_ID: l'ID del Google Cloud progetto dell'istanza Bigtable da cui vuoi leggere i datiINSTANCE_ID: l'ID dell'istanza Bigtable che contiene la tabellaTABLE_ID: l'ID della tabella Bigtable da esportareINPUT_FILE_PATTERN: il pattern del percorso Cloud Storage in cui si trovano i dati, ad esempiogs://mybucket/somefolder/prefix*
API
Per eseguire il modello utilizzando l'API REST, invia una richiesta HTTP POST. Per saperne di più sull'
API e sui relativi ambiti di autorizzazione, consulta
projects.templates.launch.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/ { "jobName": "JOB_NAME", "parameters": { "bigtableProjectId": "BIGTABLE_PROJECT_ID", "bigtableInstanceId": "INSTANCE_ID", "bigtableTableId": "TABLE_ID", "inputFilePattern": "INPUT_FILE_PATTERN", }, "environment": { "zone": "us-central1-f" } }
Sostituisci quanto segue:
PROJECT_ID: l'ID progetto in cui vuoi eseguire il job Dataflow Google CloudJOB_NAME: un nome job univoco a tua sceltaVERSION: la versione del modello che vuoi utilizzarePuoi utilizzare i seguenti valori:
latestper utilizzare la versione più recente del modello, disponibile nella cartella principale non datata nel bucket: gs://dataflow-templates-REGION_NAME/latest/- il nome della versione, ad esempio
2023-09-12-00_RC00, per utilizzare una versione specifica del modello, che si trova nidificata nella rispettiva cartella principale datata nel bucket: gs://dataflow-templates-REGION_NAME/
LOCATION: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempious-central1BIGTABLE_PROJECT_ID: l'ID del Google Cloud progetto dell'istanza Bigtable da cui vuoi leggere i datiINSTANCE_ID: l'ID dell'istanza Bigtable che contiene la tabellaTABLE_ID: l'ID della tabella Bigtable da esportareINPUT_FILE_PATTERN: il pattern del percorso Cloud Storage in cui si trovano i dati, ad esempiogs://mybucket/somefolder/prefix*
Passaggi successivi
- Scopri di più sui modelli Dataflow.
- Consulta l'elenco dei modelli forniti da Google.