Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Modello di protocollo Pub/Sub a BigQuery con UDF Python

Il modello di protocollo Pub/Sub-BigQuery è una pipeline in modalità flusso che importa dati di protocollo da una sottoscrizione Pub/Sub a una tabella BigQuery. Eventuali errori che si verificano durante la scrittura nella tabella BigQuery vengono inseriti in modalità flusso in un argomento Pub/Sub non elaborato.

È possibile fornire una funzione definita dall'utente (UDF) Python per trasformare i dati. Gli errori durante l'esecuzione dell'UDF possono essere inviati a un argomento Pub/Sub separato o allo stesso argomento non elaborato degli errori di BigQuery.

Prima di eseguire una pipeline Dataflow per questo scenario, valuta se una sottoscrizione Pub/Sub BigQuery con un UDF soddisfa i tuoi requisiti.

Requisiti della pipeline

Deve esistere la sottoscrizione Pub/Sub di input.
Il file di schema per i record di protocollo deve esistere in Cloud Storage.
Deve esistere l'argomento Pub/Sub di output.
Deve esistere il set di dati BigQuery di output.
Se la tabella BigQuery è esistente, deve avere uno schema corrispondente ai dati di protocollo, indipendentemente dal valore di createDisposition.

Parametri del modello

Parametro	Descrizione
`protoSchemaPath`	Il percorso Cloud Storage del file di schema di protocollo autonomo. Ad esempio, `gs://path/to/my/file.pb`. Questo file può essere generato con il flag `--descriptor_set_out` del comando `protoc`. Il flag `--include_imports` garantisce che il file sia autonomo.
`fullMessageName`	Il nome completo del messaggio di protocollo. Ad esempio, `package.name.MessageName`, dove `package.name` è il valore fornito per l'istruzione `package` e non per l'istruzione `java_package`.
`inputSubscription`	La sottoscrizione Pub/Sub di input da cui leggere. Ad esempio, `projects/<project>/subscriptions/<subscription>`.
`outputTopic`	L'argomento Pub/Sub da utilizzare per i record non elaborati. Ad esempio, `projects/<project-id>/topics/<topic-name>`.
`outputTableSpec`	La posizione della tabella di output BigQuery. Ad esempio, `my-project:my_dataset.my_table`. A seconda di createDisposition specificato, la tabella di output potrebbe essere creata automaticamente utilizzando il file di schema di input.
`preserveProtoFieldNames`	(Facoltativo) `true` per conservare il nome del campo di protocollo originale in JSON. `false` per utilizzare nomi JSON più standard. Ad esempio, `false` cambierebbe `field_name` in `fieldName`. (Valore predefinito: `false`)
`bigQueryTableSchemaPath`	(Facoltativo) Il percorso Cloud Storage del percorso dello schema BigQuery. Ad esempio, `gs://path/to/my/schema.json`. Se non viene fornito, lo schema viene dedotto dallo schema di protocollo.
`pythonExternalTextTransformGcsPath`	(Facoltativo) L'URI Cloud Storage del file di codice Python che definisce la funzione definita dall'utente (UDF) che vuoi utilizzare. Ad esempio, `gs://my-bucket/my-udfs/my_file.py`.
`pythonExternalTextTransformFunctionName`	(Facoltativo) Il nome della funzione definita dall'utente (UDF) Python che vuoi utilizzare.
`udfOutputTopic`	(Facoltativo) L'argomento Pub/Sub che memorizza gli errori UDF. Ad esempio, `projects/<project-id>/topics/<topic-name>`. Se non viene fornito, gli errori UDF vengono inviati allo stesso argomento di `outputTopic`.
`writeDisposition`	(Facoltativo) Il valore `WriteDisposition` di BigQuery. Ad esempio, `WRITE_APPEND`, `WRITE_EMPTY` o `WRITE_TRUNCATE`. Valore predefinito: `WRITE_APPEND`.
`createDisposition`	(Facoltativo) Il valore `CreateDisposition` di BigQuery. Ad esempio, `CREATE_IF_NEEDED`, `CREATE_NEVER`. Valore predefinito: `CREATE_IF_NEEDED`.
`useStorageWriteApi`	(Facoltativo) Se `true`, la pipeline utilizza l' API BigQuery Storage Write. Il valore predefinito è `false`. Per saperne di più, consulta Utilizzo dell'API Storage Write.
`useStorageWriteApiAtLeastOnce`	(Facoltativo) Quando si utilizza l'API Storage Write, specifica la semantica di scrittura. Per utilizzare la semantica at-least-once , imposta questo parametro su `true`. Per utilizzare la semantica exactly-once, imposta il parametro su `false`. Questo parametro si applica solo quando `useStorageWriteApi` è `true`. Il valore predefinito è `false`.
`numStorageWriteApiStreams`	(Facoltativo) Quando si utilizza l'API Storage Write, specifica il numero di flussi di scrittura. Se `useStorageWriteApi` è `true` e `useStorageWriteApiAtLeastOnce` è `false`, devi impostare questo parametro.
`storageWriteApiTriggeringFrequencySec`	(Facoltativo) Quando si utilizza l'API Storage Write, specifica la frequenza di attivazione, in secondi. Se `useStorageWriteApi` è `true` e `useStorageWriteApiAtLeastOnce` è `false`, devi impostare questo parametro.

Funzione definita dall'utente

Facoltativamente, puoi estendere questo modello scrivendo una funzione definita dall'utente (UDF). Il modello chiama l'UDF per ogni elemento di input. I payload degli elementi vengono serializzati come stringhe JSON. Per saperne di più, consulta Creare funzioni definite dall'utente per i modelli Dataflow.

Specifica della funzione

L'UDF ha la seguente specifica:

Input: il campo dati del messaggio Pub/Sub, serializzato come stringa JSON.

Output: una stringa JSON che corrisponde allo schema della tabella di destinazione BigQuery.

Esegui il modello

Console

Vai alla pagina Dataflow Crea job da modello.

Vai a Crea job da modello

Nel campo Nome job, inserisci un nome job univoco.
(Facoltativo) Per Endpoint regionale, seleziona un valore dal menu a discesa. La regione predefinita è us-central1.
Per un elenco delle regioni in cui puoi eseguire un job Dataflow, consulta Località di Dataflow.
Dal menu a discesa Modello Dataflow, seleziona il modello Da protocollo Pub/Sub a BigQuery con UDF Python.
Nei campi dei parametri forniti, inserisci i valori dei parametri.
Fai clic su Esegui job.

gcloud

Nella shell o nel terminale, esegui il modello:

gcloud dataflow flex-template run JOB_NAME \
    --region=REGION_NAME \
    --template-file-gcs-location=gs://dataflow-templates-REGION_NAME/VERSION/flex/ \
    --parameters \
schemaPath=SCHEMA_PATH,\
fullMessageName=PROTO_MESSAGE_NAME,\
inputSubscription=SUBSCRIPTION_NAME,\
outputTableSpec=BIGQUERY_TABLE,\
outputTopic=UNPROCESSED_TOPIC

Sostituisci quanto segue:

JOB_NAME: un nome job univoco a tua scelta
REGION_NAME: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1
VERSION: la versione del modello che vuoi utilizzare
Puoi utilizzare i seguenti valori:
- latest per utilizzare la versione più recente del modello, disponibile nella cartella principale non datata nel bucket: gs://dataflow-templates-REGION_NAME/latest/
- il nome della versione, ad esempio 2023-09-12-00_RC00, per utilizzare una versione specifica del modello, che si trova nidificata nella rispettiva cartella principale datata nel bucket: gs://dataflow-templates-REGION_NAME/
Attenzione: la versione più recente dei modelli potrebbe essere aggiornata con modifiche che causano interruzioni. Gli ambienti di produzione devono utilizzare i modelli conservati nella cartella principale datata più recente per evitare che queste modifiche che causano interruzioni influiscano sui flussi di lavoro di produzione.
SCHEMA_PATH: il percorso Cloud Storage del file di schema di protocollo (ad esempio, gs://MyBucket/file.pb)
PROTO_MESSAGE_NAME: il nome del messaggio di protocollo (ad esempio, package.name.MessageName)
SUBSCRIPTION_NAME: il nome della sottoscrizione Pub/Sub di input
BIGQUERY_TABLE: il nome della tabella di output BigQuery
UNPROCESSED_TOPIC: l'argomento Pub/Sub da utilizzare per la coda non elaborata

API

Per eseguire il modello utilizzando l'API REST, invia una richiesta HTTP POST. Per saperne di più sull' API e sui relativi ambiti di autorizzazione, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/flexTemplates:launch
{
   "launch_parameter": {
      "jobName": "JOB_NAME",
      "containerSpecGcsPath": "gs://dataflow-templates-REGION_NAME/VERSION/flex/",
      "parameters": {
          "schemaPath": "SCHEMA_PATH",
          "fullMessageName": "PROTO_MESSAGE_NAME",
          "inputSubscription": "SUBSCRIPTION_NAME",
          "outputTableSpec": "BIGQUERY_TABLE",
          "outputTopic": "UNPROCESSED_TOPIC"
      }
   }
}