I componenti Dataflow consentono di inviare job Apache Beam a Dataflow per l'esecuzione. In Dataflow, una risorsa Job rappresenta un job Dataflow.
L'SDK Google Cloud include i
seguenti operatori per creare risorse Job e monitorarne l'esecuzione:
Inoltre, l' Google Cloud SDK include il componente
WaitGcpResourcesOp, che puoi utilizzare per ridurre i costi durante l'esecuzione dei job Dataflow.
DataflowFlexTemplateJobOp
L'operatore DataflowFlexTemplateJobOp
consente di creare un componente
di Gemini Enterprise Agent Platform Pipelines per avviare un
modello flessibile Dataflow.
In Dataflow, una risorsa LaunchFlexTemplateParameter rappresenta un modello flessibile da avviare. Questo componente crea una risorsa LaunchFlexTemplateParameter e poi richiede a Dataflow di creare un job avviando il modello. Se il modello viene avviato correttamente, Dataflow restituisce una risorsa Job.
Il componente modello flessibile Dataflow termina alla ricezione di una risorsa Job da Dataflow. Il componente restituisce un job_id come
proto gcp_resources serializzato. Puoi
trasferire questo parametro a un componente
WaitGcpResourcesOp per attendere il completamento del job Dataflow.
DataflowPythonJobOp
L'operatore DataflowPythonJobOp
ti consente di creare un componente di pipeline di Gemini Enterprise Agent Platform che prepara
i dati inviando un job Apache Beam basato su Python a Dataflow per
l'esecuzione.
Il codice Python del job Apache Beam viene eseguito con Dataflow Runner.
Quando esegui la pipeline con il servizio Dataflow, il runner carica il codice eseguibile nella posizione specificata dal parametro python_module_path e le dipendenze in un bucket Cloud Storage (specificato da temp_location), quindi crea un job Dataflow che esegue la pipeline Apache Beam su risorse gestite in Google Cloud.
Per scoprire di più su Dataflow Runner, consulta Utilizzo di Dataflow Runner.
Il componente Python di Dataflow accetta un elenco di argomenti
che vengono passati utilizzando Beam Runner al codice Apache Beam. Questi argomenti sono specificati da args. Ad esempio, puoi utilizzare questi
argomenti per impostare
apache_beam.options.pipeline_options per
specificare una rete, una subnet, una chiave di crittografia gestita dal cliente (CMEK) e
altre opzioni quando esegui job Dataflow.
WaitGcpResourcesOp
Spesso il completamento dei job Dataflow richiede molto tempo. I costi di
un container busy-wait (il container che avvia il job Dataflow e
attende il risultato) possono diventare elevati.
Dopo aver inviato il job Dataflow utilizzando il runner Beam, il componente DataflowPythonJobOp termina immediatamente e restituisce un parametro di output job_id come proto gcp_resourcesserializzato. Puoi passare questo parametro a un componente WaitGcpResourcesOp per attendere il completamento del job Dataflow.
dataflow_python_op = DataflowPythonJobOp( project=project_id, location=location, python_module_path=python_file_path, temp_location = staging_dir, requirements_file_path = requirements_file_path, args = ['--output', OUTPUT_FILE], ) dataflow_wait_op = WaitGcpResourcesOp( gcp_resources = dataflow_python_op.outputs["gcp_resources"] )
Gemini Enterprise Agent Platform Pipelines ottimizza WaitGcpResourcesOp per eseguirlo in modalità serverless e non ha costi.
Se DataflowPythonJobOp e DataflowFlexTemplateJobOp non soddisfano i tuoi
requisiti, puoi anche creare un componente personalizzato che restituisca il
parametro gcp_resources e passarlo al componente WaitGcpResourcesOp.
Per saperne di più su come creare il parametro di output gcp_resources, consulta
Scrivi un componente per mostrare un link alla console. Google Cloud
Riferimento API
Per il riferimento ai componenti, consulta il Google Cloud riferimento all'SDK per i componenti di Dataflow.
Per il riferimento alle risorse Dataflow, consulta le seguenti pagine di riferimento dell'API:
Risorsa
LaunchFlexTemplateParameterRisorsa
Job
Tutorial
- Inizia a utilizzare il componente modello flessibile Dataflow
- Inizia a utilizzare il componente Job Python Dataflow
- Specifica una rete e una subnet
- Utilizzo delle chiavi di crittografia gestite dal cliente (CMEK)
Cronologia delle versioni e note di rilascio
Per scoprire di più sulla cronologia delle versioni e sulle modifiche all'SDK Google Cloud Pipeline Components, consulta le Google Cloud note di rilascio dell'SDK Pipeline Components.
Contatti dell'assistenza tecnica
In caso di domande, scrivi all'indirizzo kubeflow-pipelines-components@google.com.