I modelli flessibili di Dataflow ti consentono di pacchettizzare una pipeline Dataflow per il deployment. Questo tutorial mostra come creare un modello flessibile di esempio e poi eseguire un job Dataflow utilizzando questo modello.
Obiettivi
- Crea un modello flessibile Dataflow.
- Utilizza il modello per eseguire un job Dataflow.
Costi
In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud Platform:
Per generare una stima dei costi in base all'utilizzo previsto,
utilizza il Calcolatore prezzi.
Al termine delle attività descritte in questo documento, puoi evitare l'addebito di ulteriori costi eliminando le risorse che hai creato. Per saperne di più, consulta Esegui la pulizia.
Prima di iniziare
- Sign in to your Google Cloud Platform account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
Install the Google Cloud CLI.
-
Se utilizzi un provider di identità (IdP) esterno, devi prima accedere a gcloud CLI con la tua identità federata.
-
Per inizializzare gcloud CLI, esegui questo comando:
gcloud init -
Create or select a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Create a Google Cloud project:
gcloud projects create PROJECT_ID
Replace
PROJECT_IDwith a name for the Google Cloud project you are creating. -
Select the Google Cloud project that you created:
gcloud config set project PROJECT_ID
Replace
PROJECT_IDwith your Google Cloud project name.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataflow, Compute Engine, Logging, Cloud Storage, Cloud Storage JSON, Resource Manager, and Artifact Registry API:
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.gcloud services enable dataflow compute_component logging storage_component storage_api cloudresourcemanager.googleapis.com artifactregistry.googleapis.com
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
If an authentication error is returned, and you are using an external identity provider (IdP), confirm that you have signed in to the gcloud CLI with your federated identity.
-
Grant roles to your user account. Run the following command once for each of the following IAM roles:
roles/iam.serviceAccountUsergcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE
Replace the following:
PROJECT_ID: Your project ID.USER_IDENTIFIER: The identifier for your user account. For example,myemail@example.com.ROLE: The IAM role that you grant to your user account.
-
Install the Google Cloud CLI.
-
Se utilizzi un provider di identità (IdP) esterno, devi prima accedere a gcloud CLI con la tua identità federata.
-
Per inizializzare gcloud CLI, esegui questo comando:
gcloud init -
Create or select a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Create a Google Cloud project:
gcloud projects create PROJECT_ID
Replace
PROJECT_IDwith a name for the Google Cloud project you are creating. -
Select the Google Cloud project that you created:
gcloud config set project PROJECT_ID
Replace
PROJECT_IDwith your Google Cloud project name.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Dataflow, Compute Engine, Logging, Cloud Storage, Cloud Storage JSON, Resource Manager, and Artifact Registry API:
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.gcloud services enable dataflow compute_component logging storage_component storage_api cloudresourcemanager.googleapis.com artifactregistry.googleapis.com
-
If you're using a local shell, then create local authentication credentials for your user account:
gcloud auth application-default login
You don't need to do this if you're using Cloud Shell.
If an authentication error is returned, and you are using an external identity provider (IdP), confirm that you have signed in to the gcloud CLI with your federated identity.
-
Grant roles to your user account. Run the following command once for each of the following IAM roles:
roles/iam.serviceAccountUsergcloud projects add-iam-policy-binding PROJECT_ID --member="user:USER_IDENTIFIER" --role=ROLE
Replace the following:
PROJECT_ID: Your project ID.USER_IDENTIFIER: The identifier for your user account. For example,myemail@example.com.ROLE: The IAM role that you grant to your user account.
Concedi ruoli al account di servizio Compute Engine predefinito. Esegui il seguente comando una volta per ciascuno dei seguenti ruoli IAM:
roles/dataflow.adminroles/dataflow.workerroles/storage.objectAdminroles/artifactregistry.writer
gcloud projects add-iam-policy-binding PROJECT_ID --member="serviceAccount:PROJECT_NUMBER-compute@developer.gserviceaccount.com" --role=SERVICE_ACCOUNT_ROLE
Sostituisci quanto segue:
PROJECT_ID: il tuo ID progettoPROJECT_NUMBERil tuo numero di progettoSERVICE_ACCOUNT_ROLE: ogni singolo ruolo
Scarica e installa Java Development Kit (JDK) versione 17. Verifica che la variabile di ambiente
JAVA_HOMEsia impostata e punti all'installazione di JDK.Scarica e installa Apache Maven seguendo la guida all'installazione di Maven per il tuo sistema operativo specifico.
Clona il repository
java-docs-samples.git clone https://github.com/GoogleCloudPlatform/java-docs-samples.git
Vai al esempio di codice per questo tutorial.
cd java-docs-samples/dataflow/flex-templates/getting_started
Crea il progetto Java in un file Uber JAR.
mvn clean package
Questo file Uber JAR contiene tutte le dipendenze incorporate. Puoi eseguire questo file come applicazione autonoma senza dipendenze esterne da altre librerie.
Clona il repository
python-docs-samples.git clone https://github.com/GoogleCloudPlatform/python-docs-samples.git
Vai al esempio di codice per questo tutorial.
cd python-docs-samples/dataflow/flex-templates/getting_started
Clona il repository
golang-samples.git clone https://github.com/GoogleCloudPlatform/golang-samples.git
Vai al esempio di codice per questo tutorial.
cd golang-samples/dataflow/flex-templates/wordcount
Compila il binario Go.
CGO_ENABLED=0 GOOS=linux GOARCH=amd64 go build -o wordcount .
Utilizza il comando
gcloud artifacts repositories createper creare un nuovo repository Artifact Registry.gcloud artifacts repositories create REPOSITORY \ --repository-format=docker \ --location=LOCATION
Sostituisci quanto segue:
- REPOSITORY: un nome per il repository. I nomi dei repository devono essere univoci per ogni posizione del repository in un progetto.
- LOCATION: la posizione regionale o multiregionale per il repository.
Utilizza il comando
gcloud auth configure-dockerper configurare Docker in modo da autenticare le richieste per Artifact Registry. Questo comando aggiorna la configurazione Docker in modo da poterti connettere ad Artifact Registry per eseguire il push delle immagini.gcloud auth configure-docker LOCATION-docker.pkg.dev
- Un'immagine container Docker che contiene il codice della pipeline. Per i modelli flessibili Java e Python, l'immagine Docker viene creata e ne viene eseguito il push nel repository Artifact Registry quando esegui il comando
gcloud dataflow flex-template build. - Un file di specifica del modello. Questo file è un documento JSON che contiene la posizione dell'immagine container e i metadati relativi al modello, ad esempio i parametri della pipeline.
- BUCKET_NAME: il nome del bucket Cloud Storage che hai creato in precedenza
- LOCATION: la posizione
- PROJECT_ID: l' Google Cloud ID progetto
- REPOSITORY: il nome del repository Artifact Registry che hai creato in precedenza
- BUCKET_NAME: il nome del bucket Cloud Storage che hai creato in precedenza
- LOCATION: la posizione
- PROJECT_ID: l' Google Cloud ID progetto
- REPOSITORY: il nome del repository Artifact Registry che hai creato in precedenza
- BUCKET_NAME: il nome del bucket Cloud Storage che hai creato in precedenza.
- LOCATION: la posizione
- PROJECT_ID: l' Google Cloud ID progetto
- REPOSITORY: il nome del repository Artifact Registry che hai creato in precedenza
Utilizza il comando
gcloud dataflow flex-template runper eseguire un job Dataflow che utilizza il modello flessibile.gcloud dataflow flex-template run "getting-started-`date +%Y%m%d-%H%M%S`" \ --template-file-gcs-location "gs://BUCKET_NAME/getting_started-java.json" \ --parameters output="gs://BUCKET_NAME/output-" \ --region "REGION"
Sostituisci quanto segue:
- BUCKET_NAME: il nome del bucket Cloud Storage che hai creato in precedenza
- REGION: la regione
Per visualizzare lo stato del job Dataflow nella consoleGoogle Cloud , vai alla pagina Job di Dataflow.
Utilizza il comando
gcloud dataflow flex-template runper eseguire un job Dataflow che utilizza il modello flessibile.gcloud dataflow flex-template run "getting-started-`date +%Y%m%d-%H%M%S`" \ --template-file-gcs-location "gs://BUCKET_NAME/getting_started-py.json" \ --parameters output="gs://BUCKET_NAME/output-" \ --region "REGION"
Sostituisci quanto segue:
- BUCKET_NAME: il nome del bucket Cloud Storage che hai creato in precedenza
- REGION: la regione
Per visualizzare lo stato del job Dataflow nella consoleGoogle Cloud , vai alla pagina Job di Dataflow.
Utilizza il comando
gcloud dataflow flex-template runper eseguire un job Dataflow che utilizza il modello flessibile.gcloud dataflow flex-template run "wordcount-go-`date +%Y%m%d-%H%M%S`" \ --template-file-gcs-location "gs://BUCKET_NAME/samples/dataflow/templates/wordcount-go.json" \ --parameters output="gs://BUCKET_NAME/samples/dataflow/templates/counts.txt" \ --region "REGION"
Sostituisci quanto segue:
- BUCKET_NAME: il nome del bucket Cloud Storage che hai creato in precedenza
- REGION: la regione
Per visualizzare lo stato del job Dataflow nella consoleGoogle Cloud , vai alla pagina Job di Dataflow.
-
Elimina il bucket Cloud Storage e tutti gli oggetti al suo interno.
gcloud storage rm gs://BUCKET_NAME --recursive
-
Elimina il repository Artifact Registry.
gcloud artifacts repositories delete REPOSITORY \ --location=LOCATION
-
Revoca i ruoli che hai concesso all'account di servizio Compute Engine predefinito. Esegui il seguente comando una volta per ciascuno dei seguenti
ruoli IAM:
roles/dataflow.adminroles/dataflow.workerroles/storage.objectAdminroles/artifactregistry.writer
gcloud projects remove-iam-policy-binding PROJECT_ID \ --member=serviceAccount:PROJECT_NUMBER-compute@developer.gserviceaccount.com \ --role=SERVICE_ACCOUNT_ROLE
-
Optional: Revoke the authentication credentials that you created, and delete the local credential file.
gcloud auth application-default revoke
-
Optional: Revoke credentials from the gcloud CLI.
gcloud auth revoke
- Utilizza i modelli flessibili per pacchettizzare una pipeline Dataflow.
- Consulta l'elenco dei modelli forniti da Google.
Prepara l'ambiente
Installa l'SDK e tutti i requisiti per l'ambiente di sviluppo.
Java
Python
Installa l'SDK Apache Beam per Python.
Vai
Utilizza la guida al download e all'installazione di Go per scaricare e installare Go per il tuo sistema operativo specifico. Per scoprire quali ambienti di runtime Go sono supportati da Apache Beam, consulta Supporto del runtime Apache Beam.
Scarica il esempio di codice.
Java
Python
Vai
Crea un bucket Cloud Storage
Utilizza il comando gcloud storage buckets create
per creare un bucket Cloud Storage:
gcloud storage buckets create gs://BUCKET_NAME
Sostituisci BUCKET_NAME con un nome per il tuo bucket Cloud Storage. I nomi dei bucket Cloud Storage devono essere
univoci a livello globale e soddisfare i
requisiti di denominazione dei bucket.
Crea un repository Artifact Registry
Crea un repository Artifact Registry in cui eseguire il push dell'immagine del container Docker per il modello.
I modelli flessibili possono utilizzare anche immagini archiviate in registri privati. Per saperne di più, consulta Utilizzare un'immagine di un registro privato.
Crea il modello flessibile
In questo passaggio, utilizzi il comando
gcloud dataflow flex-template build
per creare il modello flessibile.
Un modello flessibile è costituito dai seguenti componenti:
Il repository di esempio in GitHub contiene il file metadata.json.
Per estendere il modello con metadati aggiuntivi,
puoi creare il tuo file metadata.json.
Java
gcloud dataflow flex-template build gs://BUCKET_NAME/getting_started-java.json \ --image-gcr-path "LOCATION-docker.pkg.dev/PROJECT_ID/REPOSITORY/getting-started-java:latest" \ --sdk-language "JAVA" \ --flex-template-base-image JAVA17 \ --metadata-file "metadata.json" \ --jar "target/flex-template-getting-started-1.0.jar" \ --env FLEX_TEMPLATE_JAVA_MAIN_CLASS="com.example.dataflow.FlexTemplateGettingStarted"
Sostituisci quanto segue:
Python
gcloud dataflow flex-template build gs://BUCKET_NAME/getting_started-py.json \ --image-gcr-path "LOCATION-docker.pkg.dev/PROJECT_ID/REPOSITORY/getting-started-python:latest" \ --sdk-language "PYTHON" \ --flex-template-base-image "PYTHON3" \ --metadata-file "metadata.json" \ --py-path "." \ --env "FLEX_TEMPLATE_PYTHON_PY_FILE=getting_started.py" \ --env "FLEX_TEMPLATE_PYTHON_REQUIREMENTS_FILE=requirements.txt"
Sostituisci quanto segue:
Vai
gcloud dataflow flex-template build gs://BUCKET_NAME/samples/dataflow/templates/wordcount-go.json \ --image-gcr-path "LOCATION-docker.pkg.dev/PROJECT_ID/REPOSITORY/dataflow/wordcount-go:latest" \ --sdk-language "GO" \ --flex-template-base-image "GO" \ --metadata-file "metadata.json" \ --go-binary-path="." \ --env "FLEX_TEMPLATE_GO_BINARY=wordcount"
Sostituisci quanto segue:
Esegui il modello flessibile
In questo passaggio, utilizzi il modello per eseguire un job Dataflow.
Java
Se il job viene eseguito correttamente, scrive l'output in un file denominato gs://BUCKET_NAME/output--00000-of-00001.txt nel bucket Cloud Storage.
Python
Se il job viene eseguito correttamente, scrive l'output in un file denominato gs://BUCKET_NAME/output--00000-of-00001.txt nel bucket Cloud Storage.
Vai
Se il job viene eseguito correttamente, scrive l'output in un file denominato
gs://BUCKET_NAME/samples/dataflow/templates/count.txt nel
bucket Cloud Storage.
Se l'esecuzione del job non riesce e viene visualizzato il messaggio di errore
A Timeout in polling error message, consulta la sezione
Risolvere i problemi relativi ai timeout dei modelli flessibili.
Esegui la pulizia
Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.
Elimina il progetto
Delete a Google Cloud project:
gcloud projects delete PROJECT_ID