Dans ce document, vous utilisez les composants facturables de suivants Google Cloud:
- Managed Service for Apache Spark
- Compute Engine
- Managed Airflow
Obtenez une estimation des coûts en fonction de votre utilisation prévue,
utilisez le simulateur de coût.
Avant de commencer
Configurer votre projet
- Connectez-vous à votre Google Cloud compte. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $de crédits sans frais pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc, Compute Engine, and Managed Airflow APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Installez la Google Cloud CLI.
-
Si vous utilisez un fournisseur d'identité (IdP) externe, vous devez d'abord vous connecter à la gcloud CLI avec votre identité fédérée.
-
Pour initialiser la gcloud CLI, exécutez la commande suivante :
gcloud init -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
Enable the Dataproc, Compute Engine, and Managed Airflow APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.-
Installez la Google Cloud CLI.
-
Si vous utilisez un fournisseur d'identité (IdP) externe, vous devez d'abord vous connecter à la gcloud CLI avec votre identité fédérée.
-
Pour initialiser la gcloud CLI, exécutez la commande suivante :
gcloud init
Créer un modèle de workflow Managed Service pour Apache Spark
Copiez et exécutez les commandes suivantes dans une fenêtre de terminal local ou dans Cloud Shell pour créer et définir un modèle de workflow.
- Créez le modèle de workflow
sparkpi.gcloud dataproc workflow-templates create sparkpi \ --region=us-central1 - Ajoutez la tâche spark au modèle de workflow
sparkpi. L'option "compute"step-ididentifie la tâche SparkPi.gcloud dataproc workflow-templates add-job spark \ --workflow-template=sparkpi \ --step-id=compute \ --class=org.apache.spark.examples.SparkPi \ --jars=file:///usr/lib/spark/examples/jars/spark-examples.jar \ --region=us-central1 \ -- 1000 - Utilisez un cluster géré,
à nœud unique
pour exécuter le workflow. Managed Service pour Apache Spark crée le cluster, y exécute le workflow, puis le supprime une fois le workflow terminé.
gcloud dataproc workflow-templates set-managed-cluster sparkpi \ --cluster-name=sparkpi \ --single-node \ --region=us-central1 - Confirmez la création du modèle de workflow.
Console
Cliquez sur le nom
sparkpisur la page Workflows de Managed Service pour Apache Spark dans la Google Cloud console pour ouvrir la page Workflow template details. Cliquez sur le nom de votre modèle de workflow pour confirmer les attributs du modèlesparkpi.
Commande gcloud
Exécutez la commande suivante :
gcloud dataproc workflow-templates describe sparkpi --region=us-central1
Créer et importer un DAG dans Cloud Storage
- Créez ou utilisez un environnement Managed Airflow existant.
- Définissez des variables d'environnement.
Interface utilisateur d'Airflow
- Dans la barre d'outils, cliquez sur Admin > Variables (Administration > Variables).
- Cliquez sur Créer.
- Saisissez les informations suivantes :
- Key (Clé) :
project_id - Valeur : PROJECT_ID, l'ID de votre Google Cloud projet
- Key (Clé) :
- Cliquez sur Enregistrer.
Commande gcloud
Saisissez les commandes suivantes :
ENVIRONMENTest le nom de l'environnement Managed AirflowLOCATIONest la région dans laquelle se trouve l'environnement Managed Airflow .PROJECT_IDest l'ID du projet contenant l'environnement Managed Airflow.
gcloud composer environments run ENVIRONMENT --location LOCATION variables set -- project_id PROJECT_ID - Dans la barre d'outils, cliquez sur Admin > Variables (Administration > Variables).
- Copiez le code DAG suivant localement dans un fichier nommé "composer-dataproc-dag.py",
qui utilise le
DataprocInstantiateWorkflowTemplateOperator.
Airflow 2
Airflow 1
- Importez votre
DAG dans le dossier d'environnement de Cloud Storage. Une fois l'importation terminée, cliquez sur le lien Dossier DAGS sur la page de l'environnement Managed Airflow.
Afficher l'état d'une tâche
Interface utilisateur d'Airflow
- Ouvrez l'interface Web Airflow.
- Sur la page des DAG, cliquez sur le nom du DAG (par exemple,
dataproc_workflow_dag). - Sur la page "Détails des DAG", cliquez sur Graph View (Vue graphique).
- Vérifiez l'état :
- Échec : la tâche apparaît dans un encadré rouge.
Vous pouvez également placer le pointeur sur la tâche pour voir s'afficher la mention (État : Échec).

- Réussite : la tâche apparaît dans un encadré vert.
Vous pouvez également placer le pointeur sur la tâche pour voir s'afficher la mention (État : Réussite).

- Échec : la tâche apparaît dans un encadré rouge.
Vous pouvez également placer le pointeur sur la tâche pour voir s'afficher la mention (État : Échec).
Console
Cliquez sur l'onglet "Workflows" pour afficher l'état du workflow.
Commande gcloud
gcloud dataproc operations list \
--region=us-central1 \
--filter="labels.goog-dataproc-workflow-template-id=sparkpi"
Libérer de l'espace
Pour éviter que les ressources utilisées dans ce tutoriel soient facturées sur votre Google Cloud compte, vous pouvez les supprimer :
Étape suivante
- Consultez la page Présentation des modèles de workflow Managed Service pour Apache Spark.
- Consultez la page Solutions de planification de workflow.