Eseguire un DAG di Apache Airflow in Managed Airflow (terza generazione)

Managed Airflow (terza generazione) | Managed Airflow (seconda generazione) | Managed Airflow (prima generazione legacy)

Questa guida rapida mostra come creare un ambiente Managed Service for Apache Airflow ed eseguire un DAG di Apache Airflow in Managed Airflow (terza generazione).

Prima di iniziare

  1. Accedi al tuo Google Cloud account. Se non hai mai utilizzato Google Cloud, crea un account per valutare il rendimento dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti senza costi per l'esecuzione, il test e il deployment dei workload.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Abilita l'API Managed Airflow.

    Ruoli richiesti per abilitare le API

    Per abilitare le API, devi disporre del ruolo IAM Amministratore utilizzo servizi (roles/serviceusage.serviceUsageAdmin), che contiene l'autorizzazione serviceusage.services.enable. Scopri come concedere i ruoli.

    Abilita l'API

  7. Per ottenere le autorizzazioni necessarie per completare questa guida rapida, chiedi all'amministratore di concederti i seguenti ruoli IAM nel tuo progetto:

    Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.

    Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Creare il account di servizio di un ambiente

Quando crei un ambiente, devi specificare un account di servizio. Questo service account è chiamato service account dell'ambiente. L'ambiente utilizza questo account di servizio per eseguire la maggior parte delle operazioni.

Il account di servizio per l'ambiente non è un account utente. Un account di servizio è un particolare tipo di account utilizzato da un'applicazione o da un'istanza di macchina virtuale (VM), non da una persona.

Per creare un account di servizio per l'ambiente:

  1. Crea un nuovo service account, come descritto in la documentazione di Identity and Access Management.

  2. Concedi un ruolo, come descritto nella documentazione di Identity and Access Management. Il ruolo richiesto è Worker Composer (composer.worker).

Creare un ambiente

  1. Nellaconsole, vai alla pagina Crea ambiente. Google Cloud

    Vai a Crea ambiente

  2. Nel campo Nome, inserisci example-environment.

  3. Nell'elenco a discesa Località, seleziona una regione per l'ambiente Managed Airflow. Questa guida utilizza la regione us-central1.

  4. Per le altre opzioni di configurazione dell'ambiente, utilizza le impostazioni predefinite fornite.

  5. Fai clic su Crea e attendi la creazione dell'ambiente.

  6. Al termine, accanto al nome dell'ambiente viene visualizzato un segno di spunta verde.

Creare un file DAG

Un DAG di Airflow è una raccolta di attività organizzate che vuoi pianificare ed eseguire. I DAG sono definiti in file Python standard.

Questa guida utilizza un DAG di Airflow di esempio definito nel file quickstart.py. Il codice Python in questo file esegue le seguenti operazioni:

  1. Crea un DAG, composer_sample_dag. Questo DAG viene eseguito ogni giorno.
  2. Esegue un'attività, print_dag_run_conf. L'attività stampa la configurazione dell'esecuzione del DAG utilizzando l'operatore bash.

Salva una copia del file quickstart.py sulla macchina locale:

import datetime

from airflow import models
from airflow.operators import bash

# If you are running Airflow in more than one time zone
# see https://airflow.apache.org/docs/apache-airflow/stable/timezone.html
# for best practices
YESTERDAY = datetime.datetime.now() - datetime.timedelta(days=1)

default_args = {
    "owner": "Composer Example",
    "depends_on_past": False,
    "email": [""],
    "email_on_failure": False,
    "email_on_retry": False,
    "retries": 1,
    "retry_delay": datetime.timedelta(minutes=5),
    "start_date": YESTERDAY,
}

with models.DAG(
    "composer_quickstart",
    catchup=False,
    default_args=default_args,
    schedule_interval=datetime.timedelta(days=1),
) as dag:
    # Print the dag_run id from the Airflow logs
    print_dag_run_conf = bash.BashOperator(
        task_id="print_dag_run_conf", bash_command="echo {{ dag_run.id }}"
    )

Caricare il file DAG nel bucket dell'ambiente

Ogni ambiente Managed Airflow ha un bucket Cloud Storage associato. Airflow in Managed Airflow pianifica solo i DAG che si trovano nella cartella /dags di questo bucket.

Per pianificare il DAG, carica quickstart.py dalla macchina locale alla cartella /dags dell'ambiente:

  1. Nellaconsole, vai alla pagina Ambienti. Google Cloud

    Vai ad Ambienti

  2. Nell'elenco degli ambienti, fai clic sul nome dell'ambiente, example-environment. Si apre la pagina Dettagli ambiente.

  3. Fai clic su Apri cartella DAG. Si apre la pagina Dettagli bucket.

  4. Fai clic su Carica file e seleziona la tua copia di quickstart.py.

  5. Per caricare il file, fai clic su Apri.

Visualizzare il DAG

Dopo aver caricato il file DAG, Airflow esegue le seguenti operazioni:

  1. Analizza il file DAG che hai caricato. Potrebbero essere necessari alcuni minuti prima che il DAG diventi disponibile per Airflow.
  2. Aggiunge il DAG all'elenco dei DAG disponibili.
  3. Esegue il DAG in base alla pianificazione fornita nel file DAG.

Verifica che il DAG venga elaborato senza errori e che sia disponibile in Airflow visualizzandolo nell'interfaccia utente DAG. L'interfaccia utente DAG è l'interfaccia Managed Airflow per visualizzare le informazioni sui DAG in Google Cloud console. Managed Airflow fornisce anche l'accesso all'interfaccia utente di Airflow, che è un'interfaccia web di Airflow nativa.

  1. Attendi circa cinque minuti per consentire ad Airflow di elaborare il file DAG che hai caricato in precedenza e di completare la prima esecuzione del DAG (spiegata più avanti).

  2. Nellaconsole, vai alla pagina Ambienti. Google Cloud

    Vai ad Ambienti

  3. Nell'elenco degli ambienti, fai clic sul nome dell'ambiente, example-environment. Si apre la pagina Dettagli ambiente.

  4. Vai alla scheda DAG.

  5. Verifica che il DAG composer_quickstart sia presente nell'elenco dei DAG.

    L'elenco dei DAG mostra il DAG composer_quickstart con
    informazioni aggiuntive come stato e pianificazione
    Figura 1. L'elenco dei DAG mostra il DAG composer_quickstart (fai clic per ingrandire)

Visualizzare i dettagli dell'esecuzione del DAG

Una singola esecuzione di un DAG è chiamata esecuzione del DAG. Airflow esegue immediatamente un'esecuzione del DAG di esempio perché la data di inizio nel file DAG è impostata su ieri. In questo modo, Airflow recupera la pianificazione del DAG specificato.

Il DAG di esempio contiene un'attività, print_dag_run_conf, che esegue il comando echo nella console. Questo comando restituisce i metadati del DAG (l'identificatore numerico dell'esecuzione del DAG).

  1. Nella scheda DAG, fai clic su composer_quickstart. Si apre la scheda Esecuzioni per il DAG.

  2. Nell'elenco delle esecuzioni del DAG, fai clic sulla prima voce.

    L'elenco delle esecuzioni di DAG mostra l'esecuzione recente del DAG (data di esecuzione e stato).
    Figura 2. L'elenco delle esecuzioni del DAG per il DAG composer_quickstart (fai clic per ingrandire)
  3. Vengono visualizzati i dettagli dell'esecuzione del DAG, che forniscono informazioni sulle singole attività del DAG di esempio.

    L'elenco delle attività con una voce print_dag_run_conf, l'ora di inizio,
    l'ora di fine e la durata
    Figura 3. L'elenco delle attività eseguite nell'esecuzione del DAG (fai clic per ingrandire)
  4. La sezione Log per l'esecuzione del DAG elenca i log per tutte le attività nell'esecuzione del DAG. Puoi visualizzare l'output del comando echo nei log.

    Voci di log dell'attività, una delle quali è Output e l'altra elenca
    un identificatore
    Figura 4. Log dell'attività print_dag_run_conf (fai clic per ingrandire)

Libera spazio

Per evitare che al tuo Google Cloud account vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.

Elimina le risorse utilizzate in questo tutorial:

  1. Elimina l'ambiente Managed Airflow:

    1. Nellaconsole, vai alla pagina Ambienti. Google Cloud

      Vai ad Ambienti

    2. Seleziona example-environment e fai clic su Elimina.

    3. Attendi l'eliminazione dell'ambiente.

  2. Elimina il bucket dell'ambiente. L'eliminazione dell'ambiente Managed Airflow non comporta l'eliminazione del relativo bucket.

    1. Nellaconsole, vai alla pagina Storage > Browser. Google Cloud

      Vai a Storage > Browser

    2. Seleziona il bucket dell'ambiente e fai clic su Elimina. Ad esempio, questo bucket può essere denominato us-central1-example-environ-c1616fe8-bucket.

Passaggi successivi