Um den Erfolg und die wachsende Präferenz der Kunden für OSS-Lösungen noch stärker zu berücksichtigen, wird Cloud Composer zu Managed Service for Apache Airflow weiterentwickelt. Durch diese Namensänderung wird das Verständnis der Kunden für unser Portfolio verbessert und gleichzeitig unser Engagement für das offenste Cloud-Ökosystem unterstrichen.

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

DAG für die Datenanalyse in Google Cloud ausführen

Managed Airflow (Gen 3) | Managed Airflow (Gen 2) | Managed Airflow (Legacy Gen 1)

In dieser Anleitung wird gezeigt, wie Sie mit Managed Airflow einen Apache Airflow-DAG erstellen. Im DAG werden Daten aus einem öffentlichen BigQuery-Dataset und einer in einem Cloud Storage-Bucket gespeicherten CSV-Datei zusammengeführt. Anschließend wird ein Batchjob für Managed Service for Apache Spark ausgeführt, um die zusammengeführten Daten zu verarbeiten.

Das öffentliche BigQuery-Dataset in dieser Anleitung ist ghcn_d, eine integrierte Datenbank mit Klimazusammenfassungen weltweit. Die CSV-Datei enthält Informationen zu den Daten und Namen von Feiertagen in den USA von 1997 bis 2021.

Die Frage, die wir mit dem DAG beantworten möchten, lautet: „Wie warm war es in Chicago an Thanksgiving in den letzten 25 Jahren?“

Ziele

Managed Airflow-Umgebung in der Standardkonfiguration erstellen
Leeres BigQuery-Dataset erstellen
Neuen Cloud Storage-Bucket erstellen
Erstellen und führen Sie eine DAG mit den folgenden Aufgaben aus:
- Externes Dataset aus Cloud Storage in BigQuery laden
- Zwei Datasets in BigQuery zusammenführen
- PySpark-Job für die Datenanalyse ausführen

Hinweis

APIs aktivieren

Aktivieren Sie folgende APIs:

Console

Aktivieren Sie die APIs für Managed Service for Apache Spark, Managed Airflow, BigQuery und Cloud Storage.

Rollen, die zum Aktivieren von APIs erforderlich sind

Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen

APIs aktivieren

gcloud

Aktivieren Sie die APIs für Managed Service for Apache Spark, Managed Airflow, BigQuery und Cloud Storage:

Rollen, die zum Aktivieren von APIs erforderlich sind

gcloud services enable dataproc.googleapis.com  composer.googleapis.com  bigquery.googleapis.com  storage.googleapis.com

Berechtigungen erteilen

Weisen Sie Ihrem Nutzerkonto die folgenden Rollen und Berechtigungen zu:

Rollen zum Verwalten von Managed Airflow-Umgebungen und Umgebungs-Buckets zuweisen
Weisen Sie die Rolle BigQuery-Dateninhaber (roles/bigquery.dataOwner) zu, um ein BigQuery-Dataset zu erstellen.
Weisen Sie die Rolle Storage-Administrator (roles/storage.admin) zu, um einen Cloud Storage-Bucket zu erstellen.

Managed Airflow-Umgebung erstellen und vorbereiten

Managed Airflow-Umgebung mit Standardparametern erstellen:
- Wählen Sie eine Region in den USA aus.
- Wählen Sie die aktuelle Managed Airflow-Version aus.
Hinweis: Der BigQuery-Teil dieser Anleitung muss in der Multiregion US ausgeführt werden. Wir empfehlen, für Ihre Managed Airflow-Umgebung eine US-Region auszuwählen, um Kosten und Latenz zu reduzieren. Das Tutorial kann aber auch ausgeführt werden, wenn sich Ihre Managed Airflow-Umgebung in einer anderen Region befindet.
Weisen Sie dem Dienstkonto, das in Ihrer Managed Airflow-Umgebung verwendet wird, die folgenden Rollen zu, damit die Airflow-Worker DAG-Aufgaben erfolgreich ausführen können:
- BigQuery-Nutzer (roles/bigquery.user)
- BigQuery-Dateninhaber (roles/bigquery.dataOwner)
- Dienstkontonutzer (roles/iam.serviceAccountUser)
- Dataproc-Bearbeiter (roles/dataproc.editor)
- Dataproc-Worker (roles/dataproc.worker)

Zugehörige Ressourcen erstellen

Leeres BigQuery-Dataset erstellen mit den folgenden Parametern:
- Name: holiday_weather
- Region: US
Erstellen Sie einen neuen Cloud Storage-Bucket in der Multiregion US.
Führen Sie den folgenden Befehl aus, um privaten Google-Zugriff im Standardsubnetz in der Region zu aktivieren, in der Sie Managed Service for Apache Spark ausführen möchten, um die Netzwerkanforderungen zu erfüllen. Wir empfehlen, dieselbe Region wie für Ihre Managed Airflow-Umgebung zu verwenden.
```
gcloud compute networks subnets update default \
    --region DATAPROC_SERVERLESS_REGION \
    --enable-private-ip-google-access
```

Datenverarbeitung mit Managed Service for Apache Spark

PySpark-Beispieljob ansehen

Der unten gezeigte Code ist ein Beispiel für einen PySpark-Job, der die Temperatur von Zehntelgrad Celsius in Grad Celsius umrechnet. Mit diesem Job werden Temperaturdaten aus dem Dataset in ein anderes Format konvertiert.

import sys


from py4j.protocol import Py4JJavaError
from pyspark.sql import SparkSession
from pyspark.sql.functions import col


if __name__ == "__main__":
    BUCKET_NAME = sys.argv[1]
    READ_TABLE = sys.argv[2]
    WRITE_TABLE = sys.argv[3]

    # Create a SparkSession, viewable via the Spark UI
    spark = SparkSession.builder.appName("data_processing").getOrCreate()

    # Load data into dataframe if READ_TABLE exists
    try:
        df = spark.read.format("bigquery").load(READ_TABLE)
    except Py4JJavaError as e:
        raise Exception(f"Error reading {READ_TABLE}") from e

    # Convert temperature from tenths of a degree in celsius to degrees celsius
    df = df.withColumn("value", col("value") / 10)
    # Display sample of rows
    df.show(n=20)

    # Write results to GCS
    if "--dry-run" in sys.argv:
        print("Data will not be uploaded to BigQuery")
    else:
        # Set GCS temp location
        temp_path = BUCKET_NAME

        # Saving the data to BigQuery using the "indirect path" method and the spark-bigquery connector
        # Uses the "overwrite" SaveMode to ensure DAG doesn't fail when being re-run
        # See https://spark.apache.org/docs/latest/sql-data-sources-load-save-functions.html#save-modes
        # for other save mode options
        df.write.format("bigquery").option("temporaryGcsBucket", temp_path).mode(
            "overwrite"
        ).save(WRITE_TABLE)
        print("Data written to BigQuery")

Unterstützende Dateien in Cloud Storage hochladen

So laden Sie die PySpark-Datei und das Dataset hoch, die in holidays.csv gespeichert sind:

Speichern Sie data_analytics_process.py auf Ihrem lokalen Computer.
Speichern Sie holidays.csv auf Ihrem lokalen Computer.
Wechseln Sie in der Google Cloud Console zur Seite Cloud Storage-Browser:

Zum Cloud Storage Browser
Klicken Sie auf den Namen des Buckets, den Sie zuvor erstellt haben.
Klicken Sie auf dem Tab Objekte für den Bucket auf die Schaltfläche Dateien hochladen, wählen Sie im angezeigten Dialogfeld data_analytics_process.py und holidays.csv aus und klicken Sie auf Öffnen.