Einführung in das Laden, Transformieren und Exportieren von Daten

In diesem Dokument werden die Ansätze zur Datenintegration beschrieben, mit denen Daten in BigQuery geladen und transformiert werden können. Dabei werden die Prozesse „Extrahieren, Laden und Transformieren“ (ELT) oder „Extrahieren, Transformieren und Laden“ (ETL) verwendet. Außerdem wird beschrieben, wie Daten aus BigQuery exportiert werden, um Erkenntnisse in anderen Systemen zu nutzen. Dies wird als Reverse-ETL bezeichnet.

Entscheidung zwischen ELT und ETL

Es ist üblich, Daten vor oder nach dem Laden in BigQuery zu transformieren. Eine grundlegende Entscheidung ist, ob die Daten vor dem Laden in BigQuery transformiert werden sollen (ETL-Ansatz, Extrahieren, Transformieren, Laden) oder ob die Rohdaten in BigQuery geladen und Transformationen mit BigQuery durchgeführt werden sollen (ELT-Ansatz, Extrahieren, Laden, Transformieren).

Das folgende Diagramm zeigt die verschiedenen Optionen für die Datenintegration in BigQuery – entweder mit ELT oder ETL.

Ein Entscheidungsbaum mit Produkten, die in ELT- oder ETL-Workflows für die Datenintegration in BigQuery verwendet werden

Im Allgemeinen empfehlen wir den ELT-Ansatz für die meisten Kunden. Beim ELT-Workflow wird die komplexe Datenintegration in zwei überschaubare Teile aufgeteilt: Extrahieren und Laden sowie Transformieren. Nutzer können aus einer Vielzahl von Datenlademethoden wählen, die ihren Anforderungen entsprechen. Sobald die Daten in BigQuery geladen sind, können Nutzer, die mit SQL vertraut sind, Transformationspipelines mit Tools wie Dataform entwickeln.

In den folgenden Abschnitten werden die einzelnen Workflows genauer beschrieben.

Daten laden und transformieren

Es ist üblich, Daten vor oder nach dem Laden in BigQuery zu transformieren. Die beiden gängigen Ansätze für die Datenintegration, ETL und ELT, werden in den folgenden Abschnitten beschrieben.

ELT-Datenintegrationsansatz

Beim ELT-Ansatz (Extrahieren, Laden, Transformieren) führen Sie die Datenintegration in zwei separaten Schritten durch:

  • Daten extrahieren und laden
  • Daten transformieren

Sie können beispielsweise Daten aus einer JSON-Datei extrahieren und in eine BigQuery-Tabelle laden. Anschließend können Sie Pipelines verwenden, um Felder zu extrahieren und in Zieltabellen zu transformieren.

Der ELT-Ansatz kann Ihren Datenintegrations-Workflow auf folgende Weise vereinfachen:

  • Andere Tools zur Datenverarbeitung sind nicht mehr erforderlich.
  • Der oft komplexe Prozess der Datenintegration wird in zwei überschaubare Teile aufgeteilt.
  • Die Funktionen von BigQuery werden vollständig genutzt, um Ihre Daten im großen Maßstab vorzubereiten, zu transformieren und zu optimieren.

Daten extrahieren und laden

Beim ELT-Ansatz für die Datenintegration extrahieren Sie Daten aus einer Datenquelle und laden sie mit einer der unterstützten Methoden zum Laden oder Zugreifen auf externe Daten in BigQuery.

Daten in BigQuery transformieren

Nachdem Sie die Daten in BigQuery geladen haben, können Sie sie mit den folgenden Tools aufbereiten und transformieren:

  • Dataform ist ein Tool, mit dem Sie gemeinsam erweiterte SQL-Datentransformationspipelines erstellen, testen, dokumentieren und planen können.
  • Für kleinere Workflows zur Datentransformation, in denen SQL-Code, Python-Notebooks oder Datenvorbereitungen nach Zeitplan ausgeführt werden, verwenden Sie BigQuery-Pipelines.
  • Verwenden Sie die KI-basierte Datenvorbereitung, um Ihre Daten für die Analyse zu bereinigen.

Alle diese Tools basieren auf der Dataform API.

Weitere Informationen finden Sie unter Einführung in Transformationen.

ETL-Datenintegrationsansatz

Beim ETL-Ansatz (Extrahieren, Transformieren, Laden) werden Daten extrahiert und transformiert, bevor sie in BigQuery ankommen. Dieser Ansatz ist nützlich, wenn Sie bereits einen Prozess für die Datentransformation haben oder die Ressourcennutzung in BigQuery reduzieren möchten.

Cloud Data Fusion kann Ihren ETL-Prozess vereinfachen. BigQuery ist auch mit Drittanbieterpartnern kompatibel, die Daten transformieren und in BigQuery laden.

Daten exportieren

Nachdem Sie Daten in BigQuery verarbeitet und analysiert haben, können Sie die Ergebnisse exportieren, um sie in anderen Systemen zu verwenden. BigQuery unterstützt die folgenden Exporte:

  • Abfrageergebnisse in eine lokale Datei, Google Drive oder Google Sheets exportieren
  • Tabellen oder Abfrageergebnisse nach Cloud Storage, Bigtable, Spanner, AlloyDB for PostgreSQL und Pub/Sub exportieren

Dieser Vorgang wird als Reverse-ETL bezeichnet.

Weitere Informationen finden Sie unter Einführung in den Datenexport in BigQuery.

Nächste Schritte