Einführung in das Laden, Transformieren und Exportieren von Daten
In diesem Dokument werden die Ansätze zur Datenintegration beschrieben, mit denen Daten in BigQuery geladen und transformiert werden können. Dabei werden die Prozesse „Extrahieren, Laden und Transformieren“ (ELT) oder „Extrahieren, Transformieren und Laden“ (ETL) verwendet. Außerdem wird beschrieben, wie Daten aus BigQuery exportiert werden, um Erkenntnisse in anderen Systemen zu nutzen. Dies wird als Reverse-ETL bezeichnet.
Entscheidung zwischen ELT und ETL
Es ist üblich, Daten vor oder nach dem Laden in BigQuery zu transformieren. Eine grundlegende Entscheidung ist, ob die Daten vor dem Laden in BigQuery transformiert werden sollen (ETL-Ansatz, Extrahieren, Transformieren, Laden) oder ob die Rohdaten in BigQuery geladen und Transformationen mit BigQuery durchgeführt werden sollen (ELT-Ansatz, Extrahieren, Laden, Transformieren).
Das folgende Diagramm zeigt die verschiedenen Optionen für die Datenintegration in BigQuery – entweder mit ELT oder ETL.
Im Allgemeinen empfehlen wir den ELT-Ansatz für die meisten Kunden. Beim ELT-Workflow wird die komplexe Datenintegration in zwei überschaubare Teile aufgeteilt: Extrahieren und Laden sowie Transformieren. Nutzer können aus einer Vielzahl von Datenlademethoden wählen, die ihren Anforderungen entsprechen. Sobald die Daten in BigQuery geladen sind, können Nutzer, die mit SQL vertraut sind, Transformationspipelines mit Tools wie Dataform entwickeln.
In den folgenden Abschnitten werden die einzelnen Workflows genauer beschrieben.
Daten laden und transformieren
Es ist üblich, Daten vor oder nach dem Laden in BigQuery zu transformieren. Die beiden gängigen Ansätze für die Datenintegration, ETL und ELT, werden in den folgenden Abschnitten beschrieben.
ELT-Datenintegrationsansatz
Beim ELT-Ansatz (Extrahieren, Laden, Transformieren) führen Sie die Datenintegration in zwei separaten Schritten durch:
- Daten extrahieren und laden
- Daten transformieren
Sie können beispielsweise Daten aus einer JSON-Datei extrahieren und in eine BigQuery-Tabelle laden. Anschließend können Sie Pipelines verwenden, um Felder zu extrahieren und in Zieltabellen zu transformieren.
Der ELT-Ansatz kann Ihren Datenintegrations-Workflow auf folgende Weise vereinfachen:
- Andere Tools zur Datenverarbeitung sind nicht mehr erforderlich.
- Der oft komplexe Prozess der Datenintegration wird in zwei überschaubare Teile aufgeteilt.
- Die Funktionen von BigQuery werden vollständig genutzt, um Ihre Daten im großen Maßstab vorzubereiten, zu transformieren und zu optimieren.
Daten extrahieren und laden
Beim ELT-Ansatz für die Datenintegration extrahieren Sie Daten aus einer Datenquelle und laden sie mit einer der unterstützten Methoden zum Laden oder Zugreifen auf externe Daten in BigQuery.
Daten in BigQuery transformieren
Nachdem Sie die Daten in BigQuery geladen haben, können Sie sie mit den folgenden Tools aufbereiten und transformieren:
- Dataform ist ein Tool, mit dem Sie gemeinsam erweiterte SQL-Datentransformationspipelines erstellen, testen, dokumentieren und planen können.
- Für kleinere Workflows zur Datentransformation, in denen SQL-Code, Python-Notebooks oder Datenvorbereitungen nach Zeitplan ausgeführt werden, verwenden Sie BigQuery-Pipelines.
- Verwenden Sie die KI-basierte Datenvorbereitung, um Ihre Daten für die Analyse zu bereinigen.
Alle diese Tools basieren auf der Dataform API.
Weitere Informationen finden Sie unter Einführung in Transformationen.
ETL-Datenintegrationsansatz
Beim ETL-Ansatz (Extrahieren, Transformieren, Laden) werden Daten extrahiert und transformiert, bevor sie in BigQuery ankommen. Dieser Ansatz ist nützlich, wenn Sie bereits einen Prozess für die Datentransformation haben oder die Ressourcennutzung in BigQuery reduzieren möchten.
Cloud Data Fusion kann Ihren ETL-Prozess vereinfachen. BigQuery ist auch mit Drittanbieterpartnern kompatibel, die Daten transformieren und in BigQuery laden.
Daten exportieren
Nachdem Sie Daten in BigQuery verarbeitet und analysiert haben, können Sie die Ergebnisse exportieren, um sie in anderen Systemen zu verwenden. BigQuery unterstützt die folgenden Exporte:
- Abfrageergebnisse in eine lokale Datei, Google Drive oder Google Sheets exportieren
- Tabellen oder Abfrageergebnisse nach Cloud Storage, Bigtable, Spanner, AlloyDB for PostgreSQL und Pub/Sub exportieren
Dieser Vorgang wird als Reverse-ETL bezeichnet.
Weitere Informationen finden Sie unter Einführung in den Datenexport in BigQuery.
Nächste Schritte
- Weitere Informationen zum Laden von Daten in BigQuery
- Weitere Informationen zum Transformieren von Daten in BigQuery
- Weitere Informationen zum Exportieren von Daten in BigQuery