Einführung in das Laden von Daten
In diesem Dokument wird erläutert, wie Sie Daten in BigQuery laden können. Die beiden gängigen Ansätze zur Datenintegration sind das Extrahieren, Laden und Transformieren (ELT) oder das Extrahieren, Transformieren und Laden (ETL) von Daten.
Eine Übersicht über ELT- und ETL-Ansätze finden Sie unter Einführung in das Laden, Transformieren und Exportieren von Daten.
Methoden zum Laden oder Zugreifen auf externe Daten
Auf der BigQuery-Seite können Sie im Dialogfeld **Daten hinzufügen** alle verfügbaren Methoden zum Laden von Daten in BigQuery oder zum Zugreifen auf Daten aus BigQuery aufrufen. Wählen Sie je nach Anwendungsfall und Datenquellen eine der folgenden Optionen aus:
| Lademethode | Beschreibung |
|---|---|
| Batch-Ladevorgang | Diese Methode eignet sich für das Batch-Laden großer Datenmengen aus einer
Vielzahl von Quellen. Für das Batch- oder inkrementelle Laden von Daten aus Cloud Storage und anderen unterstützten Datenquellen empfehlen wir die Verwendung des BigQuery Data Transfer Service. Mit dem BigQuery Data Transfer Service können Sie Ladejobs planen, um Datenladepipelines in BigQuery zu automatisieren. Sie können einmalige oder Batch-Datenübertragungen in regelmäßigen Abständen planen (z. B. täglich oder monatlich). Damit Ihre BigQuery-Daten immer aktuell sind, können Sie Ihre Übertragungen überwachen und protokollieren. Eine Liste der vom BigQuery Data Transfer Service unterstützten Datenquellen finden Sie unter Unterstützte Datenquellen. |
| Streaming-Ladevorgang | Mit dieser Methode können Daten nahezu in Echtzeit aus Nachrichtensystemen geladen werden. Wenn Sie Daten in BigQuery streamen möchten, können Sie ein BigQuery-Abo in Pub/Sub verwenden. Pub/Sub kann einen hohen Durchsatz von Datenladevorgängen in BigQuery verarbeiten. Es unterstützt das Streaming von Daten in Echtzeit und das Laden von Daten, sobald sie generiert werden. Weitere Informationen finden Sie unter BigQuery-Abos. |
| Change Data Capture (CDC) | Mit dieser Methode können Daten nahezu in Echtzeit aus Datenbanken in
BigQuery repliziert werden. Datastream kann Daten aus Datenbanken mit nahezu Echtzeit- Replikation in BigQuery streamen. Datastream nutzt CDC-Funktionen, um Änderungen auf Zeilenebene aus Ihren Datenquellen zu verfolgen und zu replizieren. Eine Liste der von Datastream unterstützten Datenquellen finden Sie unter Quellen. |
| Föderation zu externen Datenquellen | Mit dieser Methode können Sie auf externe Daten zugreifen, ohne sie
in BigQuery zu laden. BigQuery unterstützt den Zugriff auf ausgewählte externe Datenquellen über Cloud Storage und föderierte Abfragen. Der Vorteil dieser Methode besteht darin, dass Sie die Daten nicht laden müssen, bevor Sie sie für die spätere Verwendung transformieren. Sie können die Transformation ausführen, indem Sie SELECT Anweisungen für die externen Daten ausführen. |
Sie können die Daten auch mit den folgenden programmatischen Methoden laden:
| Lademethode | Beschreibung |
|---|---|
| Batch-Ladevorgang | Sie können Daten aus Cloud Storage oder
aus einer lokalen Datei laden, indem Sie einen Ladejob erstellen. Wenn sich Ihre Quelldaten nur selten ändern oder Sie keine ständig aktualisierten Ergebnisse benötigen, können Ladejobs eine kostengünstigere und ressourcenschonendere Möglichkeit sein, Ihre Daten in BigQuery zu laden. Die geladenen Daten können im Avro-, CSV-, JSON-, ORC- oder Parquet-Format vorliegen. Sie können den Ladejob auch mit der LOAD DATA SQL
Anweisung erstellen.Beliebte Open-Source-Systeme wie Spark und verschiedene ETL-Partner unterstützen ebenfalls das Batch-Laden von Daten in BigQuery. Informationen zum Optimieren von Batch-Ladevorgängen in Tabellen, um das tägliche Ladelimit nicht zu erreichen, finden Sie unter Ladejobs optimieren. |
| Streaming-Ladevorgang | Wenn Sie benutzerdefinierte Streaming-Datenquellen unterstützen oder Daten vorverarbeiten müssen, bevor Sie sie mit hohem Durchsatz in BigQuery streamen, verwenden Sie Dataflow. Weitere Informationen zum Laden von Daten aus Dataflow in BigQuery finden Sie unter Aus Dataflow in BigQuery schreiben. Sie können auch direkt die BigQuery Storage Write API verwenden. Informationen zum Optimieren von Streaming-Ladevorgängen in Tabellen, um das tägliche Ladelimit nicht zu erreichen, finden Sie unter Ladejobs optimieren. |
Cloud Data Fusion kann Ihren ETL-Prozess erleichtern. BigQuery arbeitet auch mit Drittanbietern zusammen, die Daten transformieren und in BigQuery laden.
Mit BigQuery können Sie externe Verbindungen erstellen, um Daten abzufragen, die außerhalb von BigQuery in Google Cloud Diensten wie Cloud Storage oder Spanner oder in Drittanbieterquellen wie Amazon Web Services (AWS) oder Microsoft Azure gespeichert sind. Diese externen Verbindungen verwenden die BigQuery Connection API. Weitere Informationen finden Sie unter Einführung in Verbindungen.
Andere Möglichkeiten zum Erfassen von Daten
Sie können Abfragen für Daten ausführen, ohne sie selbst in BigQuery zu laden. In den folgenden Abschnitten werden einige Alternativen beschrieben.
Die folgende Liste enthält einige der Alternativen:
Abfragen für öffentliche Daten ausführen
Öffentliche Datasets sind in BigQuery gespeicherte Datasets, die für die Öffentlichkeit freigegeben sind. Weitere Informationen finden Sie unter Öffentliche BigQuery-Datasets.
Abfragen für weitergegebene Daten ausführen
Informationen zum Ausführen von Abfragen für ein BigQuery-Dataset, das für Sie freigegeben wurde , finden Sie unter Einführung in BigQuery Sharing (früher Analytics Hub). Sharing ist eine Datenaustauschplattform, die die Datenfreigabe ermöglicht.
Abfragen mit Logdaten ausführen
Sie können Abfragen für Logs ausführen, ohne zusätzliche Ladejobs zu erstellen:
Mit Cloud Logging können Sie Logs an ein BigQuery-Ziel weiterleiten.
Observability Analytics ermöglicht Ihnen die Ausführung von Abfragen, mit denen Sie Ihre Logdaten analysieren.
Nächste Schritte
- Informationen zum Vorbereiten von Daten mit Gemini in BigQuery.
- Weitere Informationen zum Transformieren von Daten mit Dataform.
- Weitere Informationen zum Überwachen von Ladejobs im Job-Explorer und mit BigQuery-Messwerten.