Einführung in das Laden von Daten

In diesem Dokument wird beschrieben, wie Sie Daten in BigQuery laden können. Die beiden gängigen Ansätze für die Datenintegration sind das Extrahieren, Laden und Transformieren (ELT) oder das Extrahieren, Transformieren und Laden (ETL) von Daten.

Eine Übersicht über ELT- und ETL-Ansätze finden Sie unter Einführung in das Laden, Transformieren und Exportieren von Daten.

Methoden zum Laden oder Abrufen externer Daten

Auf der BigQuery-Seite können Sie im Dialogfeld „Daten hinzufügen“ alle verfügbaren Methoden zum Laden von Daten in BigQuery oder zum Zugriff auf Daten aus BigQuery aufrufen. Wählen Sie je nach Anwendungsfall und Datenquellen eine der folgenden Optionen aus:

Lademethode Beschreibung
Batch-Ladevorgang Diese Methode eignet sich für das Batch-Laden großer Datenmengen aus verschiedenen Quellen.

Für das Batch- oder inkrementelle Laden von Daten aus Cloud Storage und anderen unterstützten Datenquellen empfehlen wir die Verwendung des BigQuery Data Transfer Service.

Mit dem BigQuery Data Transfer Service können Sie Ladejobs planen, um Pipelines zum Laden von Daten in BigQuery zu automatisieren. Sie können einmalige oder Batch-Datenübertragungen in regelmäßigen Abständen (z. B. täglich oder monatlich) planen. Damit Ihre BigQuery-Daten immer aktuell sind, können Sie Ihre Übertragungen überwachen und protokollieren.

Eine Liste der vom BigQuery Data Transfer Service unterstützten Datenquellen finden Sie unter Unterstützte Datenquellen.
Streaming-Belastung Mit dieser Methode können Daten nahezu in Echtzeit aus Nachrichtensystemen geladen werden.

Wenn Sie Daten in BigQuery streamen möchten, können Sie ein BigQuery-Abo in Pub/Sub verwenden. Pub/Sub kann einen hohen Durchsatz von Datenlasten in BigQuery verarbeiten. Es unterstützt das Datenstreaming in Echtzeit und das Laden von Daten, sobald sie generiert werden. Weitere Informationen finden Sie unter BigQuery-Abos.
Change Data Capture (CDC) Mit dieser Methode können Daten aus Datenbanken nahezu in Echtzeit in BigQuery repliziert werden.

Mit Datastream können Daten aus Datenbanken in BigQuery-Daten mit nahezu in Echtzeit erfolgender Replikation gestreamt werden. Datastream nutzt CDC-Funktionen, um Änderungen auf Zeilenebene aus Ihren Datenquellen zu erfassen und zu replizieren.

Eine Liste der von Datastream unterstützten Datenquellen finden Sie unter Quellen.
Verbund mit externen Datenquellen Mit dieser Methode können Sie auf externe Daten zugreifen, ohne sie in BigQuery laden zu müssen.

BigQuery unterstützt den Zugriff auf ausgewählte externe Datenquellen über Cloud Storage und föderierte Abfragen. Der Vorteil dieser Methode besteht darin, dass Sie die Daten nicht laden müssen, bevor Sie sie für die spätere Verwendung transformieren. Sie können die Transformation durchführen, indem Sie SELECT-Anweisungen für die externen Daten ausführen.

Sie können die Daten auch mit den folgenden programmatischen Methoden laden:

Lademethode Beschreibung
Batch-Ladevorgang Sie können Daten aus Cloud Storage oder aus einer lokalen Datei laden, indem Sie einen Ladejob erstellen.

Wenn sich Ihre Quelldaten nur selten ändern oder Sie keine ständig aktualisierten Ergebnisse benötigen, können Ladejobs eine kostengünstigere und weniger ressourcenintensive Methode zum Laden Ihrer Daten in BigQuery sein.

Die geladenen Daten können im Avro-, CSV-, JSON-, ORC- oder Parquet-Format vorliegen. Sie können den Ladejob auch mit der SQL-Anweisung LOAD DATA erstellen.

Beliebte Open-Source-Systeme wie Spark und verschiedene ETL-Partner unterstützen ebenfalls das Batchladen von Daten in BigQuery.

Informationen zum Optimieren des Batch-Ladens in Tabellen, um das tägliche Ladegrenzwert nicht zu überschreiten, finden Sie unter Ladejobs optimieren.
Streaming-Belastung Wenn Sie benutzerdefinierte Streamingdatenquellen unterstützen oder Daten vorverarbeiten müssen, bevor Sie sie mit hohem Durchsatz in BigQuery streamen, verwenden Sie Dataflow.

Weitere Informationen zum Laden von Daten aus Dataflow in BigQuery finden Sie unter Aus Dataflow in BigQuery schreiben.

Sie können auch direkt die BigQuery Storage Write API verwenden.

Informationen zum Optimieren des Streamings in Tabellen, um das tägliche Ladelimit nicht zu überschreiten, finden Sie unter Ladejobs optimieren.

Cloud Data Fusion kann Ihnen den ETL-Prozess erleichtern. BigQuery ist auch mit Drittanbieterpartnern kompatibel, die Daten transformieren und in BigQuery laden.

Mit BigQuery können Sie externe Verbindungen erstellen, um Daten abzufragen, die außerhalb von BigQuery in Google Cloud Diensten wie Cloud Storage oder Spanner oder in Drittanbieterquellen wie Amazon Web Services (AWS) oder Microsoft Azure gespeichert sind. Für diese externen Verbindungen wird die BigQuery Connection API verwendet. Weitere Informationen finden Sie unter Einführung in Verbindungen.

Andere Möglichkeiten zum Erheben von Daten

Sie können Abfragen für Daten ausführen, ohne sie selbst in BigQuery zu laden. In den folgenden Abschnitten werden einige Alternativen beschrieben.

In der folgenden Liste werden einige der Alternativen beschrieben:

Abfragen für öffentliche Daten ausführen

Öffentliche Datasets sind in BigQuery gespeicherte Datasets, die für die Öffentlichkeit freigegeben sind. Weitere Informationen finden Sie unter Öffentliche BigQuery-Datasets.

Abfragen für freigegebene Daten ausführen

Informationen zum Ausführen von Abfragen für ein BigQuery-Dataset, das für Sie freigegeben wurde, finden Sie unter Einführung in BigQuery Sharing (früher Analytics Hub). Sharing ist eine Datenaustauschplattform, die die Datenfreigabe ermöglicht.

Abfragen mit Logdaten ausführen

Sie können Abfragen für Logs ausführen, ohne zusätzliche Ladejobs zu erstellen:

Nächste Schritte