Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

BigQuery-Tabellen partitionieren und clustern

Wenn Sie die Partitionierung und das Clustering für Ihr BigQuery-Ziel konfigurieren, können Sie die Abfrageleistung optimieren und die Kosten kontrollieren. Durch Partitionierung und Clustering lässt sich die Datenmenge reduzieren, die BigQuery während der Ausführung von Abfragen scannen muss.

Tabellenpartitionierung

Bei der Tabellenpartitionierung wird Ihre Tabelle in Segmente unterteilt, die als Partitionen bezeichnet werden. Die Daten einer partitionierten Tabelle lassen sich einfacher verwalten und abfragen. Sie partitionieren Tabellen, indem Sie eine Partitionsspalte angeben, mit der die Tabelle segmentiert wird.

Datastream unterstützt drei Arten der Partitionierung für BigQuery-Tabellen:

Partitionierung nach Aufnahmezeit: Sie können eine Tabelle nach dem Zeitpunkt partitionieren, zu dem Datastream die Daten in BigQuery aufnimmt. Sie können die Granularität pro Stunde, täglich, monatlich oder jährlich für die Partitionierung nach Aufnahmezeit auswählen. Die Standardgranularität ist „Täglich“.
Partitionierung nach Zeiteinheit: Sie können eine Tabelle basierend auf einer Quellspalte eines Datentyps partitionieren, der von Datastream einem der folgenden BigQuery-Datentypen zugeordnet wird: DATE, DATETIME oder TIMESTAMP. Informationen dazu, wie Datastream Quelldatentypen BigQuery-Datentypen zuordnet, finden Sie unter Datentypzuordnungen in BigQuery.

Hinweis :Wenn Sie die Partitionierung in Google Cloudkonfigurieren, werden im Drop-down-Menü für die Spaltenauswahl nur die Quellspalten oder -felder angezeigt, die für die Partitionierung infrage kommen. Wenn Sie die Datastream API, die Google Cloud CLI oder Terraform verwenden, schlägt die Anfrage mit einem Fehler fehl, wenn Sie versuchen, einen Quelltyp zu verwenden, der keinem zulässigen BigQuery-Datentyp zugeordnet ist.

Je nach BigQuery-Datentyp, dem die Quellspalte zugeordnet ist, können Sie einen der folgenden Granularitätstypen auswählen:
- DAY, MONTH, YEAR: für den Datentyp DATE.
- HOUR, DAY, MONTH, YEAR: für die Datentypen DATETIME und TIMESTAMP.
  
  Hinweis :DAY ist der Standardgranularitätstyp für alle infrage kommenden Datentypen.
Partitionierung nach Ganzzahlbereich: Sie können eine Tabelle nach einer Quellspalte eines Datentyps partitionieren, die Datastream dann dem BigQuery-Datentyp INTEGER zuordnet. Sie müssen die folgenden Informationen angeben:
- Start: Der Startwert des ersten Partitionsbereichs (einschließlich).
- Ende: Der Endwert des letzten Partitionsbereichs (ausschließlich).
- Intervall: Die Breite jedes Partitionsbereichs.
Weitere Informationen finden Sie unter Partitionierung nach Ganzzahlbereich.

Informationen zum Konfigurieren der Partitionierung für Ihren Stream finden Sie unter Informationen zur Quelldatenbank für den Stream konfigurieren.

Tabellenclustering

Beim Clustering werden die Daten in einer Tabelle anhand der Werte in den Clustering-Spalten sortiert und Daten mit ähnlichen Werten werden am selben Ort gespeichert. Bei Abfragen, die nach den geclusterten Spalten filtern, werden nur die relevanten Datenblöcke anstelle der gesamten Tabelle oder Tabellenpartition gescannt. Dadurch kann die Abfrageleistung verbessert und die Abfragekosten gesenkt werden.

Sie können Ihre BigQuery-Tabellen nach bis zu vier Spalten clustern. Die Reihenfolge, in der Sie die Spalten angeben, bestimmt die Sortierreihenfolge der Daten.

Sie können eine Tabelle anhand einer Quellspalte mit einem Datentyp clustern, der in Datastream einem der folgenden BigQuery-Datentypen zugeordnet wird:

BIGNUMERIC
BOOLEAN
DATE
DATETIME
GEOGRAPHY
INT64
NUMERIC
RANGE
STRING
TIMESTAMP

Informationen dazu, wie Datastream Quelldatentypen BigQuery-Datentypen zuordnet, finden Sie unter Datentypzuordnungen in BigQuery.

Informationen zum Konfigurieren von Clustering für Ihren Stream finden Sie unter Informationen zur Quelldatenbank für den Stream konfigurieren.

Beschränkungen

Informationen zu Einschränkungen bei der Partitionierung in BigQuery finden Sie unter Einführung in partitionierte Tabellen.
Informationen zu Einschränkungen beim Clustering in BigQuery finden Sie unter Einführung in geclusterte Tabellen.
Informationen zu Kontingentlimits für partitionierte BigQuery-Tabellen finden Sie unter Kontingente und Limits.
Außerdem gelten die folgenden Einschränkungen bei der Verwendung von Datastream:
- Partitionierung und Clustering werden nur angewendet, wenn Datastream eine neue BigQuery-Tabelle erstellt. Wenn Sie die Einstellungen für Partitionierung und Clustering für eine bereits vorhandene Tabelle konfigurieren oder ändern möchten, müssen Sie sie zuerst aus BigQuery löschen und dann die Einstellungen in Datastream konfigurieren oder ändern.
- Bei MongoDB-Quellen können Sie Ihre Tabellen nur nach Aufnahmezeit partitionieren.
- Clustering wird für MongoDB-Datenbanken nicht unterstützt.

Nächste Schritte

Weitere Informationen zur Partitionierung in BigQuery finden Sie unter Einführung in partitionierte Tabellen und Partitionierte Tabellen verwalten.
Weitere Informationen zum Clustering in BigQuery finden Sie unter Einführung in geclusterte Tabellen und Geclusterte Tabellen verwalten.
Weitere Informationen zu Streams finden Sie unter Stream-Lebenszyklus.
Informationen zum Erstellen eines Streams finden Sie unter Stream erstellen.
Weitere Informationen zu BigQuery