Partitionierung und Clustering für ein BigQuery-Ziel konfigurieren

Wenn Sie die Partitionierung und das Clustering für Ihr BigQuery-Ziel konfigurieren, können Sie die Abfrageleistung optimieren und die Kosten kontrollieren. Durch Partitionierung und Clustering können Sie die Datenmenge reduzieren, die BigQuery während der Ausführung von Abfragen scannen muss.

Tabellenpartitionierung

Bei der Tabellenpartitionierung wird Ihre Tabelle in Segmente unterteilt, die als Partitionen bezeichnet werden. Die Daten einer partitionierten Tabelle lassen sich einfacher verwalten und abfragen. Sie partitionieren Tabellen, indem Sie eine Partitionsspalte angeben, mit der die Tabelle segmentiert wird.

Datastream unterstützt drei Arten der Partitionierung für BigQuery-Tabellen:

  • Partitionierung nach Aufnahmezeit: Sie können eine Tabelle nach dem Zeitpunkt partitionieren, zu dem Datastream die Daten in BigQuery aufnimmt. Sie können die Granularität pro Stunde, täglich, monatlich oder jährlich für die Partitionierung nach Aufnahmezeit auswählen. „Täglich“ ist der Standarddetaillierungsgrad.

  • Partitionierung nach Zeiteinheit: Sie können eine Tabelle basierend auf einer Quellspalte eines Datentyps partitionieren, der von Datastream einem der folgenden BigQuery-Datentypen zugeordnet wird: DATE, DATETIME oder TIMESTAMP. Informationen dazu, wie Datastream Quelldatentypen BigQuery-Datentypen zuordnet, finden Sie unter Datentypzuordnungen in BigQuery.

    Je nach BigQuery-Datentyp, dem die Quellspalte zugeordnet ist, können Sie einen der folgenden Granularitätstypen auswählen:

    • DAY, MONTH, YEAR: für den Datentyp DATE.
    • HOUR, DAY, MONTH, YEAR: für die Datentypen DATETIME und TIMESTAMP.

  • Partitionierung nach Ganzzahlbereich: Sie können eine Tabelle nach einer Quellspalte eines Datentyps partitionieren, die Datastream dann dem BigQuery-Datentyp INTEGER zuordnet. Sie müssen die folgenden Informationen angeben:

    • Start: Der Startwert des ersten Partitionsbereichs (einschließlich).
    • Ende: Der Endwert des letzten Partitionsbereichs (ausschließlich).
    • Intervall: Die Breite jedes Partitionsbereichs.

    Weitere Informationen finden Sie unter Partitionierung nach Ganzzahlbereich.

Weitere Informationen zur Partitionierung in BigQuery finden Sie unter Einführung in partitionierte Tabellen und Partitionierte Tabellen verwalten.

Tabellenclustering

Beim Clustering werden die Daten in einer Tabelle anhand der Werte in den Clustering-Spalten sortiert und Daten mit ähnlichen Werten werden am selben Ort gespeichert. Bei Abfragen, die nach den geclusterten Spalten filtern, werden nur die relevanten Datenblöcke anstelle der gesamten Tabelle oder Tabellenpartition gescannt. Dadurch kann die Abfrageleistung verbessert und die Abfragekosten gesenkt werden.

Sie können Ihre BigQuery-Tabellen nach bis zu vier Spalten clustern. Die Reihenfolge, in der Sie die Spalten angeben, bestimmt die Sortierreihenfolge der Daten.

Sie können eine Tabelle anhand einer Quellspalte mit einem Datentyp clustern, der von Datastream einem der folgenden BigQuery-Datentypen zugeordnet wird:

  • BIGNUMERIC
  • BOOLEAN
  • DATE
  • DATETIME
  • GEOGRAPHY
  • INT64
  • NUMERIC
  • RANGE
  • STRING
  • TIMESTAMP

Informationen dazu, wie Datastream Quelldatentypen BigQuery-Datentypen zuordnet, finden Sie unter Datentypzuordnungen in BigQuery.

Weitere Informationen zum Clustering in BigQuery finden Sie unter Einführung in geclusterte Tabellen und Geclusterte Tabellen verwalten.

Beschränkungen

  • Informationen zu Einschränkungen bei der Partitionierung in BigQuery finden Sie unter Einführung in partitionierte Tabellen.

  • Informationen zu Einschränkungen beim Clustering in BigQuery finden Sie unter Einführung in geclusterte Tabellen.

  • Informationen zu Kontingentlimits für partitionierte BigQuery-Tabellen finden Sie unter Kontingente und Limits.

  • Außerdem gelten die folgenden Einschränkungen bei der Verwendung von Datastream:

    • Partitionierung und Clustering werden nur angewendet, wenn Datastream eine neue BigQuery-Tabelle erstellt. Wenn Sie die Einstellungen für Partitionierung und Clustering für eine bereits vorhandene Tabelle konfigurieren oder ändern möchten, müssen Sie sie zuerst aus BigQuery löschen und dann die Einstellungen in Datastream konfigurieren oder ändern.
    • Bei MongoDB-Quellen können Sie Ihre Tabellen nur nach Aufnahmezeit partitionieren.
    • Clustering wird für MongoDB-Datenbanken nicht unterstützt.

Nächste Schritte