Übersicht über Bigtable Data Boost

Data Boost ist ein Dienst für serverloses Computing, der auf das Ausführen von Lesejobs mit hohem Durchsatz für Ihre Bigtable-Daten konzipiert wurde, ohne die Leistung der Cluster zu beeinträchtigen, die Ihren Anwendungstraffic verarbeiten. Sie können große Lesejobs und ‑abfragen mit serverlosem Computing senden, während Ihre Kernanwendung weiterhin Clusterknoten für das Computing verwendet. SKUs und Abrechnungssätze für serverloses Computing sind von den SKUs und Sätzen für bereitgestellte Knoten getrennt. Sie können mit Data Boost keine Schreib- oder Löschanfragen senden.

In diesem Dokument wird Data Boost beschrieben und erläutert, wann und wie Sie den Dienst verwenden können. Bevor Sie diese Seite lesen, sollten Sie sich mit Instanzen, Clustern und Knoten auskennen.

Versionsanforderungen

Data Boost ist verfügbar, wenn Sie die Enterprise- oder Enterprise Plus-Version verwenden. Die Enterprise Plus-Version bietet die folgenden zusätzlichen Funktionen:

  • SQL-Abfrageunterstützung: Daten abfragen, auf die mit Data Boost zugegriffen wird
  • HDD- und mehrstufiger Speicherzugriff: Für eine umfassendere Analyse können Sie den Data Boost-Zugriff auf den gesamten Datenumfang in Ihrem Bigtable-Cluster ausweiten, nicht nur auf SSD-Daten.

Weitere Informationen finden Sie in der Übersicht über die Versionen.

Einsatzmöglichkeit

Data Boost ist ideal für Arbeitslasten zur Datenanalyse und ‑verarbeitung. Wenn Sie Ihren Analyse- und Verarbeitungstraffic mit Data Boost isolieren, müssen Sie die Kapazität oder Knotenanzahl eines Clusters nicht mehr anpassen, um Analysearbeitslasten zu bewältigen. Sie können Ihre Analysejobs mit hohem Durchsatz auf einem einzelnen Cluster mit Data Boost ausführen, während der laufende Anwendungstraffic über Clusterknoten weitergeleitet wird.

Die folgenden Anwendungsfälle sind ideal für Data Boost:

  • Geplante oder ausgelöste Export- oder ETL-Pipeline-Jobs von Bigtable nach Cloud Storage zur Datenanreicherung, ‑analyse, ‑archivierung, für das Offline-ML-Modelltraining oder zur Aufnahme durch Drittanbieterpartner Ihrer Kunden
  • ETL mit einem Tool wie Dataflow für kurze Scan- oder Batch-Leseprozesse, die In-Place-Aggregationen, regelbasierte Transformationen für MDM oder ML-Jobs unterstützen
  • Spark-Anwendungen, die den Bigtable Spark-Connector verwenden, um Bigtable-Daten zu lesen
  • Ad-hoc-Abfragen und geplante Analysejobs, die externe BigQuery-Tabellen verwenden, um Bigtable-Daten zu lesen
  • Lang andauernde Analysen von selten aufgerufenen Verlaufsdaten, die auf einer Festplatte oder in mehrstufigem Speicher gespeichert sind (nur Enterprise Plus-Version)

Nicht geeignet für

Punktlesevorgänge : Data Boost ist nicht die beste Option für Punktlesevorgänge . Das sind Leseanfragen, die für einzelne Zeilen gesendet werden. Dazu gehören auch Batch-Punktlesevorgänge. Aufgrund der Abrechnungsstruktur sind viele Punktlesevorgänge für einzelne Zeilen erheblich teurer als ein langer Scan.

Daten lesen, unmittelbar nachdem sie geschrieben wurden : Wenn Sie Daten mit Data Boost lesen, werden möglicherweise nicht alle Daten gelesen, die in den letzten 35 Minuten geschrieben wurden. Das gilt insbesondere, wenn Ihre Instanz die Replikation verwendet und Sie Daten lesen, die in einen Cluster in einer anderen Region geschrieben wurden als die, aus der Sie lesen. Weitere Informationen finden Sie unter Konsistenz-Tokens.

Arbeitslasten mit hoher Latenzempfindlichkeit : Data Boost ist für den Durchsatz optimiert, daher ist die Leselatenz bei Verwendung von Data Boost höher als beim Lesen mit Clustern und Knoten. Aus diesem Grund ist Data Boost nicht für Arbeitslasten zur Anwendungsbereitstellung geeignet.

Weitere Informationen zu Arbeitslasten, Konfigurationen und Funktionen, die nicht mit Data Boost kompatibel sind, finden Sie unter Beschränkungen.

Data Boost-Anwendungsprofile

Wenn Sie Data Boost verwenden möchten, senden Sie Ihre Leseanfragen mit einem Data Boost-Anwendungsprofil anstelle eines Standardanwendungsprofils.

Mit Standardanwendungsprofilen können Sie die Routingrichtlinie und die Prioritätsstufe für Anfragen angeben, die das Anwendungsprofil verwenden. Außerdem können Sie festlegen, ob Transaktionen für einzelne Zeilen zulässig sind. Traffic, der mit einem Standardanwendungsprofil gesendet wird, wird an einen Cluster weitergeleitet. Die Knoten dieses Clusters leiten den Traffic an den Datenträger weiter. Weitere Informationen finden Sie unter Übersicht über Standardanwendungsprofile.

Bei einem Data Boost-Anwendungsprofil konfigurieren Sie dagegen eine Single-Cluster-Routingrichtlinie für einen der Cluster Ihrer Instanz. Traffic, der dieses Anwendungsprofil verwendet, nutzt serverloses Computing anstelle der Clusterknoten.

Sie können ein neues Data Boost-Anwendungsprofil erstellen oder ein Standardanwendungsprofil so umwandeln, dass stattdessen Data Boost verwendet wird. Wir empfehlen, für jede Arbeitslast oder Anwendung ein separates Anwendungsprofil zu verwenden.

Konsistenz-Tokens

Daten, die mehr als 35 Minuten vor Ihrer Leseanfrage in Ihren Zielcluster geschrieben oder dorthin repliziert wurden, können von Data Boost gelesen werden.

Sie können dafür sorgen, dass die Daten aus einem bestimmten Schreibjob oder Zeitraum von Data Boost gelesen werden können, bevor Sie eine Data Boost-Arbeitslast starten. Dazu erstellen und verwenden Sie ein Konsistenz-Token. Ein Beispielworkflow sieht so aus:

  1. Schreiben Sie Daten in eine Tabelle.
  2. Erstellen Sie ein Konsistenz-Token.
  3. Senden Sie das Token im Modus DataBoostReadLocalWrites, um zu ermitteln, wann die Schreibvorgänge von Data Boost in Ihrem Zielcluster gelesen werden können.

Optional können Sie die Replikationskonsistenz prüfen, bevor Sie die Data Boost-Konsistenz prüfen. Senden Sie dazu zuerst ein Konsistenz-Token im Modus StandardReadRemoteWrites.

Weitere Informationen finden Sie in der API-Referenz für CheckConsistencyRequest.

Kontingent und Abrechnung

Die Data Boost-Nutzung wird in serverlosen Verarbeitungseinheiten (Serverless Processing Units, SPUs) gemessen. 1.000 SPUs entsprechen einem Knoten in der Leistung. Bei der Ausführung auf einer Festplatte oder in mehrstufigem Speicher berücksichtigen SPUs sowohl die serverlosen Computing-Ressourcen als auch die zugrunde liegenden Datenträgeroperationen. Im Gegensatz zu bereitgestellten Knoten werden Ihnen SPUs nur in Rechnung gestellt, wenn Sie Data Boost verwenden. Für jede Anfrage werden mindestens 60 SPU-Sekunden in Rechnung gestellt und Sie zahlen mindestens 10 SPUs pro Sekunde.

Weitere Informationen zu den Preisen für Data Boost finden Sie unter Bigtable-Preise.

Sie erhalten ein Kontingent und werden für SPUs separat von Kontingent und Gebühren für Knoten abgerechnet.

Messwerte zur Eignung

Data Boost ist für Scans mit hohem Durchsatz konzipiert. Arbeitslasten müssen kompatibel sein, um Data Boost verwenden zu können. Bevor Sie ein Standardanwendungsprofil so umwandeln, dass Data Boost verwendet wird, oder ein Data Boost-Anwendungsprofil für eine vorhandene Arbeitslast erstellen, sollten Sie die Messwerte zur Eignung für Data Boost prüfen, um sicherzustellen, dass Ihre Konfiguration und Nutzung die erforderlichen Kriterien erfüllen. Sie sollten auch die Beschränkungen prüfen.

Monitoring

Wenn Sie Ihren Data Boost-Traffic überwachen möchten, können Sie die Messwerte für Ihr Data Boost-Anwendungsprofil auf der Seite „Systemeinblicke“ von Bigtable in der Google Cloud Konsole prüfen. Eine Liste der Messwerte, die nach Anwendungsprofil verfügbar sind, finden Sie unter Diagramme für Systemeinblicke für Bigtable-Ressourcen.

Sie können Ihre Nutzung von serverlosen Verarbeitungseinheiten (SPUs) überwachen, indem Sie auf der Seite „Systemeinblicke“ von Bigtable auf dem Tab Anwendungsprofil den Messwert für die Anzahl der SPU-Nutzung (data_boost/spu_usage_count) prüfen.

Sie können die Messwerte zur Eignung für das Anwendungsprofil auch nach Beginn der Nutzung von Data Boost weiter überwachen.

Beschränkungen

Die folgenden Arbeitslastattribute und Ressourcenkonfigurationen werden für Data Boost nicht unterstützt.

  • Schreib- und Löschvorgänge
  • Traffic, der hauptsächlich aus Punktlesevorgängen (Lesevorgängen für einzelne Zeilen) besteht
  • Mehr als 1.000 Lesevorgänge pro Sekunde und Cluster
  • Scans in umgekehrter Reihenfolge
  • Änderungsstreams
  • Anfrageprioritäten
  • Multi-Cluster-Routing
  • Transaktionen für einzelne Zeilen
  • Regionale Endpunkte
  • Abfragen des Bigtable Studio-Abfragegenerators
  • Instanzen, die die CMEK-Verschlüsselung verwenden
  • Nicht kompatible Clientbibliotheken. Sie müssen den Bigtable-Client für Java Version 2.31.0 oder höher verwenden.
    • Für Dataflow-Jobs, die BigtableIO verwenden, um Bigtable-Daten zu lesen, müssen Sie Apache Beam Version 2.54.0 oder höher verwenden.
    • Für Dataflow-Jobs, die CloudBigtableIO verwenden, um Bigtable-Daten zu lesen, müssen Sie bigtable-hbase-beam Version 2.14.1 oder höher verwenden.

Nächste Schritte