Panoramica di Bigtable Data Boost

Data Boost è un servizio di serverless computing progettato per eseguire job di lettura con portata elevata sui dati Bigtable, senza però influire sulle prestazioni dei cluster che gestiscono il traffico delle applicazioni. Consente di inviare job di lettura e query di grandi dimensioni utilizzando il serverless computing, mentre l'applicazione principale continua a utilizzare i nodi del cluster per il computing. Gli SKU di calcolo serverless e le tariffe di fatturazione sono separati dagli SKU e dalle tariffe per i nodi di cui è stato eseguito il provisioning. Non puoi inviare richieste di scrittura o eliminazione con Data Boost.

Questo documento descrive Data Boost e quando e come utilizzarlo. Prima di leggere questa pagina, devi comprendere i concetti di istanze, cluster e nodi.

Requisiti relativi alla versione

Data Boost è disponibile se utilizzi la versione Enterprise o Enterprise Plus. La versione Enterprise Plus offre le seguenti funzionalità aggiuntive:

  • Supporto delle query SQL: esegui query sui dati a cui è stato eseguito l'accesso con Data Boost
  • Accesso a HDD e archiviazione a livelli: per un'analisi più completa, estendi l'accesso a Data Boost all'intero ambito dei dati sul tuo cluster Bigtable oltre ai soli dati SSD

Per saperne di più, consulta la Panoramica delle versioni.

A cosa serve

Data Boost è ideale per workload di analisi ed elaborazione dei dati. L'isolamento del traffico di analisi ed elaborazione con Data Boost consente di non dover regolare la capacità o il numero di nodi di un cluster per adattarlo ai carichi di lavoro di analisi. Puoi eseguire i job di analisi con portata elevata su un singolo cluster con Data Boost mentre il traffico delle applicazioni in esecuzione viene instradato tramite i nodi del cluster.

Di seguito sono riportati i casi d'uso ideali per Data Boost:

  • Job di esportazione o pipeline ETL pianificati o attivati da Bigtable a Cloud Storage per l'arricchimento dei dati, l'analisi, l'archiviazione, l'addestramento offline del modello ML o l'importazione da parte dei partner di terze parti dei tuoi clienti
  • ETL utilizzando uno strumento come Dataflow per la scansione breve o processi di lettura batch che supportano aggregazioni in loco, trasformazioni basate su regole per MDM o job ML
  • Applicazioni Spark che utilizzano il connettore Bigtable Spark per leggere i dati Bigtable
  • Query ad hoc e job di analisi pianificati che utilizzano tabelle esterne BigQuery per leggere i dati Bigtable.
  • Analisi a esecuzione prolungata su dati storici a cui si accede raramente archiviati su HDD o in uno spazio di archiviazione a livelli (solo edizione Enterprise Plus).

Per cosa non è adatto

Letture puntuali: Data Boost non è l'opzione migliore per le operazioni di lettura puntuale, ovvero le richieste di lettura inviate per singole righe. Sono inclusi i punti di lettura batch. A causa della struttura di fatturazione, molte letture di punti a riga singola sono notevolmente più costose di una scansione lunga.

Lettura dei dati immediatamente dopo la scrittura: quando leggi i dati con Data Boost, potresti non leggere tutti i dati scritti negli ultimi 35 minuti. Ciò è particolarmente vero se la tua istanza utilizza la replica e stai leggendo dati scritti in un cluster in una regione diversa da quella da cui stai leggendo. Per saperne di più, consulta Token di coerenza.

Workload sensibili alla latenza: Data Boost è ottimizzato per il throughput, quindi la latenza di lettura è più lenta quando utilizzi Data Boost rispetto a quando leggi utilizzando cluster e nodi. Per questo motivo, Data Boost non è adatto per i workload di pubblicazione delle applicazioni.

Per saperne di più sui workload, sulle configurazioni e sulle funzionalità che non sono compatibili con Data Boost, vedi Limitazioni.

Profili dell'app Data Boost

Per utilizzare Data Boost, invia le richieste di lettura utilizzando un profilo dell'app Data Boost anziché un profilo dell'app standard.

I profili dell'app standard consentono di specificare il criterio di routing e il livello di priorità per le richieste che utilizzano il profilo dell'app, nonché se sono consentite transazioni su riga singola. Il traffico inviato utilizzando un profilo dell'app standard viene indirizzato a un cluster e i nodi di questo cluster indirizzano il traffico al disco. Per ulteriori informazioni, consulta Panoramica dei profili delle app standard.

Con un profilo dell'app Data Boost, invece, configuri una norma di routing a cluster singolo a uno dei cluster della tua istanza e il traffico che utilizza quel profilo dell'app utilizza il serverless computing anziché i nodi del cluster.

Puoi creare un nuovo profilo dell'app Data Boost o convertire un profilo dell'app standard per utilizzare Data Boost. Ti consigliamo di utilizzare un profilo app separato per ogni carico di lavoro o applicazione.

Token di coerenza

I dati scritti o replicati nel cluster di destinazione più di 35 minuti prima della richiesta di lettura sono leggibili da Data Boost.

Prima di avviare un carico di lavoro Data Boost, puoi assicurarti che i dati di un periodo di tempo o di un job di scrittura specifico siano leggibili da Data Boost creando e utilizzando un token di coerenza. Un flusso di lavoro di esempio è il seguente:

  1. Scrivi alcuni dati in una tabella.
  2. Crea un token di coerenza.
  3. Invia il token in modalità DataBoostReadLocalWrites per determinare quando le scritture sono leggibili da Data Boost nel cluster di destinazione.

Se vuoi, puoi controllare la coerenza della replica prima di controllare la coerenza di Data Boost inviando prima un token di coerenza in modalità StandardReadRemoteWrites.

Per saperne di più, consulta il riferimento API per CheckConsistencyRequest.

Quota e fatturazione

L'utilizzo di Data Boost viene misurato in unità di elaborazione serverless (SPU). 1000 SPU equivalgono a un nodo in termini di prestazioni. Quando viene eseguito l'accesso all'archiviazione HDD o a più livelli, le SPU tengono conto sia delle risorse di calcolo serverless sia delle operazioni su disco sottostanti. A differenza dei nodi di cui è stato eseguito il provisioning, le SPU vengono addebitate solo quando utilizzi Data Boost. Ogni richiesta viene fatturata per un minimo di 60 secondi di SPU e ti vengono addebitate almeno 10 SPU al secondo.

Per ulteriori informazioni sui prezzi di Data Boost, consulta la pagina Prezzi di Bigtable.

Ti viene assegnata una quota e ti vengono addebitati costi per le SPU separatamente dalla quota e dai costi per i nodi.

Metriche di idoneità

Data Boost è progettato per scansioni con throughput elevato e i workload devono essere compatibili per poter utilizzare Data Boost. Prima di convertire un profilo dell'app standard per utilizzare Data Boost o creare un profilo dell'app Data Boost per un workload esistente, visualizza le metriche di idoneità a Data Boost per assicurarti che la configurazione e l'utilizzo soddisfino i criteri richiesti. Ti consigliamo anche di esaminare le limitazioni.

Monitoraggio

Per monitorare il traffico Data Boost, puoi controllare le metriche del profilo dell'app Data Boost nella pagina Approfondimenti di sistema di Bigtable nella consoleGoogle Cloud . Per un elenco delle metriche disponibili per profilo dell'app, consulta Grafici degli approfondimenti di sistema per le risorse Bigtable.

Puoi monitorare l'utilizzo delle unità di elaborazione serverless (SPU) controllando la metrica del conteggio dell'utilizzo delle SPU (data_boost/spu_usage_count) nella scheda Profilo app della pagina Approfondimenti di sistema di Bigtable.

Puoi anche continuare a monitorare le metriche di idoneità per il profilo dell'app dopo aver iniziato a utilizzare Data Boost.

Limitazioni

Le seguenti proprietà del workload e configurazioni delle risorse non sono supportate per Data Boost.

  • Operazioni di scrittura ed eliminazione
  • Traffico costituito principalmente da letture puntuali (letture di una sola riga)
  • Più di 1000 letture al secondo per cluster
  • Scansioni inverse
  • Modifiche in tempo reale
  • Priorità delle richieste
  • Routing a cluster multipli
  • Transazioni su riga singola
  • Endpoint regionali
  • Query di Query Builder di Bigtable Studio
  • Istanze che utilizzano la crittografia CMEK
  • Librerie client incompatibili. Devi utilizzare Bigtable client per Java versione 2.31.0 o successive.
    • Per i job Dataflow che utilizzano BigtableIO per leggere i dati Bigtable, devi utilizzare Apache Beam versione 2.54.0 o successive.
    • Per i job Dataflow che utilizzano CloudBigtableIO per leggere i dati Bigtable, devi utilizzare bigtable-hbase-beam versione 2.14.1 o successive.

Passaggi successivi