Letture

Questa pagina descrive i tipi di richieste di lettura che puoi inviare a Bigtable, discute le implicazioni sul rendimento e presenta alcuni consigli per tipi specifici di query. Prima di leggere questa pagina, dovresti acquisire familiarità con la panoramica di Bigtable.

Panoramica

Le richieste di lettura a Bigtable trasmettono in streaming i contenuti delle righe richieste in ordine di chiave, il che significa che vengono restituite nell'ordine in cui sono archiviate. Puoi leggere tutte le scritture che hanno restituito una risposta.

Le query supportate dalla tabella dovrebbero aiutarti a determinare il tipo di lettura più adatto al tuo caso d'uso. Le richieste di lettura di Bigtable rientrano in due categorie generali:

  • Lettura di una singola riga
  • Scansioni o lettura di più righe

Le letture sono atomiche a livello di riga. Ciò significa che quando invii una richiesta di lettura per una riga, Bigtable restituisce l'intera riga o, in caso di errore della richiesta, nessuna riga. Una riga parziale non viene mai restituita a meno che tu non ne richieda specificamente una.

Ti consigliamo vivamente di utilizzare le nostre librerie client di Cloud Bigtable per leggere i dati da una tabella anziché chiamare direttamente l'API. Esempi di codice che mostrano come inviare richieste di lettura sono disponibili in più lingue. Tutte le richieste di lettura effettuano la chiamata API ReadRows.

Lettura dei dati con il serverless computing di Data Boost

Bigtable Data Boost ti consente di eseguire job di lettura in batch e query senza influire sul traffico giornaliero delle applicazioni. Data Boost è un servizio di serverless computing che puoi utilizzare per leggere i dati Bigtable mentre l'applicazione principale utilizza i nodi del cluster per il computing.

Data Boost è ideale per le scansioni e non è consigliato per le letture di singole righe. Non puoi utilizzare Data Boost per le scansioni inverse. Per ulteriori informazioni e criteri di idoneità, consulta la panoramica di Data Boost.

Letture di singole righe

Puoi richiedere una singola riga in base alla chiave di riga. Le letture di singole righe, note anche come letture puntuali, non sono compatibili con Data Boost. Sono disponibili esempi di codice per le seguenti varianti:

Scansioni

Le scansioni sono il modo più comune per leggere i dati Bigtable. Puoi leggere un intervallo di righe contigue o più intervalli di righe da Bigtable, specificando un prefisso della chiave di riga o specificando le chiavi di riga iniziale e finale. Sono disponibili esempi di codice per le seguenti varianti:

Scansioni inverse

Le scansioni inverse consentono di leggere un intervallo di righe all'indietro specificando un prefisso della chiave di riga o un intervallo di righe. Il prefisso della chiave di riga viene utilizzato come punto di avvio della scansione per leggere all'indietro. Se specifichi un intervallo di righe, la chiave di riga finale viene utilizzata come punto di avvio della scansione.

La scansione in ordine inverso può essere utile nei seguenti scenari:

Le scansioni inverse sono meno efficienti delle scansioni in avanti. In generale, progetta le chiavi di riga in modo che la maggior parte delle scansioni sia in avanti. Utilizza le scansioni inverse per le scansioni brevi, ad esempio 50 righe o meno, per mantenere un tempo di risposta a bassa latenza.

Per eseguire la scansione in ordine inverso, imposta il valore del campo reversed di ReadRowsRequest su true. Il valore predefinito è false.

Le scansioni inverse sono disponibili quando utilizzi le seguenti librerie client:

  • Libreria client Bigtable per C++ versione 2.18.0 o successive
  • Libreria client Bigtable per Go versione 1.21.0 o successive
  • Libreria client Bigtable per Java versione 2.24.1 o successive
  • Client HBase Bigtable per Java versione 2.10.0 o successive

Per esempi di codice che mostrano come utilizzare le scansioni inverse, vedi Eseguire la scansione in ordine inverso.

Esempi di casi d'uso

Gli esempi seguenti mostrano come utilizzare le scansioni inverse per trovare l'ultima volta che un cliente ha modificato la password e le fluttuazioni dei prezzi di un prodotto in un determinato giorno.

Reimpostazioni della password

Supponiamo che le chiavi di riga contengano un ID cliente e una data, nel formato 123ABC#2022-05-02, e che una delle colonne sia password_reset, che memorizza l'ora in cui è stata reimpostata la password. Bigtable memorizza automaticamente i dati in ordine lessicografico, come segue. Tieni presente che la colonna non esiste per le righe (giorni) in cui la password non è stata reimpostata.

`123ABC#2022-02-12,password_reset:03`
`123ABC#2022-04-02,password_reset:11`
`123ABC#2022-04-14`
`123ABC#2022-05-02`
`223ABC#2022-05-22`

Se vuoi trovare l'ultima volta che il cliente 123ABC ha reimpostato la password, puoi eseguire la scansione in ordine inverso di un intervallo da 123ABC# a 123ABC#<DATE>, utilizzando la data odierna o una data futura, per tutte le righe che contengono la colonna password_reset con un limite di righe pari a 1.

Modifiche ai prezzi

In questo esempio, le chiavi di riga contengono valori per prodotto, modello e timestamp e una delle colonne contiene il prezzo del prodotto e del modello in un determinato momento.

`productA#model2#1675604471,price:82.63`
`productA#model2#1676219411,price:82.97`
`productA#model2#1677681011,price:83.15`
`productA#model2#1680786011,price:83.99`
`productA#model2#1682452238,price:83.12`

Se vuoi trovare le fluttuazioni dei prezzi intorno al 14 febbraio 2023, anche se nella tabella non esiste una chiave di riga per quella data specifica, puoi eseguire una scansione in avanti a partire dalla chiave di riga productA#model2#1676376000 per un numero N di righe, quindi eseguire una scansione inversa per lo stesso numero di righe dalla stessa riga iniziale. Le due scansioni forniscono i prezzi prima e dopo l'ora specificata.

Letture filtrate

Se hai bisogno solo di righe che contengono valori specifici o righe parziali, puoi utilizzare un filtro con la richiesta di lettura. I filtri ti consentono di essere molto selettivo nei dati che vuoi.

I filtri ti consentono anche di assicurarti che le letture corrispondano alle norme di garbage collection utilizzate dalla tabella. Questa opzione è particolarmente utile se scrivi spesso nuove celle con timestamp nelle colonne esistenti. Poiché la garbage collection può richiedere fino a una settimana per rimuovere i dati scaduti, l'utilizzo di un filtro dell'intervallo di timestamp per leggere i dati può garantire di non leggere più dati del necessario.

La panoramica dei filtri fornisce spiegazioni dettagliate dei tipi di filtri che puoi utilizzare. L'utilizzo dei filtri mostra esempi in più lingue.

Lettura dei dati da una vista autorizzata

Per leggere i dati da una visualizzazione autorizzata, devi utilizzare uno dei seguenti elementi:

  • Gcloud CLI
  • Client Bigtable per Java

Le altre librerie client Bigtable non supportano ancora l'accesso alle visualizzazioni.

È supportato qualsiasi metodo che chiama il metodo ReadRows o SampleRowKeys dell'API Bigtable Data. Quando crei il client, fornisci l'ID della vista autorizzata oltre all'ID della tabella.

Lettura dei dati da una vista materializzata continua

Puoi leggere i dati da una vista materializzata continua utilizzando SQL o la ReadRows chiamata API Data . Le viste materializzate continue sono di sola lettura. I dati in una vista materializzata sono tipizzati in base alla query che li definisce it.

SQL

Per leggere i dati da una vista materializzata continua utilizzando SQL, puoi utilizzare l'editor di query di Bigtable Studio o una delle librerie client che supportano le query SQL.

SQL espone automaticamente i risultati delle query come colonne tipizzate, quindi non è necessario gestire la codifica nella query.

Quando crei una vista materializzata continua, Bigtable crea automaticamente uno schema di chiavi di riga per la tabella che definisce le chiavi di riga strutturate per la vista. Per ulteriori informazioni sull'esecuzione di query sulle chiavi di riga strutturate con SQL, vedi Query chiave di riga strutturate.

API di dati

Se prevedi di leggere da una vista materializzata continua con una chiamata ReadRows da una delle librerie client per Bigtable, devi esaminare la query SQL utilizzata per definire la vista. Prendi nota se la vista ha una colonna _key definita, consigliata per le viste che devono essere lette utilizzando ReadRows, e se ha una colonna _timestamp.

Devi anche conoscere il tipo di ogni colonna e decodificare i dati della colonna nel codice dell'applicazione.

I valori aggregati in una vista materializzata continua vengono memorizzati utilizzando la codifica descritta nella tabella seguente, in base al tipo di output della colonna dalla definizione della vista.

Tipo Codifica
BOOL Valore di 1 byte, 1 = true, 0 = false
BYTES Nessuna codifica
INT64 (o INT, SMALLINT, INTEGER, BIGINT, TINYINT, BYTEINT) Big-endian a 64 bit
FLOAT64 IEEE 754 a 64 bit, escluso NaN e +/-inf
STRING UTF-8
TIME/TIMESTAMP Numero intero a 64 bit che rappresenta il numero di microsecondi dall'epoca Unix (coerente con GoogleSQL)
Per ulteriori informazioni, vedi Codifica nel riferimento dell'API Data.

Oltre a conoscere il tipo di ogni colonna nella vista, devi conoscere la famiglia di colonne e il qualificatore di colonna. La famiglia di colonne predefinita è denominata default e il qualificatore di colonna è l'alias specificato nella query di definizione. Ad esempio, considera una vista materializzata continua definita con questa query:

SELECT
  _key,
  SUM(clicks) AS sum_clicks
FROM
  mytable
GROUP BY
  sum_clicks

Quando esegui una query sulla vista con ReadRows, fornisci la famiglia di colonne default e il qualificatore di colonna sum_clicks.

Letture e rendimento

Le letture che utilizzano i filtri sono più lente di quelle senza filtri e aumentano l'utilizzo della CPU. D'altra parte, possono ridurre significativamente la quantità di larghezza di banda di rete utilizzata, limitando la quantità di dati restituiti. In generale, i filtri devono essere utilizzati per controllare l'efficienza della velocità effettiva, non la latenza.

Se vuoi ottimizzare il rendimento di lettura, valuta le seguenti strategie:

  1. Limita il più possibile il set di righe. Limitare il numero di righe che i nodi devono scansionare è il primo passo per migliorare il tempo di risposta del primo byte e la latenza complessiva delle query. Se non limiti il set di righe, Bigtable dovrà quasi certamente scansionare l'intera tabella. Per questo motivo ti consigliamo di progettare lo schema in modo che le query più comuni funzionino in questo modo.

  2. Per un'ulteriore ottimizzazione del rendimento dopo aver limitato il set di righe, prova ad aggiungere un filtro di base. La limitazione del set di colonne o del numero di versioni restituite in genere non aumenta la latenza e a volte può aiutare Bigtable a cercare in modo più efficiente i dati non pertinenti in ogni riga.

  3. Se vuoi ottimizzare ulteriormente il rendimento di lettura dopo le prime due strategie, valuta la possibilità di utilizzare un filtro più complesso. Potresti provare questa opzione per alcuni motivi:

    • Stai ancora ricevendo molti dati che non vuoi.
    • Vuoi semplificare il codice dell'applicazione eseguendo la query in Bigtable.

    Tieni presente, tuttavia, che i filtri che richiedono condizioni, interleaves o corrispondenza di espressioni regolari su valori di grandi dimensioni tendono a fare più danni che benefici se consentono il passaggio della maggior parte dei dati scansionati. Questo danno si verifica sotto forma di aumento dell'utilizzo della CPU nel cluster senza grandi risparmi lato client.

Oltre a queste strategie, evita di leggere un numero elevato di chiavi di riga o intervalli di righe non contigui in una singola richiesta di lettura. Quando richiedi centinaia di chiavi di riga o intervalli di righe in una singola richiesta, Bigtable esegue la scansione della tabella e legge le righe richieste in sequenza. Questa mancanza di parallelismo influisce sulla latenza complessiva e qualsiasi lettura che raggiunge un nodo attivo può aumentare la latenza di coda. Più intervalli di righe vengono richiesti, più tempo impiega la lettura a completarsi. Se questa latenza non è accettabile, devi invece inviare più richieste simultanee, ognuna delle quali recupera un numero inferiore di intervalli di righe.

In generale, la lettura di più intervalli di righe in una singola richiesta ottimizza la velocità effettiva, ma non la latenza. La lettura di un numero inferiore di intervalli di righe in più richieste simultanee ottimizza la latenza, ma non la velocità effettiva. Trovare il giusto equilibrio tra latenza e velocità effettiva dipenderà dai requisiti dell'applicazione e può essere raggiunto regolando il numero di richieste di lettura simultanee e il numero di intervalli di righe in una richiesta.

Righe grandi

Bigtable applica i seguenti limiti alle righe di grandi dimensioni:

  • 256 MB è la dimensione massima di una riga. Se devi leggere una riga che ha superato il limite, puoi impaginare la tua richiesta e utilizzare un filtro cells per row limit e un filtro cells per row offset. Tieni presente che se arriva una scrittura per la riga tra le richieste di lettura impaginate, la lettura potrebbe non essere atomica.

  • 512 KB è la dimensione massima di una chiamata API ReadRows. Se superi il limite, Bigtable restituisce un errore INVALID_ARGUMENT.

Passaggi successivi