Configurando il partizionamento e il clustering per la destinazione BigQuery, puoi ottimizzare le prestazioni delle query e controllare i costi. Il partizionamento e il clustering consentono di ridurre la quantità di dati che BigQuery deve scansionare durante l'esecuzione della query.
Partizionamento delle tabelle
Il partizionamento delle tabelle divide la tabella in segmenti denominati partizioni, che semplificano la gestione e l'esecuzione di query sui dati. È possibile partizionare le tabelle specificando una colonna di partizione, utilizzata per segmentare la tabella.
Datastream supporta tre tipi di partizionamento per le tabelle BigQuery:
Partizionamento in base al tempo di acquisizione: puoi partizionare una tabella in base al tempo in cui Datastream acquisisce i dati in BigQuery. Puoi selezionare una granularità oraria, giornaliera, mensile o annuale per il partizionamento in base all'ora di importazione. Giornaliera è la granularità predefinita.
Partizionamento per unità di tempo: puoi partizionare una tabella in base a una colonna di origine di un tipo di dati che Datastream mappa a uno dei seguenti tipi di dati BigQuery:
DATE,DATETIMEoTIMESTAMP. Per informazioni su come Datastream mappa i tipi di dati di origine ai tipi di dati BigQuery, consulta Mappature dei tipi di dati in BigQuery.A seconda del tipo di dati BigQuery a cui è mappata la colonna di origine, puoi selezionare uno dei seguenti tipi di granularità:
DAY,MONTH,YEAR: per il tipo di datiDATE.HOUR,DAY,MONTH,YEAR: per i tipi di datiDATETIMEeTIMESTAMP.
Partizionamento per intervallo di numeri interi: puoi partizionare una tabella in base a una colonna di origine di un tipo di dati che Datastream mappa al tipo di dati BigQuery
INTEGER. È necessario fornire le seguenti informazioni:- Inizio: il valore iniziale del primo intervallo di partizione (incluso).
- Fine: il valore finale dell'ultimo intervallo di partizione (escluso).
- Intervallo: larghezza di ciascun intervallo di partizione.
Per ulteriori informazioni, vedere Partizionamento di intervalli interi.
Per ulteriori informazioni sul partizionamento in BigQuery, consulta Introduzione alle tabelle partizionate e Gestione delle tabelle partizionate.
Clustering delle tabelle
Il clustering ordina i dati in una tabella in base ai valori nelle colonne di clustering e colloca i dati con valori simili. Le query che filtrano in base alle colonne raggruppate analizzano solo i blocchi di dati rilevanti anziché l'intera tabella o partizione di tabella. Ciò può migliorare le prestazioni delle query e ridurne i costi.
Puoi raggruppare le tabelle BigQuery fino a quattro colonne. L'ordine in cui specifichi le colonne determina l'ordinamento dei dati.
È possibile raggruppare una tabella in base a una colonna di origine di un tipo di dati che Datastream mappa a uno dei seguenti tipi di dati BigQuery:
BIGNUMERICBOOLEANDATEDATETIMEGEOGRAPHYINT64NUMERICRANGESTRINGTIMESTAMP
Per informazioni su come Datastream mappa i tipi di dati di origine ai tipi di dati BigQuery, consulta Mappature dei tipi di dati in BigQuery.
Per ulteriori informazioni sul clustering in BigQuery, consulta Introduzione alle tabelle in cluster e Gestire le tabelle in cluster.
Limitazioni
Per i limiti di partizionamento in BigQuery, consulta Introduzione alle tabelle partizionate.
Per le limitazioni del clustering in BigQuery, vedere Introduzione alle tabelle clusterizzate.
Per i limiti di quota applicati alle tabelle partizionate BigQuery, consulta Quote e limiti.
Inoltre, quando utilizzi Datastream, si applicano le seguenti limitazioni:
- Il partizionamento e il clustering vengono applicati solo quando Datastream crea una nuova tabella BigQuery. Se si desidera configurare o modificare le impostazioni di partizionamento e clustering per una tabella già esistente, è necessario prima eliminarla da BigQuery, quindi configurarne o modificarne le impostazioni in Datastream.
- Per le sorgenti MongoDB, è possibile partizionare le tabelle solo in base al tempo di ingestione.
- Il clustering non è supportato per i database MongoDB.
Passaggi successivi
- Per saperne di più sui flussi, consulta Ciclo di vita dei flussi.
- Per scoprire come creare un flusso, consulta Crea un flusso.
- Per saperne di più su BigQuery, consulta Destinazione BigQuery.