Risolvi i problemi relativi a quote e limiti
BigQuery prevede varie quote e limiti che limitano la frequenza e il volume di diverse richieste e operazioni. Esistono sia per proteggere l'infrastruttura sia per prevenire un utilizzo imprevisto da parte dei clienti. Questo documento descrive come diagnosticare e mitigare errori specifici derivanti da quote e limiti.
Alcuni messaggi di errore specificano quote o limiti che puoi aumentare, mentre altri specificano quote o limiti che non puoi aumentare. Il raggiungimento di un limite rigido significa che devi implementare soluzioni alternative temporanee o permanenti o best practice per il tuo workload. Questa è una best practice, anche per le quote o i limiti che possono essere aumentati.
Questo documento organizza i messaggi di errore e le relative soluzioni in base a queste categorie. La sezione "Panoramica" più avanti in questo documento spiega come leggere un messaggio di errore e applicare la soluzione corretta per il tuo problema.
Se il messaggio di errore non è elencato in questo documento, consulta l'elenco dei messaggi di errore, che contiene informazioni più generiche sugli errori.
Panoramica
Se un'operazione di BigQuery non va a buon fine a causa del superamento di una quota, l'API restituisce il codice di stato HTTP 403 Forbidden
. Il corpo della risposta contiene ulteriori informazioni sulla quota raggiunta. Il corpo della risposta avrà il seguente aspetto:
{
"code" : 403,
"errors" : [ {
"domain" : "global",
"message" : "Quota exceeded: ...",
"reason" : "quotaExceeded"
} ],
"message" : "Quota exceeded: ..."
}
Il campo message
nel payload descrive quale limite è stato superato. Ad esempio, il contenuto del campo message
potrebbe essere Exceeded rate limits: too many table
update operations for this table
.
In generale, i limiti di quota si suddividono in due categorie, indicate dal campo reason
nel payload della risposta.
rateLimitExceeded
. Questo valore indica un limite a breve termine. Per risolvere i problemi relativi a questi limiti, riprova a eseguire l'operazione dopo qualche secondo. Utilizza il backoff esponenziale tra tentativi successivi. In altre parole, aumenta in modo esponenziale il ritardo tra un nuovo tentativo e l'altro.quotaExceeded
.Questo valore indica un limite a lungo termine. Se raggiungi un limite di quota a lungo termine, devi attendere almeno 10 minuti prima di riprovare a eseguire l'operazione. Se raggiungi sistematicamente uno di questi limiti di quota a lungo termine, devi analizzare il tuo carico di lavoro per capire come risolvere il problema. Le mitigazioni possono includere l'ottimizzazione del carico di lavoro o la richiesta di aumento della quota.
Per gli errori quotaExceeded
, esamina il messaggio di errore per capire quale limite di quota è stato superato. Analizza quindi il carico di lavoro per capire se puoi evitare di raggiungere la quota.
In alcuni casi, la quota può essere aumentata contattando l'assistenza di BigQuery o contattando Google Cloud il team di vendita, ma ti consigliamo di provare prima i suggerimenti riportati in questo documento.
Diagnosi
Per diagnosticare i problemi:
Utilizza le viste
INFORMATION_SCHEMA
insieme a un qualificatore di regione per analizzare il problema di fondo. Queste viste contengono metadati relativi alle tue risorse BigQuery, tra cui job, prenotazioni e inserimenti di flussi di dati.Ad esempio, la seguente query usa la vista
INFORMATION_SCHEMA.JOBS
per elencare tutti gli errori relativi alle quote del giorno precedente:SELECT job_id, creation_time, error_result FROM `region-REGION_NAME`.INFORMATION_SCHEMA.JOBS WHERE creation_time > TIMESTAMP_SUB(CURRENT_TIMESTAMP, INTERVAL 1 DAY) AND error_result.reason IN ('rateLimitExceeded', 'quotaExceeded')
Sostituisci
REGION_NAME
con la regione del progetto. Deve essere preceduto daregion-
. Ad esempio, per la località a più regioniUS
, utilizzaregion-us
.Visualizza gli errori in Cloud Audit Logs.
Ad esempio, utilizzando Esplora log, la seguente query restituisce errori con
Quota exceeded
olimit
nella stringa del messaggio:resource.type = ("bigquery_project" OR "bigquery_dataset") protoPayload.status.code ="7" protoPayload.status.message: ("Quota exceeded" OR "limit")
In questo esempio, il codice di stato
7
indicaPERMISSION_DENIED
, che corrisponde al codice di stato HTTP403
.Per altri esempi di query di Cloud Audit Logs, consulta Query BigQuery.
Risolvi i problemi relativi a quote o limiti che possono essere aumentati
Puoi aumentare le seguenti quote e limiti, ma è meglio prima provare le soluzioni alternative o le best practice suggerite.
Il progetto ha superato la quota di byte di query gratuiti scansionati
BigQuery restituisce questo errore quando esegui una query nel livello di utilizzo gratuito e l'account raggiunge il limite mensile di dimensioni dei dati su cui è possibile eseguire query. Per ulteriori informazioni sui prezzi delle query, consulta la sezione Livello di utilizzo gratuito.
Messaggio di errore
Your project exceeded quota for free query bytes scanned
Risoluzione
Per continuare a utilizzare BigQuery, devi eseguire l'upgrade dell'account a un account di fatturazione Cloud a pagamento.
Errori di quota relativi agli inserimenti di flussi di dati
Questa sezione fornisce alcuni suggerimenti per la risoluzione dei problemi relativi alle quote per i flussi di dati in BigQuery.
In alcune aree geografiche, gli inserimenti di flussi di dati hanno una quota maggiore se non immetti dati nel campo insertId
per ogni riga. Per ulteriori informazioni sulle quote per gli inserimenti di flussi di dati, consulta la pagina relativa agli Inserimento di flussi di dati.
Gli errori relativi alle quote per i flussi di dati di BigQuery dipendono dalla presenza o dall'assenza di un valore nel campo insertId
.
Messaggio di errore
Se il campo insertId
è vuoto, si può verificare il seguente errore di quota:
Limite quota | Messaggio di errore |
---|---|
Byte al secondo per progetto | La tua entità con ID GAIA GAIA_ID, progetto PROJECT_ID e area geografica REGION ha superato la quota di inserimento byte al secondo. |
Se il campo insertId
è compilato, si possono verificare i seguenti errori di quota:
Limite quota | Messaggio di errore |
---|---|
Righe al secondo per progetto | Il tuo progetto PROJECT_ID in REGION ha superato la quota per l'inserimento di righe di flussi di dati al secondo. |
Righe al secondo per tabella | La tua tabella TABLE_ID ha superato la quota per l'inserimento di righe di flussi di dati al secondo. |
Byte al secondo per tabella | La tua tabella TABLE_ID ha superato la quota per l'inserimento di byte di flussi di dati al secondo. |
Lo scopo del campo insertId
è deduplicare le righe inserite. Se arrivano più inserimenti con lo stesso insertId
nel giro di pochi minuti, BigQuery scrive un'unica versione del record. Tuttavia, questa deduplicazione automatica non è garantita. Per la massima velocità effettiva di trasmissione dei flussi di dati, ti consigliamo di non includere insertId
e di usare invece la deduplicazione manuale.
Per ulteriori informazioni, consulta la pagina relativa a come garantire la coerenza dei dati.
Quando si verifica questo errore, diagnostica il problema e poi segui i passaggi consigliati per risolverlo.
Diagnosi
Usa le viste STREAMING_TIMELINE_BY_*
per analizzare il traffico dei flussi di dati. Queste viste aggregano le statistiche relative ai flussi di dati in intervalli di un minuto, raggruppate per codice di errore. Gli errori di quota vengono visualizzati nei risultati con error_code
uguale a RATE_LIMIT_EXCEEDED
o QUOTA_EXCEEDED
.
A seconda del limite di quota specifico raggiunto, fai riferimento a total_rows
o total_input_bytes
. Se l'errore riguarda una quota a livello di tabella, filtra per table_id
.
Ad esempio, la seguente query mostra i byte totali importati al minuto e il numero totale di errori di quota:
SELECT start_timestamp, error_code, SUM(total_input_bytes) as sum_input_bytes, SUM(IF(error_code IN ('QUOTA_EXCEEDED', 'RATE_LIMIT_EXCEEDED'), total_requests, 0)) AS quota_error FROM `region-REGION_NAME`.INFORMATION_SCHEMA.STREAMING_TIMELINE_BY_PROJECT WHERE start_timestamp > TIMESTAMP_SUB(CURRENT_TIMESTAMP, INTERVAL 1 DAY) GROUP BY start_timestamp, error_code ORDER BY 1 DESC
Risoluzione
Per risolvere questo errore relativo alla quota, segui questi passaggi:
Se usi il campo
insertId
per la deduplicazione e il tuo progetto si trova in una regione che supporta una quota per i flussi di dati maggiore, ti consigliamo di rimuovere il campoinsertId
. Questa soluzione potrebbe richiedere passaggi aggiuntivi per la deduplicazione manuale dei dati. Per ulteriori informazioni, vedi Rimozione manuale dei duplicati.Se non usi
insertId
, oppure non è possibile rimuoverlo, monitora il traffico dei flussi di dati per un periodo di 24 ore e analizza gli errori di quota:Se risultano soprattutto errori
RATE_LIMIT_EXCEEDED
anziché erroriQUOTA_EXCEEDED
e il traffico complessivo è inferiore all'80% della quota, gli errori indicano probabilmente picchi temporanei. Per risolvere questi errori, puoi eseguire nuovamente l'operazione usando il backoff esponenziale tra tentativi successivi.Se utilizzi un job Dataflow per inserire dati, valuta la possibilità di utilizzare job di caricamento anziché inserimenti in streaming. Per ulteriori informazioni, vedi Impostare il metodo di inserimento. Se utilizzi Dataflow con un connettore I/O personalizzato, valuta la possibilità di utilizzare un connettore I/O integrato. Per saperne di più, consulta Pattern I/O personalizzati.
Se risultano errori
QUOTA_EXCEEDED
o il traffico complessivo supera costantemente l'80% della quota, invia una richiesta di aumento della quota. Per ulteriori informazioni, consulta Richiedi un aggiustamento delle quote.Potresti anche prendere in considerazione la sostituzione degli inserimenti di streaming con la nuova API Storage Write, che offre una velocità effettiva superiore, un prezzo inferiore e molte funzionalità utili.
Numero massimo di query simultanee che contengono funzioni remote
BigQuery restituisce questo errore quando il numero di query simultanee che contengono funzioni remote supera il limite. Tuttavia, questo limite può essere aumentato. Prova prima le soluzioni alternative e le best practice.
Per saperne di più sui limiti delle funzioni remote, consulta Funzioni remote.
Messaggio di errore
Exceeded rate limits: too many concurrent queries with remote functions for this project
Diagnosi
Per visualizzare i limiti per le query simultanee che contengono funzioni remote, consulta Limiti delle funzioni remote.
Risoluzione
- Quando utilizzi le funzioni remote, rispetta le best practice per le funzioni remote.
- Puoi richiedere un aumento della quota contattando l'assistenza o il team di vendita. L'esame e l'elaborazione della richiesta potrebbero richiedere diversi giorni. Ti consigliamo di indicare la priorità, il caso d'uso e l'ID progetto nella richiesta.
Numero massimo di istruzioni CREATE MODEL
Questo errore indica che hai superato la quota per le istruzioni CREATE MODEL
.
Messaggio di errore
Quota exceeded: Your project exceeded quota for CREATE MODEL queries per project.
Risoluzione
Se superi la quota
per le istruzioni CREATE MODEL
, invia un'email a
bqml-feedback@google.com
e richiedi un aumento della quota.
Numero massimo di errori di quota per progetto al giorno per i job di copia
BigQuery restituisce questo errore quando il numero di job di copia in esecuzione in un progetto ha superato il limite giornaliero. Per scoprire di più sul limite di job di copia al giorno, consulta la sezione Job di copia.
Messaggio di errore
Your project exceeded quota for copies per project
Diagnosi
Se vuoi raccogliere più dati sull'origine dei lavori di copia, puoi provare a:
Se i tuoi job di copia si trovano in una o poche regioni, puoi provare a interrogare la tabella
INFORMATION_SCHEMA.JOBS
per regioni specifiche. Ad esempio:SELECT creation_time, job_id, user_email, destination_table.project_id, destination_table.dataset_id, destination_table.table_id FROM `PROJECT_ID`.`region-REGION_NAME`.INFORMATION_SCHEMA.JOBS WHERE creation_time BETWEEN TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 2 DAY) AND CURRENT_TIMESTAMP() AND job_type = "COPY" order by creation_time DESC
Puoi anche regolare l'intervallo di tempo in base all'intervallo di tempo che ti interessa.
Per visualizzare tutti i job di copia in tutte le regioni, puoi utilizzare il seguente filtro in Cloud Logging:
resource.type="bigquery_resource" protoPayload.methodName="jobservice.insert" protoPayload.serviceData.jobInsertRequest.resource.jobConfiguration.tableCopy:*
Risoluzione
- Se lo scopo delle frequenti operazioni di copia è creare uno snapshot dei dati, ti consigliamo di utilizzare gli snapshot delle tabelle. Gli snapshot delle tabelle sono un'alternativa più economica e veloce alla copia delle tabelle complete.
- Puoi richiedere un aumento della quota contattando l'assistenza o il team di vendita. L'esame e l'elaborazione della richiesta potrebbero richiedere diversi giorni. Ti consigliamo di indicare la priorità, il caso d'uso e l'ID progetto nella richiesta.
Errore relativo al superamento della quota di byte di estrazione al giorno
BigQuery restituisce questo errore quando l'estrazione supera il limite giornaliero predefinito di 50 TiB in un progetto. Per ulteriori informazioni sui limiti dei job di estrazione, vedi Job di estrazione.
Messaggio di errore
Your usage exceeded quota for ExtractBytesPerDay
Diagnosi
Se esporti una tabella di dimensioni superiori a 50 TiB, l'esportazione non va a buon fine perché supera il limite di estrazione. Per ovviare a questo problema, consulta la soluzione. Se vuoi esportare i dati della tabella per partizioni specifiche della tabella, puoi utilizzare un decoratore di partizioni per identificare le partizioni da esportare.
Se vuoi raccogliere i dati sull'utilizzo delle esportazioni negli ultimi giorni, puoi provare a:
Visualizza le quote per il tuo progetto con criteri di filtro come
Name: Extract bytes per day
oMetric: bigquery.googleapis.com/quota/extract/bytes
insieme al grafico Mostra utilizzo per visualizzare la tendenza di utilizzo in un periodo di alcuni giorni.In alternativa, puoi eseguire una query su
INFORMATION_SCHEMA.JOBS_BY_PROJECT
per visualizzare i byte di estrazione totali in alcuni giorni. Ad esempio, la seguente query restituisce i byte totali giornalieri elaborati dai jobEXTRACT
negli ultimi sette giorni.SELECT TIMESTAMP_TRUNC(creation_time, DAY) AS day, SUM ( total_bytes_processed ) / POW(1024, 3) AS total_gigabytes_processed FROM `region-REGION_NAME`.INFORMATION_SCHEMA.JOBS_BY_PROJECT WHERE creation_time BETWEEN TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 7 DAY) AND CURRENT_TIMESTAMP() AND job_type = "EXTRACT" GROUP BY 1 ORDER BY 2 DESC
Puoi quindi perfezionare ulteriormente i risultati identificando i job specifici che consumano più byte del previsto. Il seguente esempio restituisce i primi 100 job
EXTRACT
che consumano più di 100 GB elaborati negli ultimi sette giorni.SELECT creation_time, job_id, total_bytes_processed/POW(1024, 3) AS total_gigabytes_processed FROM `region-REGION_NAME`.INFORMATION_SCHEMA.JOBS_BY_PROJECT WHERE creation_time BETWEEN TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 7 DAY) AND CURRENT_TIMESTAMP() AND job_type="EXTRACT" AND total_bytes_processed > (POW(1024, 3) * 100) ORDER BY total_bytes_processed DESC LIMIT 100
In alternativa, puoi utilizzare l'Esplora job
con filtri come Bytes processed more than
per filtrare i job di elaborazione elevata
per un periodo di tempo specificato.
Risoluzione
Un modo per risolvere questo errore di quota è creare una prenotazione di slot e assegnare il tuo progetto alla prenotazione con il tipo di job PIPELINE
. Questo metodo può
ignorare il controllo del limite perché utilizza le prenotazioni dedicate anziché
un pool di slot condiviso gratuito. Se necessario, la prenotazione può essere eliminata se vuoi
utilizzare un pool di slot condiviso in un secondo momento.
Per approcci alternativi che consentono di esportare più di 50 TiB, consulta la sezione delle note in Estrai job.
Errori di quota per progetto per un massimo di tabledata.list
byte al secondo
BigQuery restituisce questo errore quando il numero di progetto menzionato
nel messaggio di errore raggiunge la dimensione massima dei dati che possono essere letti tramite
la chiamata API tabledata.list
in un progetto al secondo. Per saperne di più, consulta Massimo tabledata.list
byte al minuto.
Messaggio di errore
Your project:[project number] exceeded quota for tabledata.list bytes per second per project
Risoluzione
Per risolvere questo errore:
- In generale, ti consigliamo di cercare di rimanere al di sotto di questo limite. Ad esempio, distanziando le richieste per un periodo più lungo con ritardi. Se l'errore non si verifica di frequente, l'implementazione di nuovi tentativi con backoff esponenziale risolve il problema.
- Se il caso d'uso prevede la lettura rapida e frequente di una grande quantità di dati
da una tabella, ti consigliamo di utilizzare l'API BigQuery Storage di lettura
anziché l'API
tabledata.list
. Se i suggerimenti precedenti non funzionano, puoi richiedere un aumento della quota dal Google Cloud dashboard API della console procedendo nel seguente modo:
- Vai alla dashboard della console API diGoogle Cloud .
- Nella dashboard, filtra per Quota:
Tabledata list bytes per minute (default quota)
. - Seleziona la quota e segui le istruzioni riportate in Richiedi un aggiustamento della quota.
L'esame e l'elaborazione della richiesta potrebbero richiedere diversi giorni.
Errori relativi al limite massimo di richieste API
BigQuery restituisce questo errore quando viene raggiunto il limite di frequenza per il numero di richieste API a un'API BigQuery per utente per metodo, ad esempio le chiamate al metodo tables.get
da un account di servizio o le chiamate al metodo jobs.insert
da un indirizzo email utente diverso.
Per saperne di più, consulta il limite di frequenza Numero massimo di richieste API al secondo per utente per metodo nell'API BigQuery.
Messaggio di errore
Quota exceeded: Your user_method exceeded quota for concurrent api requests per user per method.
Quando si verifica questo errore, diagnostica il problema e poi segui i passaggi consigliati per risolverlo.
Diagnosi
Se non hai identificato il metodo che ha raggiunto questo limite di frequenza, procedi nel seguente modo:
Per l'account di servizio
Vai al progetto che ospita il account di servizio.
Nella console Google Cloud , vai alla dashboard delle API.
Per istruzioni su come visualizzare le informazioni dettagliate sull'utilizzo di un'API, consulta Utilizzo della dashboard API.
Nella dashboard API, seleziona API BigQuery.
Per visualizzare informazioni sull'utilizzo più dettagliate, seleziona Metriche e poi esegui i seguenti passaggi:
In Seleziona grafici, seleziona Traffico per metodo API.
Filtra il grafico in base alle credenziali del account di servizio. Potresti notare picchi per un metodo nell'intervallo di tempo in cui hai notato l'errore.
Per le chiamate API
Alcune chiamate API registrano errori nei log di audit di BigQuery in Cloud Logging. Per identificare il metodo che ha raggiunto il limite:
Nella console Google Cloud , vai al menu di navigazione Google Cloud > Esplora log per il tuo progetto:
e poi seleziona LoggingFiltra i log eseguendo la seguente query:
resource.type="bigquery_resource" protoPayload.authenticationInfo.principalEmail="<user email or service account>" "Too many API requests per user per method for this user_method" In the log entry, you can find the method name under the property protoPayload.method_name.
Per ulteriori informazioni, vedi Panoramica dei log di controllo di BigQuery.
Risoluzione
Per risolvere questo errore relativo alla quota, segui questi passaggi:
Riduci il numero di richieste API o aggiungi un ritardo tra più richieste API in modo che il numero di richieste rimanga al di sotto di questo limite.
Se il limite viene superato solo occasionalmente, puoi implementare nuovi tentativi per questo errore specifico con backoff esponenziale.
Se inserisci spesso dati, valuta la possibilità di utilizzare inserimenti di flussi di dati perché non sono interessati dalla quota dell'API BigQuery. Tuttavia, l'API streaming inserts ha costi associati e un proprio insieme di limiti e quote.
Per scoprire di più sul costo degli inserimenti di flussi di dati, consulta la pagina Prezzi di BigQuery.
Durante il caricamento dei dati in BigQuery utilizzando Dataflow con il connettore BigQuery I/O, potresti riscontrare questo errore per il metodo
tables.get
. Per risolvere il problema, segui questi passaggi:Imposta la disposizione di creazione della tabella di destinazione su
CREATE_NEVER
. Per ulteriori informazioni, vedi Creare una disposizione.Utilizza l'SDK Apache Beam versione 2.24.0 o successive. Nelle versioni precedenti dell'SDK, la disposizione
CREATE_IF_NEEDED
chiama il metodotables.get
per verificare se la tabella esiste.
Puoi richiedere un aumento della quota contattando l'assistenza o il team di vendita. Per una quota aggiuntiva, vedi Richiedere un aumento della quota. L'elaborazione di una richiesta di aumento della quota potrebbe richiedere diversi giorni. Per fornire maggiori informazioni per la tua richiesta, ti consigliamo di includere la priorità del job, l'utente che esegue la query e il metodo interessato.
Risolvi i problemi relativi a quote o limiti che non possono essere aumentati
Non puoi aumentare le seguenti quote o limiti, ma puoi applicare le soluzioni alternative o le best practice suggerite per mitigarli.
Errori relativi ai limiti della coda di query
Se un progetto tenta di accodare più query interattive o batch di quanto consentito dal suo limite di coda, potresti riscontrare questo errore.
Messaggio di errore
Quota exceeded: Your project and region exceeded quota for max number of jobs that can be queued per project.
Risoluzione
Questo limite non può essere aumentato. Per risolvere questo errore relativo alla quota, segui questi passaggi:
Metti in pausa il job. Se identifichi un processo o una pipeline responsabile di un aumento delle query, mettilo in pausa.
Utilizza i job con priorità batch. Puoi mettere in coda più query batch rispetto alle query interattive.
Distribuire le query. Organizza e distribuisci il carico su diversi progetti in base alla natura delle query e alle esigenze della tua attività.
Distribuisci i tempi di esecuzione. Distribuire il carico su un periodo di tempo più ampio. Se la tua soluzione di generazione di report deve eseguire molte query, prova a introdurre un po' di casualità nell'avvio delle query. Ad esempio, non avviare tutti i report contemporaneamente.
Utilizza BigQuery BI Engine. Se hai riscontrato questo errore durante l'utilizzo di uno strumento di business intelligence (BI) per creare dashboard che eseguono query sui dati in BigQuery, ti consigliamo di utilizzare BigQuery BI Engine. L'utilizzo di BigQuery BI Engine è ottimale per questo caso d'uso.
Ottimizza le query e il modello di dati. Spesso una query può essere riscritta in modo da essere eseguita in modo più efficiente. Ad esempio, se la query contiene un'espressione della tabella comune (CTE), ovvero una clausola
WITH
, a cui viene fatto riferimento in più di un punto della query, questo calcolo viene eseguito più volte. È meglio rendere persistenti i calcoli eseguiti dalla CTE in una tabella temporanea e poi farvi riferimento nella query.Anche più join possono essere la causa di una mancanza di efficienza. In questo caso, ti consigliamo di utilizzare colonne nidificate e ripetute. L'utilizzo di questa opzione spesso migliora la località dei dati, elimina la necessità di alcuni join e riduce complessivamente il consumo di risorse e il tempo di esecuzione delle query.
L'ottimizzazione delle query le rende più economiche, quindi quando utilizzi i prezzi basati sulla capacità, puoi eseguire più query con i tuoi slot. Per ulteriori informazioni, vedi Introduzione all'ottimizzazione del rendimento delle query.
Ottimizza il modello di query. BigQuery non è un database relazionale. Non è ottimizzata per un numero infinito di piccole query. L'esecuzione di un numero elevato di piccole query esaurisce rapidamente le quote. Queste query non vengono eseguite in modo efficiente come con i prodotti di database più piccoli. BigQuery è un data warehouse di grandi dimensioni e questo è il suo caso d'uso principale. Funziona meglio con le query analitiche su grandi quantità di dati.
Rendere persistenti i dati (tabelle salvate). Pre-elabora i dati in BigQuery e archiviali in tabelle aggiuntive. Ad esempio, se esegui molte query simili e a elevato utilizzo di risorse di calcolo con condizioni
WHERE
diverse, i risultati non vengono memorizzati nella cache. Queste query consumano anche risorse ogni volta che vengono eseguite. Puoi migliorare il rendimento di queste query e ridurre il tempo di elaborazione precalcolando i dati e memorizzandoli in una tabella. È possibile eseguire query su questi dati precalcolati nella tabella tramite querySELECT
. Spesso può essere eseguita durante l'importazione all'interno del processo ETL o utilizzando query pianificate o viste materializzate.Utilizza la modalità dry run. Esegui query in modalità di prova, che stima il numero di byte letti, ma non elabora effettivamente la query.
Visualizzare l'anteprima dei dati della tabella. Per sperimentare o esplorare i dati anziché eseguire query, visualizza l'anteprima dei dati della tabella con la funzionalità di anteprima della tabella in BigQuery.
Utilizza i risultati delle query memorizzati nella cache. Tutti i risultati delle query, incluse quelle interattive e batch, vengono memorizzati nella cache in tabelle temporanee per circa 24 ore, con alcune eccezioni. L'esecuzione di una query memorizzata nella cache viene comunque conteggiata ai fini del limite di query simultanee, ma le query che utilizzano risultati memorizzati nella cache sono molto più veloci di quelle che non li utilizzano perché BigQuery non deve calcolare il set di risultati.
Errori relativi al limite di dimensione del rimescolamento
BigQuery restituisce questo errore quando il tuo progetto supera il limite massimo di dimensioni del disco e della memoria disponibile per le operazioni di shuffle.
Questa quota viene calcolata per prenotazione e suddivisa tra i progetti per le prenotazioni. La quota non può essere modificata dall'assistenza clienti Google Cloud. Puoi scoprire di più sul tuo utilizzo eseguendo query sulla visualizzazione INFORMATION_SCHEMA.JOBS_TIMELINE
.
Messaggio di errore
Ricevi uno dei seguenti messaggi di errore:
Quota exceeded: Your project exceeded quota for total shuffle size limit.
Resources exceeded: Your project or organization exceeded the maximum disk and memory limit available for shuffle operations. Consider provisioning more slots, reducing query concurrency, or using more efficient logic in this job.
Risoluzione
Per risolvere questo errore:
- Aumentare la prenotazione.
- Ottimizza le query.
- Riduci la concorrenza delle query o la materializzazione dei risultati intermedi per ridurre la dipendenza dalle risorse. Per saperne di più, consulta Code di query e Creare viste materializzate.
Errori di quota relativi al numero di modifiche delle partizioni per le tabelle partizionate per colonne
BigQuery restituisce questo errore quando la tabella partizionata per colonne raggiunge la quota del numero di modifiche delle partizioni consentite al giorno. Le modifiche alle partizioni includono il totale di tutti i job di caricamento, i job di copia e i job di query che aggiungono dati a una partizione di destinazione o la sovrascrivono.
Per visualizzare il valore del limite Numero di modifiche alle partizioni per tabella partizionata per colonne al giorno, consulta Tabelle partizionate.
Messaggio di errore
Quota exceeded: Your table exceeded quota for Number of partition modifications to a column partitioned table
Risoluzione
Questa quota non può essere aumentata. Per risolvere questo errore relativo alla quota, segui questi passaggi:
- Modifica il partizionamento della tabella in modo da avere più dati in ogni partizione, per diminuire il numero totale di partizioni. Ad esempio, passa dalla partizione per giorno alla partizione per mese o modifica il modo in cui partizioni la tabella.
- Utilizza il clustering anziché il partizionamento.
-
Se carichi spesso dati da più file di piccole dimensioni archiviati in Cloud Storage che utilizzano un job per file, combina più job di caricamento in un unico job. Puoi caricare da più URI Cloud Storage con un elenco separato da virgole (ad esempio,
gs://my_path/file_1,gs://my_path/file_2
) o utilizzando caratteri jolly (ad esempio,gs://my_path/*
).Per ulteriori informazioni, consulta la sezione Caricamento dei dati in batch.
- Se utilizzi i job di caricamento, selezione o copia per aggiungere singole righe di dati a una tabella, ad esempio, devi prendere in considerazione la possibilità di raggruppare più job in un unico job. BigQuery non funziona bene se utilizzato come database relazionale. Come best practice, evita di eseguire azioni di accodamento frequenti su una sola riga.
- Per aggiungere dati a una velocità elevata, valuta la possibilità di utilizzare l'API BigQuery Storage Write. È una soluzione consigliata per l'importazione dati ad alte prestazioni. L'API BigQuery Storage Write offre funzionalità avanzate, tra cui la semantica di distribuzione esattamente una volta. Per informazioni su limiti e quote, consulta API Storage Write e per visualizzare i costi di utilizzo di questa API, consulta Prezzi dell'importazione dati BigQuery.
-
Per monitorare il numero di partizioni modificate in una tabella, utilizza la
visualizzazione
INFORMATION_SCHEMA
.
Errori relativi al limite della frequenza massima delle operazioni di aggiornamento dei metadati delle tabelle
BigQuery restituisce questo errore quando la tabella raggiunge il limite per la frequenza massima delle operazioni di aggiornamento dei metadati delle tabelle per tabella per le tabelle standard.
Le operazioni per tabella includono il totale combinato di tutti i job di caricamento, i job di copia e i job di query che aggiungono dati a una tabella di destinazione o la sovrascrivono o che utilizzano un'istruzione DML DELETE
, INSERT
, MERGE
, TRUNCATE TABLE
o UPDATE
per scrivere dati in una tabella.
Per visualizzare il valore del limite Frequenza massima delle operazioni di aggiornamento dei metadati delle tabelle per tabella, consulta la sezione Tabelle standard.
Messaggio di errore
Exceeded rate limits: too many table update operations for this table
Quando si verifica questo errore, diagnostica il problema, quindi segui i passaggi consigliati per risolverlo.
Diagnosi
Gli aggiornamenti della tabella dei metadati possono derivare da chiamate API che modificano i metadati di una tabella o da job che modificano i contenuti di una tabella. Se non hai identificato l'origine della maggior parte delle operazioni di aggiornamento dei metadati di una tabella, segui questi passaggi:
Identificare le chiamate API
Vai al menu di navigazione Google Cloud > Esplora log:
e seleziona LoggingFiltra i log per visualizzare le operazioni sulle tabelle eseguendo la seguente query:
resource.type="bigquery_dataset" protoPayload.resourceName="projects/my-project-id/datasets/my_dataset/tables/my_table" (protoPayload.methodName="google.cloud.bigquery.v2.TableService.PatchTable" OR protoPayload.methodName="google.cloud.bigquery.v2.TableService.UpdateTable" OR protoPayload.methodName="google.cloud.bigquery.v2.TableService.InsertTable")
Identificare i job
La seguente query restituisce un elenco di job che modificano la tabella interessata nel progetto nell'ultimo giorno. Se prevedi che più progetti in un'organizzazione
scrivano nella tabella, sostituisci JOBS_BY_PROJECT
con JOBS_BY_ORGANIZATION
.
SELECT job_id, user_email, query FROM `region-REGION_NAME`.INFORMATION_SCHEMA.JOBS_BY_PROJECT WHERE creation_time > TIMESTAMP_SUB(CURRENT_TIMESTAMP, INTERVAL 1 DAY) AND destination_table.project_id = "my-project-id" AND destination_table.dataset_id = "my_dataset" AND destination_table.table_id = "my_table"
Per ulteriori informazioni, vedi Panoramica dei log di controllo di BigQuery.
Risoluzione
Questa quota non può essere aumentata. Per risolvere questo errore relativo alla quota, segui questi passaggi:
- Riduci la frequenza di aggiornamento dei metadati della tabella.
- Aggiungi un ritardo tra i job o le operazioni sulle tabelle per assicurarti che la frequenza di aggiornamento rientri nel limite.
Per inserire o modificare i dati, valuta la possibilità di utilizzare le operazioni DML. Le operazioni DML non sono interessate dal limite di frequenza Frequenza massima delle operazioni di aggiornamento dei metadati delle tabelle per tabella.
Le operazioni DML hanno altri limiti e quote. Per ulteriori informazioni, consulta Utilizzo di DML (Data Manipulation Language).
-
Se carichi spesso dati da più file di piccole dimensioni archiviati in Cloud Storage che utilizzano un job per file, combina più job di caricamento in un unico job. Puoi caricare da più URI Cloud Storage con un elenco separato da virgole (ad esempio,
gs://my_path/file_1,gs://my_path/file_2
) o utilizzando caratteri jolly (ad esempio,gs://my_path/*
).Per ulteriori informazioni, consulta la sezione Caricamento dei dati in batch.
- Se utilizzi i job di caricamento, selezione o copia per aggiungere singole righe di dati a una tabella, ad esempio, devi prendere in considerazione la possibilità di raggruppare più job in un unico job. BigQuery non funziona bene se utilizzato come database relazionale. Come best practice, evita di eseguire azioni di accodamento frequenti su una sola riga.
- Per aggiungere dati a una velocità elevata, valuta la possibilità di utilizzare l'API BigQuery Storage Write. È una soluzione consigliata per l'importazione dati ad alte prestazioni. L'API BigQuery Storage Write offre funzionalità avanzate, tra cui la semantica di distribuzione esattamente una volta. Per informazioni su limiti e quote, consulta API Storage Write e per visualizzare i costi di utilizzo di questa API, consulta Prezzi dell'importazione dati BigQuery.
-
Per monitorare il numero di partizioni modificate in una tabella, utilizza la
visualizzazione
INFORMATION_SCHEMA
.
Errori di quota relativi alle importazioni di tabelle o agli accodamenti di query
BigQuery restituisce questo messaggio di errore quando la tabella raggiunge il limite per le operazioni su tabella al giorno per le tabelle standard. Le operazioni per tabella includono il totale combinato di tutti i job di caricamento, i job di copia e i job di query che aggiungono dati a una tabella di destinazione o la sovrascrivono.
Per visualizzare il valore del limite Operazioni per tabella al giorno, consulta Tabelle standard.
Messaggio di errore
Your table exceeded quota for imports or query appends per table
Quando si verifica questo errore, diagnostica il problema, quindi segui i passaggi consigliati per risolverlo.
Diagnosi
Se non hai identificato l'origine della maggior parte delle operazioni sulla tabella, procedi nel seguente modo:
Prendi nota del progetto, del set di dati e della tabella in cui la query, il caricamento o il job di copia non riuscito sta scrivendo.
Utilizza le tabelle
INFORMATION_SCHEMA.JOBS_BY_*
per scoprire di più sui job che modificano la tabella.L'esempio seguente trova il conteggio orario dei job raggruppati per tipo di job per l'ultimo periodo di 24 ore utilizzando
JOBS_BY_PROJECT
. Se prevedi che più progetti scrivano nella tabella, sostituisciJOBS_BY_PROJECT
conJOBS_BY_ORGANIZATION
.SELECT TIMESTAMP_TRUNC(creation_time, HOUR), job_type, count(1) FROM `region-REGION_NAME`.INFORMATION_SCHEMA.JOBS_BY_PROJECT WHERE creation_time > TIMESTAMP_SUB(CURRENT_TIMESTAMP, INTERVAL 1 DAY) AND destination_table.project_id = "my-project-id" AND destination_table.dataset_id = "my_dataset" AND destination_table.table_id = "my_table" GROUP BY 1, 2 ORDER BY 1 DESC
Risoluzione
Questa quota non può essere aumentata. Per risolvere questo errore relativo alla quota, segui questi passaggi:
-
Se carichi spesso dati da più file di piccole dimensioni archiviati in Cloud Storage che utilizzano un job per file, combina più job di caricamento in un unico job. Puoi caricare da più URI Cloud Storage con un elenco separato da virgole (ad esempio,
gs://my_path/file_1,gs://my_path/file_2
) o utilizzando caratteri jolly (ad esempio,gs://my_path/*
).Per ulteriori informazioni, consulta la sezione Caricamento dei dati in batch.
- Se utilizzi i job di caricamento, selezione o copia per aggiungere singole righe di dati a una tabella, ad esempio, devi prendere in considerazione la possibilità di raggruppare più job in un unico job. BigQuery non funziona bene se utilizzato come database relazionale. Come best practice, evita di eseguire azioni di accodamento frequenti su una sola riga.
- Per aggiungere dati a una velocità elevata, valuta la possibilità di utilizzare l'API BigQuery Storage Write. È una soluzione consigliata per l'importazione dati ad alte prestazioni. L'API BigQuery Storage Write offre funzionalità avanzate, tra cui la semantica di distribuzione esattamente una volta. Per informazioni su limiti e quote, consulta API Storage Write e per visualizzare i costi di utilizzo di questa API, consulta Prezzi dell'importazione dati BigQuery.
-
Per monitorare il numero di partizioni modificate in una tabella, utilizza la
visualizzazione
INFORMATION_SCHEMA
.
Troppe istruzioni DML in attesa per la tabella
Questo errore indica che il numero di istruzioni DML mutanti simultanee
(UPDATE
, DELETE
, MERGE
) eseguite sulla stessa tabella ha superato
il limite di quota del Data Manipulation Language (DML).
Questo limite di quota è per tabella
e si applica solo alle istruzioni DML di modifica, che non includono INSERT
.
Risoluzione
Raggruppa i job DML seguendo le best practice per le istruzioni DML.
Errori relativi alla quota di caricamento dei file CSV
Se carichi un file CSV di grandi dimensioni utilizzando il comando bq load
con il
flag --allow_quoted_newlines
,
potresti riscontrare questo errore.
Messaggio di errore
Input CSV files are not splittable and at least one of the files is larger than
the maximum allowed size. Size is: ...
Risoluzione
Per risolvere questo errore relativo alla quota, segui questi passaggi:
- Imposta il flag
--allow_quoted_newlines
sufalse
. - Dividi il file CSV in blocchi più piccoli, ognuno dei quali deve avere dimensioni inferiori a 4 GB.
Per ulteriori informazioni sui limiti che si applicano quando carichi dati in BigQuery, consulta Job di caricamento.
Il tuo utente ha superato la quota per le richieste simultanee project.lists
Questo errore si verifica quando i job Microsoft Power BI che comunicano con
BigQuery tramite un driver Simba ODBC o DataHub non vanno a buon fine perché
superano il limite dell'API project.list
. Per risolvere questo problema, utilizza le soluzioni alternative a breve
o lungo termine descritte in questa sezione.
Messaggio di errore
Your user exceeded quota for concurrent project.lists requests
Diagnosi
Questo errore si verifica durante la fase di connessione e rilevamento per Power BI quando un report Power BI viene aggiornato e il driver Simba stabilisce una connessione a un progetto BigQuery specifico.
Risoluzione a breve termine
Per risolvere il problema a breve termine, utilizza le seguenti soluzioni alternative, che sono ordinate dalla più efficace alla meno efficace. Implementa le correzioni 3 o 4, a seconda che ti connetta a BigQuery utilizzando il driver Simba o DataHub.
Per le soluzioni a lungo termine, vedi Soluzione a lungo termine.
Aggiornare i report in modo scaglionato. Se non riesci a modificare il DSN, riduci il numero di richieste simultanee per risolvere il problema della quota. Anziché aggiornare tutti i report contemporaneamente (ad esempio alle 9:00), scaglionane la pianificazione di qualche minuto (ad esempio alle 9:01, alle 9:03 e alle 9:05). Questa pratica distribuisce le chiamate API nel tempo, riducendo la probabilità di raggiungere il limite di concorrenza.
Implementa i tentativi in Power BI. Questa strategia reattiva aiuta un report a riprendersi da un errore temporaneo. Power BI dispone di una logica di ripetizione integrata per gli errori di aggiornamento dei dati. Sebbene questa pratica non impedisca l'errore di quota, rende la pipeline più resiliente consentendo a un report di essere generato in un tentativo successivo dopo che il picco iniziale di chiamate API si è attenuato. Per implementare questa correzione, segui questi passaggi:
- Nel servizio Power BI, vai a Impostazioni per il tuo set di dati.
- Espandi la sezione Aggiornamento programmato. In Riprova, configura Power BI per eseguire nuovamente in modo automatico un aggiornamento non riuscito.
Per le versioni precedenti del driver Simba, specifica l'ID progetto nella connessione ODBC. Questa azione impedisce al conducente di eseguire la chiamata di rilevamento
projects.list
. Il driver si connette direttamente al progetto specificato, il che impedisce chiamate API non necessarie e risolve il problema della quota.I driver più recenti non riescono immediatamente se il progetto non è specificato con un messaggio simile a
Unable to establish connection with data source. Missing settings: {[Catalog]}
.Per applicare questa correzione:
- Sul computer che esegue Power BI Gateway o Power BI Desktop, apri l'applicazione Origini dati ODBC (64 bit).
- Nella schermata di configurazione principale del driver Simba ODBC per BigQuery, compila il campo Catalogo (progetto) con l'ID progetto specifico Google Cloud , ad esempio
my-gcp-project-id
.
Per le versioni precedenti di DataHub, specifica l'ID progetto nella configurazione di importazione di DataHub. Applica questa correzione se utilizzi DataHub anziché il driver Simba. Come Simba, le versioni successive di DataHub richiedono di specificare l'ID progetto, altrimenti non si connettono a BigQuery.
Per evitare di superare i limiti di DataHub, modifica la configurazione di importazione di DataHub per fornire un elenco esplicito di ID progetto da scansionare. In questo modo, la configurazione di DataHub non trova tutti i progetti visibili all'account di servizio.
Nel file della ricetta dell'origine BigQuery (in genere un file YAML), utilizza la configurazione
project_ids
per enumerare i progetti che vuoi importare. A questo punto, esegui nuovamente il deployment della ricetta di importazione DataHub con la nuova configurazione. Vedi l'esempio seguente e questo esempio più lungo fornito da DataHub.Di seguito è riportato un esempio di snippet di configurazione di DataHub:
source: type: "bigquery" config: # Instead of relying on discovery, explicitly list the projects. # This avoids the problematic projects.list() API call. project_ids: - "YOUR_PRODUCTION_PROJECT_ID" - "YOUR_ANALYTICS_PROJECT_ID" - "ANOTHER_BQ_PROJECT"
Risoluzione a lungo termine
La soluzione migliore a lungo termine per questo messaggio di errore è creare service account Google Cloud separati e dedicati per ogni funzione. Ad esempio, crea un account di serviziot per tutti i report Power BI e unaccount di serviziot per l'importazione di DataHub.
Questa best practice isola l'utilizzo dell'API in bucket di quota separati e impedisce a un job a carico elevato in DataHub di causare l'errore dei report aziendali critici in Power BI.
Utilizza il piano d'azione nelle sezioni seguenti per risolvere gli errori di quota a lungo termine in Power BI e DataHub.
Fase 1: preparazione
- Comunica ai proprietari dei gateway Power BI e della configurazione di DataHub che apporterai modifiche coordinate per risolvere gli errori dei job in corso.
- Nella console Google Cloud , crea
due nuovi service account, ad esempio
sa-powerbi-gateway@...
esa-datahub-ingestion@...
. - Crea le chiavi degli account di servizio per gli account di servizio Power BI e DataHub.
- Concedi a ogni nuovo account di servizio autorizzazioni con privilegi minimi assegnando i seguenti ruoli Identity and Access Management (IAM) che gli consentono di svolgere le proprie attività in IAM pertinente. Evita di assegnare ruoli troppo generici, ad esempio ProjectEditor.
Ruoli obbligatori
Il account di servizio per Power BI esegue query e legge i dati dalle tabelle. Concedi i seguenti ruoli ai service account in ogni progetto Google Cloud che contiene i dati a cui Power BI deve accedere. Per saperne di più su questi ruoli, vedi Ruoli BigQuery.
- Visualizzatore dati BigQuery: fornisce l'accesso in sola lettura a set di dati, tabelle e viste.
- BigQuery Job User: fornisce le autorizzazioni per eseguire i job, incluse le query, il che è essenziale per l'esecuzione delle richieste di Power BI.
L'account di servizio per l'importazione di DataHub deve solo leggere i metadati, ad esempio nomi, schemi e descrizioni delle tabelle, non i dati all'interno delle tabelle. Concedi il seguente ruolo a livello di progetto per ogni progetto analizzato da DataHub. Per saperne di più su questi ruoli, vedi Ruoli IAM per BigQuery.
Visualizzatore metadati BigQuery: questo ruolo è progettato specificamente per leggere i metadati. Concede le autorizzazioni per elencare set di dati e tabelle e visualizzarne i metadati senza concedere l'accesso ai dati sottostanti.
Fase 2: implementazione coordinata
Durante un periodo di basso utilizzo, l'amministratore di Power BI aggiorna le configurazioni DSN ODBC sulle macchine gateway eseguendo i seguenti passaggi:
- Modifica il metodo di autenticazione in modo che utilizzi la nuova chiave dell'account di servizio
sa-powerbi-gateway@...
creata in un passaggio precedente. - Se non è già stata eseguita come soluzione a breve termine, inserisci l' Google Cloud ID progetto nel campo Catalogo (progetto) del driver ODBC.
- Il proprietario di DataHub ha aggiornato il file YAML di configurazione dell'origine BigQuery.
- Punta alla nuova chiave del account di servizio
sa-datahub-ingestion@...
creata in un passaggio precedente. - Se non è già stata eseguita come correzione a breve termine, utilizza il parametro
project_ids
per elencare esplicitamente i progetti da scansionare. - Esegue nuovamente il deployment della ricetta di importazione DataHub con la nuova configurazione.
Fase 3: verifica e monitoraggio
Per verificare e monitorare gli effetti delle correzioni, gli amministratori di Power BI e DataHub eseguono i seguenti passaggi:
- Attiva manualmente un aggiornamento per alcuni report Power BI chiave e una nuova esecuzione di importazione in Data Hub. Verifica che questi job vengano completati correttamente senza errori di quota.
- Nella console Google Cloud , vai alla pagina IAM e amministrazione > Quote.
- Filtra per il servizio API BigQuery.
- Trova la quota denominata Richieste
project.lists
simultanee e fai clic sull'icona del grafico per visualizzare l'utilizzo nel tempo.
Gli amministratori dovrebbero notare un calo drastico e permanente nell'utilizzo di questa chiamata API specifica, a conferma che la correzione è stata eseguita correttamente.