Query federate Spanner
In qualità di analista di dati, puoi eseguire query sui dati in Spanner da BigQuery utilizzando le query federate.
La federazione BigQuery Spanner consente a BigQuery di eseguire query sui dati presenti in Spanner in tempo reale, senza copiare o spostare i dati.
Puoi eseguire query sui dati Spanner in due modi:
- Crea un set di dati esterno Spanner.
- Utilizza una funzione
EXTERNAL_QUERY.
Informazioni su ruoli e autorizzazioni
Quando esegui query su Spanner da BigQuery, incontri due tipi distinti di ruoli che gestiscono l'accesso a livelli diversi.
Ruoli IAM:questi ruoli regolano l'accesso alle risorseGoogle Cloud , incluse le istanze e i database Spanner. Determinano quali entità possono accedere al servizio Spanner ed eseguire azioni a livello di istanza o database, ad esempio connettersi, leggere i dati o amministrare. Gestisci i ruoli Identity and Access Management (IAM) tramite la console IAM o Google Cloud CLI. Alcuni esempi sono
roles/bigquery.connectionUsereroles/spanner.databaseReader. Per saperne di più, consulta Ruoli IAM di Spanner e Concessione delle autorizzazioni.Ruoli database di Spanner:questi ruoli sono definiti all'interno di un database Spanner utilizzando istruzioni DDL come
CREATE ROLEeGRANT. Controllano l'accesso granulare a oggetti dello schema specifici, come tabelle, colonne e viste, all'interno del database. Fa parte del controllo dell'accesso granulare (FGAC). Utilizzi un ruolo del database se la tua organizzazione implementa FGAC per gestire le autorizzazioni all'interno del database.
Determinare se sei un utente FGAC
Per determinare le autorizzazioni corrette da richiedere, devi stabilire se sei un utente FGAC. Per farlo, chiedi all'amministratore del database Spanner se il tuo accesso al database Spanner è gestito tramitecontrollo dell'accessoso granulare.
Probabilmente sei un utente FGAC se il tuo amministratore concede al tuo account autorizzazioni assegnandolo a un ruolo di database Spanner specifico (ad esempio, concedendo al tuo account il ruolo IAM roles/spanner.databaseRoleUser per una risorsa ruolo di database). In questo caso, devi conoscere il nome dei ruoli del database che puoi utilizzare. Devi
configurare la connessione BigQuery per utilizzare uno di questi ruoli
del database.
Probabilmente non sei un utente FGAC se l'amministratore concede al tuo account
ruoli IAM a livello di database più ampi, ad esempio
roles/spanner.databaseReader. In questo caso, non è necessario utilizzare un ruolo
di database specifico durante la connessione.
Confrontare l'applicazione del ruolo
Sebbene IAM controlli l'accesso alla risorsa di database stessa, i ruoli del database Spanner controllano le autorizzazioni per gli oggetti all'interno di quel database.
Per utilizzare un ruolo database FGAC, in genere devi disporre delle seguenti autorizzazioni:
- L'autorizzazione IAM
spanner.databases.useRoleBasedAccess, che spesso viene concessa tramite il ruoloroles/spanner.fineGrainedAccessUser. - Autorizzazione a utilizzare il ruolo database specifico, concessa tramite il ruolo
roles/spanner.databaseRoleUsercon una condizione IAM.
Per saperne di più sulla configurazione di queste autorizzazioni, consulta Configurare FGAC.
Utilizzare set di dati esterni
Il modo più semplice per eseguire query sulle tabelle Spanner è creare un set di dati esterno. Dopo aver creato il set di dati esterno, le tabelle del database Spanner corrispondente sono visibili in BigQuery e puoi utilizzarle nelle query, ad esempio in join, unioni o subquery. Tuttavia, nessun dato viene spostato da Spanner allo spazio di archiviazione BigQuery.
Se crei un set di dati esterno, non devi creare una connessione per eseguire query sui dati Spanner.
Utilizzare la funzione EXTERNAL_QUERY
Come per altri database federati, puoi anche eseguire query sui dati Spanner
con una funzione EXTERNAL_QUERY. Questa opzione può essere utile se vuoi avere un maggiore controllo sui parametri di connessione.
Prima di iniziare
- Assicurati che l'amministratore BigQuery abbia creato una connessione Spanner e l'abbia condivisa con te. Consulta Scegliere la connessione giusta.
- Per ottenere le autorizzazioni necessarie per eseguire query su un'istanza Spanner, chiedi all'amministratore di concederti il ruolo IAM Utente connessione BigQuery (
roles/bigquery.connectionUser) per la connessione. Devi anche disporre delle autorizzazioni appropriate per il database Spanner, che dipendono dal fatto che tu sia un utente FGAC.- Se sei un utente controllo dell'accesso granulare:
- Devi disporre dei ruoli IAM necessari per utilizzare
FGAC. Questi ruoli sono in genere
roles/spanner.fineGrainedAccessUsereroles/spanner.databaseRoleUser. I ruoli vengono utilizzati con una condizione che specifica il ruolo del database. - Il ruolo del database Spanner specificato nella connessione deve disporre del privilegio
SELECTsu tutti gli oggetti schema a cui fanno riferimento le query. L'amministratore del database concede i privilegi utilizzando l'istruzione DDLGRANT(o l'equivalente PostgreSQL).
- Devi disporre dei ruoli IAM necessari per utilizzare
FGAC. Questi ruoli sono in genere
- Se non sei un utente del controllo dell'accesso granulare, devi disporre del ruolo IAM Lettore database Spanner (
roles/spanner.databaseReader) nel database.
Per informazioni sulla concessione dei ruoli IAM, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
- Se sei un utente controllo dell'accesso granulare:
Scegliere la connessione giusta
Se sei un utente controllo dell'accesso granulare di Spanner, quando esegui una query federata con una funzione EXTERNAL_QUERY, devi utilizzare una connessione Spanner che specifica un ruolo del database. Questo ruolo
di database fa parte della configurazione FGAC all'interno del database
Spanner, separato dai ruoli IAM. Tutte le query eseguite con questa connessione utilizzano le autorizzazioni concesse a questo ruolo del database.
Se utilizzi una connessione che non specifica un ruolo di database, devi disporre dei ruoli IAM indicati in Prima di iniziare.
Esegui query sui dati
Per inviare una query federata a Spanner da una query GoogleSQL, utilizza la funzione
EXTERNAL_QUERY.
Formula la query Spanner in GoogleSQL o PostgreSQL, a seconda del dialetto specificato del database.
Il seguente esempio esegue una query federata su un database Spanner denominato orders e unisce i risultati a una tabella BigQuery denominata mydataset.customers:
SELECT c.customer_id, c.name, rq.first_order_date FROM mydataset.customers AS c LEFT OUTER JOIN EXTERNAL_QUERY( 'my-project.us.example-db', '''SELECT customer_id, MIN(order_date) AS first_order_date FROM orders GROUP BY customer_id''') AS rq ON rq.customer_id = c.customer_id GROUP BY c.customer_id, c.name, rq.first_order_date;
Spanner Data Boost
Data Boost è una funzionalità serverless completamente gestita che fornisce risorse di calcolo indipendenti per i workload Spanner supportati. Data Boost consente di eseguire query di analisi ed esportazioni di dati con un impatto minimo sui carichi di lavoro esistenti nell'istanza Spanner di cui è stato eseguito il provisioning. Data Boost ti consente di eseguire query federate con capacità di computing indipendente separata dalle istanze di cui è stato eseguito il provisioning per evitare di influire sui carichi di lavoro esistenti su Spanner. Data Boost è più utile quando esegui query ad hoc complesse o quando vuoi elaborare grandi quantità di dati senza influire sul carico di lavoro Spanner esistente. L'esecuzione di query federate con Data Boost può comportare un consumo di CPU notevolmente inferiore e, in alcuni casi, una latenza delle query inferiore.
Prima di iniziare
Per ottenere l'autorizzazione
necessaria per abilitare l'accesso a Data Boost,
chiedi all'amministratore di concederti il ruolo IAM Cloud Spanner Database Reader with DataBoost (roles/spanner.databaseReaderWithDataBoost) nel database Spanner.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questo ruolo predefinito contiene l'autorizzazione spanner.databases.useDataBoost necessaria per attivare l'accesso a Data Boost.
Potresti anche ottenere questa autorizzazione con ruoli personalizzati o altri ruoli predefiniti.
Il ruolo IAM roles/spanner.databaseReaderWithDataBoost concede l'autorizzazione per utilizzare Data Boost. Questo ruolo è necessario in aggiunta alle autorizzazioni di base necessarie per leggere i dati, ad esempio roles/spanner.databaseReader per gli utenti non FGAC o le autorizzazioni di controllo dell'accesso dell'accesso granulare appropriate.
L'utilizzo di set di dati esterni con Spanner utilizza sempre Data Boost e pertanto richiede l'autorizzazione spanner.databases.useDataBoost.
Attivare Data Boost
Quando utilizzi set di dati esterni, Data Boost viene sempre utilizzato e non devi attivarlo manualmente.
Se vuoi utilizzare Data Boost per le tue query EXTERNAL_QUERY, devi attivarlo quando crei una connessione utilizzata dalla query.
Lettura di dati in parallelo
Spanner può dividere determinate query in parti più piccole, o partizioni, e recuperare le partizioni in parallelo. Per ulteriori informazioni, incluso un elenco di limitazioni, consulta Lettura parallela dei dati nella documentazione di Spanner.
Per visualizzare il piano di esecuzione query per una query Spanner, consulta Comprendere in che modo Spanner esegue le query.
Quando esegui query federate con set di dati esterni, viene sempre utilizzata l'opzione "Leggi i dati in parallelo".
Per attivare le letture parallele quando utilizzi
EXTERNAL_QUERY,
attivala quando
crei la connessione.
Gestire la priorità di esecuzione delle query
Quando esegui query federate con una funzione EXTERNAL_QUERY, puoi assegnare la priorità (high, medium o low) alle singole query specificando l'opzione query_execution_priority:
SELECT * FROM EXTERNAL_QUERY( 'my-project.us.example-db', '''SELECT customer_id, MIN(order_date) AS first_order_date FROM orders GROUP BY customer_id''', '{"query_execution_priority":"high"}');
La priorità predefinita è medium.
Le query con priorità high competono con il traffico transazionale. Le query con
priorità low vengono eseguite con il massimo impegno e potrebbero essere interrotte dal caricamento in background, ad esempio dai backup pianificati.
Quando esegui query federate con set di dati esterni, tutte le query hanno sempre priorità medium.
Visualizzare lo schema di una tabella Spanner
Se utilizzi set di dati esterni, le tabelle Spanner sono visibili direttamente in BigQuery Studio e puoi visualizzarne gli schemi.
Tuttavia, puoi visualizzare gli schemi anche senza definire set di dati esterni. Puoi
anche utilizzare la funzione EXTERNAL_QUERY per eseguire query sulle visualizzazioni information_schema
per accedere ai metadati del database. Il seguente esempio restituisce informazioni sulle
colonne della tabella MyTable:
Database Google SQL
SELECT * FROM EXTERNAL_QUERY( 'my-project.us.example-db', '''SELECT t.column_name, t.spanner_type, t.is_nullable FROM information_schema.columns AS t WHERE t.table_catalog = '' AND t.table_schema = '' AND t.table_name = 'MyTable' ORDER BY t.ordinal_position ''');
Database PostgreSQL
SELECT * from EXTERNAL_QUERY( 'my-project.us.postgresql-example-db', '''SELECT t.column_name, t.data_type, t.is_nullable FROM information_schema.columns AS t WHERE t.table_schema = 'public' AND t.table_name = 'MyTable' ORDER BY t.ordinal_position''');
Per saperne di più, consulta i seguenti riferimenti allo schema delle informazioni nella documentazione di Spanner:
Prezzi
- Per quanto riguarda BigQuery, vengono applicati i prezzi standard delle query federate.
- Sul lato Spanner, le query sono soggette ai prezzi di Spanner.
Query tra regioni
BigQuery supporta le query federate in cui le istanze Spanner e i set di dati BigQuery si trovano in regioni diverse. Queste query comportano un addebito aggiuntivo per il trasferimento dei dati di Spanner. Per ulteriori informazioni, consulta la pagina Prezzi di Spanner.
Il trasferimento dei dati ti viene addebitato in base ai seguenti SKU:
- Trasferimento di dati tra zone all'interno della regione di rete in uscita
- Traffico in uscita dalla rete tra regioni verso lo stesso continente
- Trasferimento di dati di rete tra regioni in uscita verso un continente diverso
Il trasferimento dei dati viene addebitato in base alla regione BigQuery in cui esegui la query e alla regione Spanner più vicina con repliche di lettura/scrittura o di sola lettura.
Per le configurazioni multiregionali BigQuery
(US o EU), i costi di trasferimento dei dati da Spanner sono determinati come segue:
- Regione multiregionale BigQuery
US: regione Spannerus-central1 - Regione multiregionale BigQuery
EU: regione Spannereurope-west1
Ad esempio:
- BigQuery (multi-regione
US) e Spanner (us-central1): Vengono applicati costi per il trasferimento dei dati all'interno della stessa regione. - BigQuery (
USmulti-region) e Spanner (us-west4): Vengono applicati costi per il trasferimento dei dati tra regioni all'interno dello stesso continente.
Risoluzione dei problemi
Questa sezione ti aiuta a risolvere i problemi che potresti riscontrare durante l'invio di una query federata a Spanner.
- Problema: la query non è partizionabile in base alla radice.
- Risoluzione:se configuri la connessione per leggere i dati in parallelo, il primo operatore nel piano di esecuzione della query deve essere un'unione distribuita oppure il piano di esecuzione non deve contenere unioni distribuite. Per risolvere questo errore, visualizza il piano di esecuzione della query e riscrivila. Per saperne di più, consulta la sezione Informazioni su come Spanner esegue le query.
- Problema: scadenza superata.
- Risoluzione:seleziona l'opzione per leggere i dati in parallelo e riscrivere la query in modo che sia partizionabile dalla radice. Per saperne di più, consulta la sezione Informazioni su come Spanner esegue le query.
Passaggi successivi
- Scopri di più sulla creazione di set di dati esterni Spanner
- Scopri di più sulle query federate.
- Scopri di più sul mapping dei tipi di dati da Spanner a BigQuery.