Introduzione alla governance dei dati in BigQuery
BigQuery include funzionalità di governance integrate che semplificano la scoperta, la gestione, il monitoraggio, la regolamentazione e l'utilizzo dei dati e degli asset di AI.
Amministratori, responsabili dei dati, responsabili della governance dei dati e custodi dei dati possono utilizzare le funzionalità di governance in BigQuery per:
- Scoprire i dati.
- Selezionare i dati.
- Raccogliere e arricchire i metadati.
- Gestire la qualità dei dati.
- Assicurarsi che i dati vengano utilizzati in modo coerente e in conformità con le norme aziendali.
- Condividere i dati su larga scala e in modo sicuro.
Le funzionalità di governance di BigQuery sono basate su Knowledge Catalog, un inventario centralizzato di tutti gli asset di dati della tua organizzazione. Knowledge Catalog contiene metadati aziendali, tecnici e operativi per tutti i tuoi dati. Ti aiuta a scoprire le relazioni e la semantica nei metadati applicando l'intelligenza artificiale e il machine learning.
Il catalogo di runtime di Lakehouse ti consente di utilizzare più motori di elaborazione dei dati per eseguire query su una singola copia dei dati con un singolo schema, senza duplicazione dei dati. I motori di elaborazione dei dati che puoi utilizzare includono BigQuery, Apache Spark, Apache Flink e Apache Hive. I dati possono essere archiviati in località come le tabelle di archiviazione di BigQuery, le tabelle Apache Iceberg gestite in BigQuery o le tabelle esterne BigLake.
BigQuery supporta un ciclo di vita dei dati end-to-end, dalla scoperta all'utilizzo dei dati. Le funzionalità di governance sono disponibili anche in Knowledge Catalog.
Rilevamento dati
BigQuery rileva i dati in tutta l'organizzazione in Google Cloud, indipendentemente dal fatto che si trovino in BigQuery, Spanner, Cloud SQL, Pub/Sub o Cloud Storage. I metadati vengono estratti e archiviati automaticamente in Knowledge Catalog. Ad esempio, puoi estrarre i metadati per i dati strutturati e non strutturati da Cloud Storage e creare automaticamente tabelle BigLake pronte per le query su larga scala. In questo modo, puoi eseguire analisi con un motore open source senza duplicazione dei dati.
Puoi anche estrarre e catalogare i metadati da origini dati di terze parti utilizzando connettori personalizzati.
BigQuery offre le seguenti funzionalità di rilevamento dei dati:
- Ricerca. Cerca risorse di dati e AI tra progetti e organizzazioni. All'interno di BigQuery nella Google Cloud console, utilizza la ricerca semantica (anteprima) per cercare le risorse utilizzando il linguaggio di tutti i giorni. In alternativa, puoi trovare le risorse utilizzando la ricerca per parole chiave in Knowledge Catalog.
- Rilevamento automatico dei dati di Cloud Storage. Scansiona i dati nei bucket Cloud Storage per estrarre e quindi catalogare i metadati. Il rilevamento automatico crea tabelle per i dati strutturati e non strutturati.
- Importazione dei metadati. Importa i metadati su larga scala da sistemi di terze parti in Knowledge Catalog. Puoi creare connettori personalizzati per estrarre i dati dalle tue origini dati, quindi eseguire pipeline di connettività gestite che orchestrano il flusso di lavoro di importazione dei metadati.
- Esportazione dei metadati. Esporta i metadati su larga scala da Knowledge Catalog. Puoi analizzare i metadati esportati con BigQuery o integrarli in applicazioni personalizzate o flussi di lavoro di elaborazione programmatica.
Selezione e gestione dei dati
Per migliorare la rilevabilità e l'usabilità dei dati, i responsabili dei dati e gli amministratori possono utilizzare BigQuery per esaminare, aggiornare e analizzare i metadati. Le funzionalità di selezione e gestione dei dati di BigQuery ti aiutano a garantire che i dati siano accurati, coerenti e in linea con le norme della tua organizzazione.
BigQuery offre le seguenti funzionalità di selezione e gestione dei dati:
- Glossario aziendale. Migliora il contesto, la collaborazione e la ricerca definendo la terminologia della tua organizzazione in un glossario. Identifica i responsabili dei dati per i termini e associa i termini ai campi degli asset di dati.
- Insight sui dati. Gemini utilizza i metadati per generare domande in linguaggio naturale sulla tabella e le query SQL per rispondere. Questi insight sui dati ti aiutano a scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche.
- Profilazione dei dati. Identifica le caratteristiche statistiche comuni delle colonne nelle tabelle BigQuery per comprendere e analizzare i dati in modo più efficace.
- Qualità dei dati. Definisci ed esegui controlli di qualità dei dati nelle tabelle in BigQuery e Cloud Storage e applica controlli dei dati regolari e continui negli ambienti BigQuery.
- Derivazione dei dati. Monitora il modo in cui i dati vengono trasferiti nei sistemi: da dove provengono, dove vengono inviati e a quali trasformazioni sono sottoposti. BigQuery supporta la derivazione dei dati a livello di tabella e colonna.
Passaggi successivi per la selezione e la gestione dei dati
La seguente tabella descrive i passaggi successivi che puoi intraprendere per scoprire di più sulle funzionalità di selezione e gestione dei dati:
| Livello di esperienza | Percorso di apprendimento |
|---|---|
| Nuovi utenti cloud |
|
| Utenti cloud esperti |
|
Sicurezza e controllo dell'accesso
La gestione dell'accesso ai dati è il processo di definizione, applicazione e monitoraggio delle regole e delle norme che regolano chi ha accesso ai dati. La gestione dell'accesso garantisce che i dati siano accessibili solo a chi è autorizzato ad accedervi.
BigQuery offre le seguenti funzionalità di sicurezza e controllo dell'accesso:
- Identity and Access Management (IAM). IAM ti consente di controllare chi ha accesso alle tue risorse BigQuery, come progetti, set di dati, tabelle e viste. Puoi concedere ruoli IAM a utenti, gruppi e service account. Questi ruoli definiscono cosa possono fare con le tue risorse.
- Controlli dell'accesso a livello di colonna e controlli dell'accesso a livello di riga. I controlli dell'accesso a livello di colonna e riga ti consentono di limitare l'accesso a colonne e righe specifiche di una tabella, in base agli attributi utente o ai valori dei dati. Questo controllo ti consente di implementare un accesso granulare per proteggere i dati sensibili da accessi non autorizzati.
- Gestione dei trasferimenti di dati. I Controlli di servizio VPC ti consentono di creare perimetri intorno alle Google Cloud risorse e controllare l'accesso a queste risorse in base alle norme della tua organizzazione.
- Audit log. I log di controllo forniscono una registrazione dettagliata dell'attività utente e degli eventi di sistema nella tua organizzazione. Questi log ti aiutano ad applicare le norme di governance dei dati e a identificare potenziali rischi per la sicurezza.
- Mascheramento dei dati. Il mascheramento dei dati ti consente di oscurare i dati sensibili in una tabella, consentendo comunque agli utenti autorizzati di accedere ai dati circostanti. Il mascheramento dei dati può anche oscurare i dati che corrispondono a pattern di dati sensibili, proteggendo dalla divulgazione accidentale dei dati.
- Crittografia. BigQuery cripta automaticamente tutti i dati at-rest e in transito, consentendoti di personalizzare le impostazioni di crittografia in base alle tue esigenze specifiche.
Passaggi successivi per la sicurezza e il controllo dell'accesso
La seguente tabella descrive i passaggi successivi che puoi intraprendere per scoprire di più sulle funzionalità di controllo dell'accesso:
| Livello di esperienza | Percorso di apprendimento |
|---|---|
| Nuovi utenti cloud |
|
| Utenti cloud esperti |
|
Dati e insight condivisi
BigQuery ti consente di condividere dati e insight su larga scala all'interno e tra i confini organizzativi. Dispone di un framework di sicurezza e privacy solido tramite una piattaforma di scambio di dati integrata. Utilizzando BigQuery sharing, puoi scoprire, accedere e utilizzare una raccolta di dati selezionati da un'ampia gamma di fornitori di dati.
BigQuery offre le seguenti funzionalità di condivisione:
- Condividi più dati. Puoi condividere un'ampia gamma di asset di dati e AI, come set di dati BigQuery, tabelle, viste, flussi in tempo reale con argomenti Pub/Sub, stored procedure SQL e modelli BigQuery ML.
- Accedi ai set di dati di Google. Aumenta le tue iniziative di analisi e ML con i set di dati di Google da Ricerca Google Trends, modelli DeepMind WeatherNext, Google Maps Platform, Google Earth Engine e altro ancora.
- Integra con i principi di governance dei dati. I proprietari dei dati mantengono il controllo sui propri dati e hanno la possibilità di definire e configurare regole o norme per limitare l'accesso e l'utilizzo.
- Condivisione dei dati in tempo reale e senza copia. I dati vengono condivisi in loco senza necessità di integrazione, spostamento o replica dei dati, garantendo che l'analisi si basi sulle informazioni più recenti. I set di dati collegati creati sono un puntatore live all'asset condiviso.
- Migliora il livello di sicurezza. Puoi utilizzare i controlli dell'accesso per ridurre l'accesso con provisioning eccessivo, incluso il supporto integrato per i Controlli di servizio VPC.
- Aumenta la visibilità con le metriche di utilizzo del fornitore. I publisher di dati possono visualizzare e monitorare l'utilizzo degli asset condivisi, ad esempio il numero di job eseguiti, il totale dei byte scansionati e gli abbonati per ogni organizzazione.
- Collabora su dati sensibili con le data clean room. Le data clean room forniscono un ambiente con sicurezza avanzata in cui più parti possono condividere, unire e analizzare i propri asset di dati senza spostare o rivelare i dati sottostanti.
- Basato su BigQuery. Puoi sfruttare le funzionalità di scalabilità ed elaborazione su larga scala di BigQuery, consentendo collaborazioni su larga scala.
Passaggi successivi per la condivisione
La seguente tabella descrive i passaggi successivi che puoi intraprendere per scoprire di più sulle funzionalità di condivisione:
| Livello di esperienza | Percorso di apprendimento |
|---|---|
| Nuovi utenti cloud | |
| Utenti cloud esperti |
|
Passaggi successivi
- Scopri di più sull' autenticazione su Google.
- Scopri di più sull'eliminazione dei dati su Google Cloud.
- Scopri di più sulle best practice di IAM.
- Scopri la gerarchia delle risorse su Google Cloud.
- Scopri di più su IAM su Google Cloud.