Proteggi il tuo lake

Questo documento descrive come proteggere e gestire l'accesso ai lake Dataplex Universal Catalog.

Il modello di sicurezza di Dataplex Universal Catalog consente di gestire le autorizzazioni utente per le seguenti attività:

  • Amministrazione di un lake (creazione e collegamento di asset, zone e lake aggiuntivi)
  • Accesso ai dati collegati a un lake tramite l'asset di mapping (ad esempio, Google Cloud risorse come bucket Cloud Storage e set di dati BigQuery)
  • Accesso ai metadati relativi ai dati collegati a un lake

Un amministratore di un lake controlla l'accesso alle risorse Dataplex Universal Catalog, come lake, zone e asset, concedendo i ruoli di base e predefiniti.

Ruoli predefiniti

Google Cloud gestisce i ruoli predefiniti che forniscono un accesso granulare per Dataplex Universal Catalog.

Ruoli Dataplex Universal Catalog

Ruolo Descrizione
Dataplex Viewer
(roles/dataplex.viewer)
Possibilità di visualizzare (ma non modificare) il lake e le relative zone e asset configurati.
Dataplex Editor
(roles/dataplex.editor)
Possibilità di modificare il lake. Può creare e configurare lake, zone, asset, e attività.
Dataplex Administrator
(roles/dataplex.administrator)
Possibilità di amministrare completamente un lake.
Dataplex Developer
(roles/dataplex.developer)
Possibilità di eseguire workload di analisi dei dati su un lake. Ciò include la creazione e la configurazione di contenuti e attività e l'esecuzione di codice negli ambienti configurati. Questo ruolo non concede le autorizzazioni per creare tabelle BigQuery o eseguire job Spark. *
* Per eseguire una query su una tabella BigQuery, devi disporre dell'autorizzazione per eseguire un job BigQuery. Imposta questa autorizzazione nel progetto a cui vuoi attribuire o addebitare la spesa di calcolo del job. Per saperne di più, consulta Ruoli e autorizzazioni IAM di BigQuery.
Per eseguire un job Spark, crea cluster Managed Service for Apache Spark e invia job Managed Service for Apache Spark nel progetto a cui vuoi attribuire il calcolo.

Ruoli dei metadati

I ruoli dei metadati hanno la possibilità di visualizzare i metadati, ad esempio gli schemi delle tabelle.

Ruolo Descrizione
Dataplex Metadata Writer
(roles/dataplex.metadataWriter)
Possibilità di aggiornare i metadati di una determinata risorsa.
Dataplex Metadata Reader
(roles/dataplex.metadataReader)
Possibilità di leggere i metadati (ad esempio, per eseguire una query su una tabella).

Ruoli dei dati

La concessione di ruoli dei dati a un'entità consente di leggere o scrivere dati nelle risorse sottostanti a cui fanno riferimento gli asset del lake.

Dataplex Universal Catalog mappa i suoi ruoli ai ruoli dei dati per ogni risorsa di archiviazione sottostante, come Cloud Storage e BigQuery.

Dataplex Universal Catalog traduce e propaga i ruoli dei dati di Dataplex Universal Catalog alla risorsa di archiviazione sottostante, impostando i ruoli corretti per ogni risorsa di archiviazione. Puoi concedere un singolo ruolo dei dati di Dataplex Universal Catalog nella gerarchia del lake (ad esempio, un lake) e Dataplex Universal Catalog mantiene l'accesso specificato ai dati su tutte le risorse collegate a quel lake (ad esempio, i bucket Cloud Storage e i set di dati BigQuery a cui fanno riferimento gli asset nelle zone sottostanti).

Ad esempio, la concessione a un'entità del ruolo dataplex.dataWriter per un lake consente all'entità di accedere in scrittura a tutti i dati all'interno del lake, delle relative zone e degli asset sottostanti. I ruoli di accesso ai dati concessi a un livello inferiore (zona) vengono ereditati nella gerarchia del lake dagli asset sottostanti.

Ruolo Descrizione
Dataplex Data Reader
(roles/dataplex.dataReader)
Possibilità di leggere i dati dallo spazio di archiviazione collegato agli asset, inclusi i bucket di archiviazione e i set di dati BigQuery (e i relativi contenuti). *
Dataplex Data Writer
(roles/dataplex.dataWriter)
Possibilità di scrivere nelle risorse sottostanti a cui fa riferimento l'asset. *
Dataplex Data Owner
(roles/dataplex.dataOwner)
Concede il ruolo Proprietario alle risorse sottostanti, inclusa la possibilità di gestire le risorse figlio. Ad esempio, in qualità di proprietario dei dati di un set di dati BigQuery, puoi gestire le tabelle sottostanti.

Proteggi il tuo lake

Puoi proteggere e gestire l'accesso al tuo lake e ai dati collegati. Nella console, utilizza una delle seguenti visualizzazioni: Google Cloud

  • La visualizzazione Gestisci di Dataplex Universal Catalog nella scheda Autorizzazioni
  • La visualizzazione Proteggi di Dataplex Universal Catalog

Utilizzare la visualizzazione Gestisci

La scheda Autorizzazioni consente di gestire tutte le autorizzazioni per una risorsa lake e presenta una visualizzazione non filtrata di tutte le autorizzazioni, incluse quelle ereditate.

Per proteggere il tuo lake:

  1. Nella Google Cloud console, vai alla pagina Lake di Dataplex Universal Catalog.

    Vai a Lake

  2. Fai clic sul nome del lake che hai creato.

  3. Fai clic sulla scheda Autorizzazioni.

  4. Fai clic sulla scheda Visualizza per ruoli.

  5. Fai clic su Aggiungi per aggiungere un nuovo ruolo. Aggiungi i ruoli Dataplex Data Reader, Data Writer e Data Owner.

  6. Verifica che vengano visualizzati i ruoli Dataplex Data Reader, Data Writer e Data Owner.

Utilizzare la visualizzazione Proteggi

La visualizzazione Proteggi di Dataplex Universal Catalog nella Google Cloud console fornisce quanto segue:

  • Una visualizzazione filtrabile solo dei ruoli Dataplex Universal Catalog incentrati su una risorsa specifica
  • Ruoli dei dati separati dai ruoli delle risorse lake
Esempio di autorizzazioni dei dati non ereditate da risorse del lake di livello superiore
Figura 1: in questo esempio di un lake, entrambe le entità dispongono delle autorizzazioni per i dati sull'asset denominato Dati Cloud Storage (dati GCS). Queste autorizzazioni non vengono ereditate dalle risorse lake di livello superiore.


Esempio di autorizzazioni non ereditate da risorse del lago di livello superiore
Figura 2: questo esempio mostra:
  1. Un account di servizio che eredita il ruolo di amministratore Dataplex dal progetto.
  2. Entità (indirizzo email) che ereditano i ruoli di editor e visualizzatore Dataplex ruoli dal progetto. Questi sono i ruoli che si applicano a tutte le risorse.
  3. Un'entità (indirizzo email) che eredita il ruolo di amministratore Dataplex dal progetto.

Gestione dei criteri

Dopo aver specificato i criteri di sicurezza, Dataplex Universal Catalog propaga le autorizzazioni ai criteri IAM delle risorse gestite.

I criteri di sicurezza configurati a livello di lake vengono propagati a tutte le risorse gestite all'interno di quel lake. Dataplex Universal Catalog fornisce lo stato di propagazione e la visibilità di queste propagazioni su larga scala nella scheda Gestisci > Autorizzazioni di Dataplex Universal Catalog. Monitora continuamente le risorse gestite per rilevare eventuali modifiche ai criteri IAM al di fuori di Dataplex Universal Catalog.

Gli utenti che hanno già le autorizzazioni per una risorsa continuano a mantenerle dopo che una risorsa viene collegata a un lake Dataplex Universal Catalog. Allo stesso modo, le associazioni di ruoli non Dataplex Universal Catalog create o aggiornate dopo il collegamento della risorsa a Dataplex Universal Catalog rimangono invariate.

Impostare i criteri a livello di colonna, riga e tabella

Gli asset dei bucket Cloud Storage hanno tabelle esterne BigQuery associate.

Puoi eseguire l'upgrade di un asset del bucket Cloud Storage, il che significa che Dataplex Universal Catalog rimuove le tabelle esterne collegate e collega invece le tabelle BigLake.

Puoi utilizzare le tabelle BigLake anziché le tabelle esterne per ottenere un controllo dell'accesso granulare, inclusi i controlli a livello di riga, i controlli a livello di colonna, e la maschera dei dati delle colonne.

Sicurezza dei metadati

I metadati si riferiscono principalmente alle informazioni sullo schema associate ai dati utente presenti nelle risorse gestite da un lake.

Dataplex Universal Catalog Discovery esamina i dati nelle risorse gestite ed estrae le informazioni sullo schema tabulare. Queste tabelle vengono pubblicate nei sistemi BigQuery, Dataproc Metastore e Data Catalog (deprecato).

BigQuery

Ogni tabella rilevata ha una tabella associata registrata in BigQuery. Per ogni zona, esiste un set di dati BigQuery associato in cui sono registrate tutte le tabelle esterne associate alle tabelle rilevate in quella zona di dati.

Le tabelle ospitate in Cloud Storage rilevate vengono registrate nel set di dati creato per la zona.

Dataproc Metastore

I database e le tabelle vengono resi disponibili in Dataproc Metastore associato all'istanza del lake Dataplex Universal Catalog. Ogni zona di dati ha un database associato e ogni asset può avere una o più tabelle associate.

I dati in un servizio Dataproc Metastore sono protetti configurando la rete VPC-SC. L'istanza Dataproc Metastore viene fornita a Dataplex Universal Catalog durante la creazione del lake, il che la rende già una risorsa gestita dall'utente.

Data Catalog

Ogni tabella rilevata ha una voce associata in Data Catalog (deprecato) per consentire la ricerca e la scoperta.

Data Catalog richiede i nomi dei criteri IAM durante la creazione delle voci. Pertanto, Dataplex Universal Catalog fornisce il nome del criterio IAM della risorsa asset Dataplex Universal Catalog a cui deve essere associata la voce. Di conseguenza, le autorizzazioni per la voce Dataplex Universal Catalog sono determinate dalle autorizzazioni per la risorsa asset. Concedi il ruolo Dataplex Metadata Reader (roles/dataplex.metadataReader) e il ruolo Dataplex Metadata Writer (roles/dataplex.metadataWriter) sulla risorsa asset.

Passaggi successivi