Gestisci gli asset di dati in un lake

Questa pagina spiega come aggiungere, eseguire l'upgrade e rimuovere bucket Cloud Storage e set di dati BigQuery come asset nelle zone di Knowledge Catalog (in precedenza Dataplex Universal Catalog) esistenti.

Panoramica

Un asset esegue il mapping ai dati archiviati in Cloud Storage o BigQuery. Puoi mappare i dati archiviati in progetti separati Google Cloud come asset in una singola zona all'interno di un lake. Puoi collegare i bucket Cloud Storage o i set di dati BigQuery esistenti per gestirli dall'interno del lake.

Prima di iniziare

  • Se non l'hai ancora fatto, crea un lake e una zona in quel lake.

  • La maggior parte dei comandi gcloud lakes richiede una località. Puoi specificare la località utilizzando il flag --location.

Ruoli e autorizzazioni richiesti

Per gestire gli asset in Knowledge Catalog, gli utenti devono disporre delle autorizzazioni per eseguire azioni di gestione e il account di servizio Knowledge Catalog deve avere accesso alle risorse sottostanti.

Per aggiungere o rimuovere asset, agli utenti devono essere concessi ruoli IAM che contengono le autorizzazioni necessarie (ad esempio dataplex.assets.create e dataplex.assets.delete). I ruoli predefiniti Amministratore Dataplex (roles/dataplex.admin) e Editor Dataplex (roles/dataplex.editor) o i ruoli legacy Proprietario (roles/owner) ed Editor (roles/editor) includono queste autorizzazioni.

Quando colleghi una risorsa (bucket Cloud Storage o set di dati BigQuery) a un lake, Knowledge Catalog utilizza il suo service account per interagire con la risorsa.

  • Se la risorsa si trova nello stesso progetto del lake, le autorizzazioni vengono concesse implicitamente al account di servizio.
  • Se la risorsa si trova in un progetto diverso dal lake, devi concedere esplicitamente al account di servizio le autorizzazioni per accedere alla risorsa, come descritto nelle sezioni seguenti.

Per ulteriori informazioni, consulta IAM e controllo dell'accesso di Knowledge Catalog.

Concedere ruoli per i bucket Cloud Storage

Per collegare un bucket Cloud Storage da un altro progetto, concedi le autorizzazioni al service account Knowledge Catalog (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) in uno dei seguenti modi:

  • Autorizzazioni a livello di progetto: concedi il ruolo roles/dataplex.serviceAgent al account di servizio nel progetto che contiene il bucket. In questo modo, Knowledge Catalog dispone delle autorizzazioni di amministratore su tutti i bucket del progetto, il che gli consente di gestire le autorizzazioni sui bucket collegati.

  • Autorizzazioni a livello di bucket: per un controllo più granulare, utilizza il gcloud dataplex lakes authorize comando per concedere al account di servizio le autorizzazioni necessarie solo su un bucket specifico.

Concedere ruoli per i set di dati BigQuery

Per collegare un set di dati BigQuery da un altro progetto, concedi al service account Knowledge Catalog il ruolo Amministratore BigQuery (roles/bigquery.admin) sul set di dati.

Considerazioni sui Controlli di servizio VPC

Knowledge Catalog non viola i perimetri dei Controlli di servizio VPC. Prima di aggiungere un asset al lake, assicurati che il bucket o il set di dati sottostante si trovi nella stessa rete dei Controlli di servizio VPC del lake.

Per ulteriori informazioni, consulta Controlli di servizio VPC con Knowledge Catalog.

Aggiungere un asset

Se non esiste una sovrapposizione tra la regione del lake Knowledge Catalog e una delle regioni dei bucket Cloud Storage, non puoi aggiungere il bucket a una zona del lake.

Per scoprire di più sulla località della regione di un asset Cloud Storage e su come Knowledge Catalog gestisce la località di un bucket durante la creazione del set di dati di pubblicazione, consulta Risorse regionali.

Per aggiungere un asset:

Console

  1. Nella Google Cloud console, vai alla pagina Lake di Knowledge Catalog.

    Vai a Lake

  2. Fai clic sul lake a cui vuoi aggiungere un bucket Cloud Storage o un set di dati BigQuery. Si apre la pagina del lake.

  3. Nella scheda Zone, fai clic sul nome della zona dati a cui vuoi aggiungere l'asset. Si apre la pagina Zona dati per la zona dati.

  4. Nella scheda Asset, fai clic su + Aggiungi asset. Si apre la pagina Aggiungi asset.

  5. Fai clic su Aggiungi un asset.

  6. Nel campo Tipo, seleziona Set di dati BigQuery o Bucket Cloud Storage.

  7. Nel campo Nome visualizzato, inserisci un nome per il nuovo asset.

  8. Nel campo ID, inserisci un ID univoco per l'asset.

  9. (Facoltativo) Inserisci una Descrizione.

  10. Nel campo Set di dati o Bucket (a seconda del tipo di asset), fai clic su Sfoglia per trovare e selezionare il bucket Cloud Storage o il set di dati BigQuery.

  11. (Facoltativo) Se il tipo di asset è Bucket Cloud Storage e vuoi che Knowledge Catalog gestisca l'asset, seleziona la casella di controllo Esegui l'upgrade a Gestito. Se scegli questa opzione, non devi eseguire l'upgrade dell'asset separatamente. Questa opzione non è disponibile per i set di dati BigQuery.

  12. Fai clic su Continua.

  13. Scegli gli altri valori dei parametri. Per ulteriori informazioni sulle impostazioni di sicurezza, consulta Sicurezza del lake.

  14. Fai clic su Invia.

  15. Verifica di essere tornato alla pagina della zona dati e che il nuovo asset venga visualizzato nell'elenco degli asset.

REST

Per aggiungere un asset, utilizza il lakes.zones.assets.create.

Se l'aggiunta va a buon fine, la zona dati passa automaticamente allo stato attivo. In caso contrario, la zona dati viene ripristinata allo stato integro precedente.

Eseguire l'upgrade di un asset bucket Cloud Storage

Quando aggiungi un asset di tipo bucket Cloud Storage, Knowledge Catalog pubblica automaticamente le tabelle esterne BigQuery tabelle esterne per le tabelle ospitate nell' asset.

Quando esegui l'upgrade di un asset bucket Cloud Storage, Knowledge Catalog rimuove le tabelle esterne collegate e crea tabelle BigLake. Le tabelle BigLake supportano una sicurezza più granulare, tra cui il mascheramento dinamico dei dati a livello di riga, colonna e.

Per eseguire l'upgrade di un asset bucket Cloud Storage:

Console

  1. Nella Google Cloud console, vai alla pagina Lake di Knowledge Catalog.

    Vai a Lake

  2. Fai clic sul nome del lake. Si apre la pagina del lake.

  3. Nella scheda Zone, fai clic sul nome della zona dati. Si apre la pagina della zona dati.

  4. Nella scheda Asset, fai clic sul nome dell'asset di cui vuoi eseguire l'upgrade.

  5. Fai clic su Esegui l'upgrade a Gestito.

REST

Per eseguire l'upgrade di un asset bucket, utilizza il lakes.zones.assets.patch.

Eseguire il downgrade di un asset bucket Cloud Storage

Quando esegui il downgrade di un asset bucket Cloud Storage, Knowledge Catalog rimuove le tabelle BigLake collegate e crea tabelle esterne.

Console

  1. Nella Google Cloud console, vai alla pagina Lake di Knowledge Catalog.

    Vai a Lake

  2. Fai clic sul nome del lake. Si apre la pagina del lake.

  3. Nella scheda Zone, fai clic sul nome della zona dati. Si apre la pagina della zona dati.

  4. Nella scheda Asset, fai clic sul nome dell'asset di cui vuoi eseguire l'upgrade.

  5. Fai clic su Esegui il downgrade da Gestito.

REST

Per eseguire il downgrade di un asset bucket, utilizza il lakes.zones.assets.patch. Assicurati di impostare il readAccessMode campo su DIRECT in ResourceSpec.

Rimuovere un asset

Rimuovi l'asset dalla zona dati o dal lake prima di collegarlo a un altro.

Per rimuovere un asset:

Console

  1. Nella Google Cloud console, vai alla pagina Lake di Knowledge Catalog.

    Vai a Lake

  2. Fai clic sul lake da cui vuoi rimuovere un bucket Cloud Storage o un set di dati BigQuery. Si apre la pagina del lake.

  3. Nella scheda Zone, fai clic sul nome della zona dati da cui vuoi rimuovere il bucket Cloud Storage o il set di dati BigQuery. Si apre la pagina Zona dati per la zona dati.

  4. Nella scheda Asset, seleziona l'asset selezionando la casella a sinistra del nome dell'asset.

  5. Fai clic su Elimina asset.

  6. Nella finestra di dialogo di conferma, fai clic su Elimina.

REST

Per rimuovere un bucket, utilizza il metodo lakes.zones,assets.delete.

Passaggi successivi