Questo documento descrive cosa sono le zone di Knowledge Catalog (in precedenza Dataplex Universal Catalog) e come aggiungerle al lake di Knowledge Catalog.
Panoramica
Le zone di Knowledge Catalog sono entità denominate all'interno di un lake di Knowledge Catalog. Sono raggruppamenti logici di dati non strutturati, semistrutturati e dati strutturati, costituiti da più asset, come bucket Cloud Storage, set di dati BigQuery e tabelle BigQuery.
Un lake può includere una o più zone. Anche se una zona può far parte di un solo lake, potrebbe contenere asset che rimandano a risorse che fanno parte di progetti esterni al progetto padre.
Puoi selezionare le configurazioni per una zona in Knowledge Catalog. Puoi scegliere tra due tipi di zone: non elaborate e organizzate.
Zone non elaborate
Le zone grezze archiviano dati strutturati, dati semistrutturati come file CSV e file JSON e dati non strutturati in qualsiasi formato da origini esterne. Le zone non elaborate sono utili per preparare i dati non elaborati prima di eseguire qualsiasi trasformazione. I dati possono essere archiviati in bucket Cloud Storage o set di dati BigQuery.
Le zone non elaborate supportano la granularità a livello di bucket o set di dati per le autorizzazioni di lettura e scrittura. Non esistono restrizioni sul tipo di dati che possono essere archiviati nelle zone non elaborate.
Zone organizzate
Le zone curate archiviano dati strutturati. I dati possono essere archiviati in bucket Cloud Storage o set di dati BigQuery.
I formati supportati per i bucket Cloud Storage includono Parquet, Avro e ORC. Le zone organizzate sono utili per preparare i dati che richiedono l'elaborazione prima di essere utilizzati per l'analisi o per pubblicare i dati pronti per l'analisi.
Per le tabelle BigQuery, devi avere uno schema ben definito e partizioni in stile Hive. Quando fornisci uno schema per una determinata tabella in una zona organizzata, i dati devono essere conformi allo schema definito per la tabella senza deriva dello schema. Ciò significa che i dati devono essere compatibili con lo schema definito per la tabella e le nuove partizioni non devono avere uno schema in conflitto con lo schema della tabella.
Le zone organizzate supportano la granularità a livello di bucket Cloud Storage o set di dati BigQuery per le autorizzazioni di lettura e scrittura.
Prima di iniziare
Prima di poter aggiungere zone a un lake, devi averne uno. Se non l'hai ancora fatto, crea un lake.
La maggior parte dei comandi gcloud lake richiede una località. Puoi specificare la località impostando il parametro --location.
Ruoli obbligatori
Per ottenere l'autorizzazione necessaria per aggiungere una zona, chiedi all'amministratore di concederti il ruolo IAM Amministratore Dataplex (roles/dataplex.admin) nel progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Questo ruolo predefinito contiene l'
dataplex.lakes.create
autorizzazione,
necessaria per
aggiungere una zona.
Potresti anche ottenere questa autorizzazione con ruoli personalizzati o altri ruoli predefiniti.
Aggiungi una zona
Puoi aggiungere più zone al lake. Puoi aggiungere una zona alla volta, ma continuare a utilizzare il lake durante la creazione della zona.
Per aggiungere una zona a un lake esistente:
Console
Nella Google Cloud console, vai alla pagina Lake di Knowledge Catalog.
Fai clic sul nome del lake a cui vuoi aggiungere una zona.
Nella scheda Zone, fai clic su Aggiungi zona.
Inserisci un nome visualizzato per la zona.
Fai clic sul menu Tipo. Scegli Zona non elaborata o Zona organizzata. Scopri di più sui tipi di zone supportati.
(Facoltativo) Inserisci una descrizione.
In Località dei dati, seleziona Regionale o Multiregionale. La scelta non può essere modificata in un secondo momento. Non è possibile combinare dati a livello di una singola regione e di più regioni nella stessa zona.
(Facoltativo) Attiva il rilevamento dei metadati, che consente a Knowledge Catalog di analizzare ed estrarre automaticamente i metadati dai dati nella zona:
Fai clic su Impostazioni di rilevamento.
Assicurati che l'opzione Attiva rilevamento metadati sia selezionata.
(Facoltativo) In Includi pattern, elenca i file da includere nelle analisi di rilevamento.
(Facoltativo) In Escludi pattern, elenca i file da escludere nelle analisi di rilevamento. Se inserisci sia i pattern di inclusione sia quelli di esclusione, questi ultimi vengono applicati per primi.
Fai clic sul menu Ripetizioni e seleziona una frequenza. Se selezioni Personalizzata, nel campo Pianificazione, inserisci una pianificazione dei job. In caso contrario, il valore Pianificazione viene compilato automaticamente.
Fai clic sul menu Fuso orario e seleziona un fuso orario.
Fai clic su Crea.
REST
Per aggiungere una zona, utilizza il lakes.zones.create.
La creazione della zona potrebbe richiedere alcuni minuti.
Se la creazione della zona va a buon fine, la zona passa automaticamente allo stato attivo. In caso contrario, il lake viene ripristinato allo stato precedente.
Dopo aver creato la zona, puoi mappare i dati archiviati nei bucket Cloud Storage e nei set di dati BigQuery come asset nella zona. Per maggiori informazioni, vedi Aggiungere un asset.
Passaggi successivi
- Scopri come gestire i bucket.
- Scopri come creare un lake.
- Scopri di più sugli audit log di Cloud.