Informazioni su lake e zone

Le aziende hanno dati spesso distribuiti in data lake, data warehouse e data mart. Knowledge Catalog (in precedenza Dataplex Universal Catalog) è un data fabric che unifica i dati distribuiti e semplifica la governance dei dati applicando costrutti logici a diversi asset di dati.

Knowledge Catalog astrae i sistemi di archiviazione dei dati sottostanti utilizzando i seguenti costrutti: lake, zone, asset e voci.

Lake

Un lake è un costrutto logico che rappresenta un dominio di dati o un'unità aziendale. Ad esempio, per organizzare i dati in base all'utilizzo del gruppo, puoi configurare un lake per ogni reparto (ad esempio, vendita al dettaglio, vendite, finanza).

Zone

Una zona è un sottodominio all'interno di un lake, utile per classificare i dati in base a quanto segue:

  • Fase: ad esempio, dati di destinazione, non elaborati, analisi dati curata e data science curata
  • Utilizzo: ad esempio, contratto di dati
  • Limitazioni: ad esempio, controlli di sicurezza e livelli di accesso degli utenti

Esistono due tipi di zone:

  • Zona grezza: contiene dati nel formato grezzo e non è soggetta a un rigoroso controllo del tipo.

  • Zona curata: contiene dati puliti, formattati e pronti per l'analisi. I dati sono in formato colonnare, partizionati in Hive e archiviati in file Parquet, Avro, Orc o tabelle BigQuery. I dati vengono sottoposti a controllo del tipo, ad esempio per vietare l'utilizzo di file CSV perché non funzionano altrettanto bene per l'accesso SQL.

Asset

Un asset viene mappato ai dati archiviati in Cloud Storage o BigQuery. Puoi mappare i dati archiviati in progetti Google Cloud separati come asset in una singola zona.

Voci

Un'entità rappresenta i metadati per i dati strutturati e semistrutturati (ad esempio, una tabella) e i dati non strutturati (ad esempio, un insieme di file).

Passaggi successivi