Le aziende hanno dati spesso distribuiti in data lake, data warehouse e data mart. Knowledge Catalog (in precedenza Dataplex Universal Catalog) è un data fabric che unifica i dati distribuiti e semplifica la governance dei dati applicando costrutti logici a diversi asset di dati.
Knowledge Catalog astrae i sistemi di archiviazione dei dati sottostanti utilizzando i seguenti costrutti: lake, zone, asset e voci.
Lake
Un lake è un costrutto logico che rappresenta un dominio di dati o un'unità aziendale. Ad esempio, per organizzare i dati in base all'utilizzo del gruppo, puoi configurare un lake per ogni reparto (ad esempio, vendita al dettaglio, vendite, finanza).
Zone
Una zona è un sottodominio all'interno di un lake, utile per classificare i dati in base a quanto segue:
- Fase: ad esempio, dati di destinazione, non elaborati, analisi dati curata e data science curata
- Utilizzo: ad esempio, contratto di dati
- Limitazioni: ad esempio, controlli di sicurezza e livelli di accesso degli utenti
Esistono due tipi di zone:
Zona grezza: contiene dati nel formato grezzo e non è soggetta a un rigoroso controllo del tipo.
Zona curata: contiene dati puliti, formattati e pronti per l'analisi. I dati sono in formato colonnare, partizionati in Hive e archiviati in file Parquet, Avro, Orc o tabelle BigQuery. I dati vengono sottoposti a controllo del tipo, ad esempio per vietare l'utilizzo di file CSV perché non funzionano altrettanto bene per l'accesso SQL.
Asset
Un asset viene mappato ai dati archiviati in Cloud Storage o BigQuery. Puoi mappare i dati archiviati in progetti Google Cloud separati come asset in una singola zona.
Voci
Un'entità rappresenta i metadati per i dati strutturati e semistrutturati (ad esempio, una tabella) e i dati non strutturati (ad esempio, un insieme di file).
Passaggi successivi
- Organizza i tuoi dati in lake e zone.
- Proteggi il tuo lake.
- Visualizza i metadati rilevati utilizzando la console Google Cloud .
- Visualizza i metadati rilevati utilizzando l'API.