Unternehmen haben Daten, die oft auf Data Lakes, Data Warehouses und Data Marts verteilt sind. Knowledge Catalog (früher Dataplex Universal Catalog) ist eine Datenstruktur, die verteilte Daten vereinheitlicht und die Data Governance durch die Anwendung logischer Konstrukte auf verschiedene Daten-Assets vereinfacht.
Knowledge Catalog abstrahiert die zugrunde liegenden Datenspeichersysteme mithilfe der folgenden Konstrukte: Lakes, Zonen, Assets und Einträge.
Lakes
Ein Lake ist ein logisches Konstrukt, das eine Datendomain oder Geschäftseinheit repräsentiert. Wenn Sie Daten beispielsweise nach der Nutzung von Gruppen organisieren möchten, können Sie für jede Abteilung (z. B. Einzelhandel, Vertrieb, Finanzen) einen Data Lake einrichten.
Zonen
Eine Zone ist eine Subdomain innerhalb eines Data Lakes, die sich zum Kategorisieren von Daten nach folgenden Kriterien eignet:
- Phase: z. B. Landing, Rohdaten, kuratierte Datenanalyse und kuratierte Data Science
- Nutzung: z. B. Datenvertrag
- Einschränkungen, z. B. Sicherheitskontrollen und Nutzerzugriffsebenen
Es gibt zwei Arten von Zonen:
Rohdatenzone: enthält Daten im Rohformat, die keiner strengen Typ-Prüfung unterliegen.
Kuratierte Zone: Enthält Daten, die bereinigt und formatiert wurden und für Analysen bereitstehen. Die Daten sind spaltenweise organisiert, mit Hive partitioniert und in Parquet-, Avro- oder ORC-Dateien oder BigQuery-Tabellen gespeichert. Die Daten werden einer Typüberprüfung unterzogen, um beispielsweise die Verwendung von CSV-Dateien zu verhindern, da sie für den SQL-Zugriff nicht so gut geeignet sind.
Assets
Ein Asset wird Daten zugeordnet, die entweder in Cloud Storage oder BigQuery gespeichert sind. Sie können Daten, die in separaten Google Cloud Projekten als Assets gespeichert sind, einer einzelnen Zone zuordnen.
Einträge
Eine Entität stellt Metadaten für strukturierte und semistrukturierte Daten (z. B. Tabelle) sowie unstrukturierte Daten (z. B. Fileset) dar.
Nächste Schritte
- Organisieren Sie Ihre Daten in Lakes und Zonen.
- Lake schützen
- Ermittelte Metadaten mit der Google Cloud Console ansehen
- Ermittelte Metadaten mit der API ansehen