Informationen zu Lakes und Zonen

Unternehmen haben Daten, die oft auf Data Lakes, Data Warehouses und Data Marts verteilt sind. Knowledge Catalog (früher Dataplex Universal Catalog) ist eine Datenstruktur, die verteilte Daten vereinheitlicht und die Data Governance durch die Anwendung logischer Konstrukte auf verschiedene Daten-Assets vereinfacht.

Knowledge Catalog abstrahiert die zugrunde liegenden Datenspeichersysteme mithilfe der folgenden Konstrukte: Lakes, Zonen, Assets und Einträge.

Lakes

Ein Lake ist ein logisches Konstrukt, das eine Datendomain oder Geschäftseinheit repräsentiert. Wenn Sie Daten beispielsweise nach der Nutzung von Gruppen organisieren möchten, können Sie für jede Abteilung (z. B. Einzelhandel, Vertrieb, Finanzen) einen Data Lake einrichten.

Zonen

Eine Zone ist eine Subdomain innerhalb eines Data Lakes, die sich zum Kategorisieren von Daten nach folgenden Kriterien eignet:

  • Phase: z. B. Landing, Rohdaten, kuratierte Datenanalyse und kuratierte Data Science
  • Nutzung: z. B. Datenvertrag
  • Einschränkungen, z. B. Sicherheitskontrollen und Nutzerzugriffsebenen

Es gibt zwei Arten von Zonen:

  • Rohdatenzone: enthält Daten im Rohformat, die keiner strengen Typ-Prüfung unterliegen.

  • Kuratierte Zone: Enthält Daten, die bereinigt und formatiert wurden und für Analysen bereitstehen. Die Daten sind spaltenweise organisiert, mit Hive partitioniert und in Parquet-, Avro- oder ORC-Dateien oder BigQuery-Tabellen gespeichert. Die Daten werden einer Typüberprüfung unterzogen, um beispielsweise die Verwendung von CSV-Dateien zu verhindern, da sie für den SQL-Zugriff nicht so gut geeignet sind.

Assets

Ein Asset wird Daten zugeordnet, die entweder in Cloud Storage oder BigQuery gespeichert sind. Sie können Daten, die in separaten Google Cloud Projekten als Assets gespeichert sind, einer einzelnen Zone zuordnen.

Einträge

Eine Entität stellt Metadaten für strukturierte und semistrukturierte Daten (z. B. Tabelle) sowie unstrukturierte Daten (z. B. Fileset) dar.

Nächste Schritte