Mit Dataplex Universal Catalog können Sie eine Data-Mesh-Architektur erstellen. In dieser Kurzanleitung erfahren Sie, wie Sie mit Dataplex Universal Catalog-Funktionen wie Lakes, Zonen und Assets ein Data Mesh erstellen.
Ein Data Mesh ist ein organisatorischer und technischer Ansatz, der die Inhaberschaft von Daten dezentralisiert und auf die Domain-Dateninhaber verteilt. Diese Eigentümer stellen die Daten als Produkt auf standardisierte Weise zur Verfügung und erleichtern die Kommunikation zwischen verschiedenen Teilen des Unternehmens, um Datasets über verschiedene Standorte hinweg zu verteilen. Weitere Informationen zu Data Mesh-Architekturen
Domain erstellen
Rufen Sie in der Google Cloud Console die Seite „Dataplex Universal Catalog“ → Lakes auf.
Klicken Sie auf Erstellen, um einen neuen Lake zu erstellen, der als Data Mesh dient.
Geben Sie im Feld Anzeigename den Wert
My data mesh
ein.Wählen Sie bei Region die Option
us-central1
aus.Wählen Sie den Dataproc Metastore-Dienst aus, den Sie zuvor erstellt und konfiguriert haben, um ihn als zugehörigen Metastore zu verwenden.
Klicken Sie auf Erstellen.
Zonen in Ihrem Lake erstellen
Nachdem Sie eine Domain durch Erstellen eines Dataplex Universal Catalog-Lake erstellt haben, können Sie verwaltete Datenverträge und einzelne Teams in der Domain mithilfe von Zonen hosten. Es gibt zwei Arten von Zonen:
Rohzonen werden in der Regel verwendet, um Daten in beliebigen Formaten aus externen Quellen in Cloud Storage zu speichern. Rohzonen sind nützlich für Daten, die weiterverarbeitet werden müssen, bevor sie verwendet werden können.
Kuratierte Zonen werden für strukturierte Daten in Cloud Storage verwendet, die bestimmten Dateiformaten entsprechen und in einem Hive-kompatiblen Verzeichnislayout organisiert sein müssen. Sie sind am nützlichsten für Daten, die für die Verarbeitung und Analyse bereit sind.
Jede Domain (z. B. sales
, customers
, products
) sollte mindestens eine Rohdaten- und eine kuratierte Zone haben.
Zusätzliche Zonen werden verwendet, um Datenverträge zwischen Teams zu verwalten oder eine detailliertere Aufschlüsselung für Teams innerhalb einer bestimmten Domain zu ermöglichen. Beispiel: Inventarverwaltung in der Produktdomäne. Dateninhaber können die Daten in ihrer Domain verwalten und darauf zugreifen.
Rufen Sie in der Google Cloud Console die Ansicht Verwalten des Dataplex Universal Catalog auf.
Klicken Sie auf den Namen des Lakes (
My data mesh
), dem Sie eine Zone hinzufügen möchten.Klicken Sie auf dem Tab Zonen auf
Zone hinzufügen.Geben Sie im Feld Anzeigename den Wert
My sub domain
ein. In Dataplex Universal Catalog wird automatisch eine ID für Ihre Zone generiert.Wählen Sie als Typ die Option Rohzone aus.
Klicken Sie auf Erstellen.
Assets an Zonen anhängen
Hängen Sie Daten-Assets an Ihre Zone an. Ein Daten-Asset, die Speicherressourcen, die Ihre Daten enthalten, kann ein Cloud Storage-Bucket oder ein BigQuery-Dataset sein. Dies ist der letzte Schritt beim Erstellen Ihrer Data Mesh-Architektur.
Klicken Sie im Dataplex Universal Catalog in der Ansicht Verwalten auf den Lake, den Sie erstellt haben (
My data mesh
).Klicken Sie auf dem Tab Zonen auf die Zone (
My sub domain
), der Sie das Asset hinzufügen möchten.Klicken Sie auf dem Tab Assets auf
Assets hinzufügen.Klicken Sie auf Asset hinzufügen.
Wählen Sie für Typ die Option Cloud Storage-Bucket aus.
Geben Sie im Feld Anzeigename den Wert
Data mesh asset
ein. In Dataplex Universal Catalog wird automatisch eine Asset-ID für Sie generiert.Klicken Sie im Feld Bucket auf Durchsuchen.
- Wählen Sie Ihren Bucket aus der Liste aus.
- Klicken Sie auf Auswählen.
Klicken Sie auf Fertig und dann auf Weiter.
Klicken Sie auf Weiter, um die Standardeinstellungen für Erweiterte Einstellungen zu übernehmen.
Klicken Sie auf Senden.