Data Mesh erstellen

Mit Knowledge Catalog (früher Dataplex Universal Catalog) können Sie eine Data-Mesh-Architektur erstellen. In dieser Kurzanleitung erfahren Sie, wie Sie mit Knowledge Catalog-Funktionen wie Lakes, Zonen und Assets ein Data Mesh erstellen.

Ein Data Mesh ist ein organisatorischer und technischer Ansatz, der die Inhaberschaft von Daten dezentralisiert und auf die Domain-Dateninhaber verteilt. Diese Eigentümer stellen die Daten standardmäßig als Produkt zur Verfügung und erleichtern die Kommunikation zwischen verschiedenen Teilen des Unternehmens, um Datasets über verschiedene Standorte hinweg zu verteilen. Weitere Informationen zu Data Mesh-Architekturen

Ziele

In dieser Anleitung verwenden Sie die Knowledge Catalog-Entitäten, um eine Data Mesh-Architektur zu erstellen:

  • Erstellen Sie einen Knowledge Catalog-Lake, der als Domain für Ihr Data Mesh dient.
  • Fügen Sie Ihrem Data Lake Zonen hinzu, die einzelne Teams in jeder Domain repräsentieren, und stellen Sie verwaltete Datenverträge bereit.
  • Hängen Sie Assets an, die Daten in Cloud Storage zugeordnet sind.

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen.

Neuen Nutzern von Google Cloud steht möglicherweise eine kostenlose Testversion zur Verfügung.

Nach Abschluss der in diesem Dokument beschriebenen Aufgaben können Sie weitere Kosten vermeiden, indem Sie die erstellten Ressourcen löschen. Weitere Informationen finden Sie unter Bereinigen.

Hinweis

  1. Wählen Sie in der Google Cloud Console auf der Seite für die Projektauswahl ein Google Cloud -Projekt aus oder erstellen Sie eines.

    Rollen, die zum Auswählen oder Erstellen eines Projekts erforderlich sind

    • Projekt auswählen: Für die Auswahl eines Projekts ist keine bestimmte IAM-Rolle erforderlich. Sie können jedes Projekt auswählen, für das Ihnen eine Rolle zugewiesen wurde.
    • Projekt erstellen: Zum Erstellen eines Projekts benötigen Sie die Rolle „Projektersteller“ (roles/resourcemanager.projectCreator), die die Berechtigung resourcemanager.projects.create enthält. Weitere Informationen zum Zuweisen von Rollen

    Zur Projektauswahl

  2. Prüfen Sie, ob für Ihr Google Cloud Projekt die Abrechnung aktiviert ist.

  3. Dataplex API aktivieren

    Rollen, die zum Aktivieren von APIs erforderlich sind

    Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen

    API aktivieren

  4. Dataproc Metastore-Dienst erstellen

Cloud Storage-Bucket erstellen

Sie benötigen einen Cloud Storage-Bucket zum Speichern der Daten-Assets Ihres Data Mesh.

Folgen Sie der Anleitung unter Cloud Storage-Bucket erstellen, um einen Cloud Storage-Bucket zu erstellen. Beachten Sie dabei Folgendes:

  • Geben Sie Ihrem Bucket einen Namen.
  • Wählen Sie als Standorttyp die Option Region und dann im Menü us-central1 (Iowa) aus.

Domain erstellen

  1. Rufen Sie in der Google Cloud Console die Seite Lakes (Knowledge Catalog) auf.

    Zu „Lakes“

  2. Klicken Sie auf Erstellen, um einen neuen Lake zu erstellen, der als Data Mesh dient.

  3. Geben Sie im Feld Anzeigename den Wert My data mesh ein.

  4. Wählen Sie bei Region die Option us-central1 aus.

  5. Wählen Sie den Dataproc Metastore-Dienst aus, den Sie zuvor erstellt und konfiguriert haben, um ihn als zugehörigen Metastore zu verwenden.

  6. Klicken Sie auf Erstellen.

Zonen in Ihrem Lake erstellen

Nachdem Sie eine Domain durch Erstellen eines Knowledge Catalog-Lake erstellt haben, können Sie verwaltete Datenverträge und einzelne Teams in der Domain hosten, indem Sie Zonen verwenden. Es gibt zwei Arten von Zonen:

  • Rohdatenzonen werden in der Regel verwendet, um Daten in beliebigen Formaten aus externen Quellen in Cloud Storage zu speichern. Rohzonen sind nützlich für Daten, die weiterverarbeitet werden müssen, bevor sie verwendet werden können.

  • Kuratierte Zonen werden für strukturierte Daten in Cloud Storage verwendet, die bestimmten Dateiformaten entsprechen und in einem Hive-kompatiblen Verzeichnislayout organisiert sein müssen. Sie sind am nützlichsten für Daten, die für die Verarbeitung und Analyse bereit sind.

Jede Domain (z. B. sales, customers, products) sollte mindestens eine Rohdaten- und eine kuratierte Zone haben.

Zusätzliche Zonen werden verwendet, um Datenverträge zwischen Teams zu verwalten oder eine detailliertere Aufschlüsselung für Teams innerhalb einer bestimmten Domain zu ermöglichen. Beispiel: Inventarverwaltung in der Produktdomäne. Dateneigentümer können die Daten in ihrer Domain verwalten und darauf zugreifen.

  1. Rufen Sie in der Google Cloud Console die Ansicht Verwalten des Wissenskatalogs auf.

  2. Klicken Sie auf den Namen des Lakes (My data mesh), dem Sie eine Zone hinzufügen möchten.

  3. Klicken Sie auf dem Tab Zonen auf  Zone hinzufügen.

  4. Geben Sie im Feld Anzeigename den Wert My sub domain ein. Im Knowledge Catalog wird automatisch eine ID für Ihre Zone generiert.

  5. Wählen Sie unter Typ die Option Rohzone aus.

  6. Klicken Sie auf Erstellen.

Assets an Zonen anhängen

Hängen Sie Daten-Assets an Ihre Zone an. Ein Daten-Asset, die Speicherressourcen, die Ihre Daten enthalten, kann ein Cloud Storage-Bucket oder ein BigQuery-Dataset sein. Dies ist der letzte Schritt beim Erstellen Ihrer Data Mesh-Architektur.

  1. Klicken Sie im Wissenskatalog in der Ansicht Verwalten auf den von Ihnen erstellten Lake (My data mesh).

  2. Klicken Sie auf dem Tab Zonen auf die Zone (My sub domain), der Sie das Asset hinzufügen möchten.

  3. Klicken Sie auf dem Tab Assets auf  Assets hinzufügen.

  4. Klicken Sie auf Asset hinzufügen.

  5. Wählen Sie für Typ die Option Cloud Storage-Bucket aus.

  6. Geben Sie im Feld Anzeigename den Wert Data mesh asset ein. Im Knowledge Catalog wird automatisch eine Asset-ID für Sie generiert.

  7. Klicken Sie im Feld Bucket auf Durchsuchen.

    1. Wählen Sie Ihren Bucket aus der Liste aus.
    2. Klicken Sie auf Auswählen.
  8. Klicken Sie auf Fertig und dann auf Weiter.

  9. Klicken Sie auf Weiter, um die Standardeinstellungen für Erweiterte Einstellungen zu übernehmen.

  10. Klicken Sie auf Senden.

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Projekt löschen

  1. Wechseln Sie in der Google Cloud -Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Data Mesh-Architektur löschen

  1. Rufen Sie in der Google Cloud Console die Ansicht Verwalten des Wissenskatalogs auf.

  2. Klicken Sie bei dem Data Lake, den Sie löschen möchten, auf  Mehr ansehen und dann auf Löschen.

  3. Geben Sie delete ein und klicken Sie auf Lake löschen, um den Vorgang zu bestätigen.

Nächste Schritte