Mit Data Catalog arbeiten

Data Catalog wird in BigQuery eingebunden. Es katalogisiert automatisch Metadaten zu BigQuery-Ressourcen wie Tabellen, Datasets, Ansichten und Modellen. In diesem Dokument wird beschrieben, wie Sie in diesen Ressourcen suchen, die Datenherkunft ansehen und Tags mithilfe von Data Catalog hinzufügen.

Nach BigQuery-Ressourcen suchen

So suchen Sie mit Data Catalog nach BigQuery-Datasets, -Tabellen und mit einem Sternchen markierten Projekten:

  1. Rufen Sie in der Google Cloud Console die Seite Suche von Data Catalog auf.

    Zur Suche

  2. Geben Sie in das Feld Suche eine Suchanfrage ein und klicken Sie auf Suchen.

    Mit der Data Catalog-Suche können Sie Daten in Ihren Projekten und Organisationen finden.

    Verwenden Sie zum Verfeinern der Suchparameter den Bereich Filter. Klicken Sie beispielsweise im Abschnitt Systeme das Kästchen BigQuery an. Die Ergebnisse werden nach BigQuery-Systemen gefiltert.

Sie können einfache Suchanfragen in Data Catalog über die Google Cloud Console ausführen. Weitere Informationen zur Suche in der Google Cloud Console finden Sie unter Öffentliches Dataset öffnen.

Data Lineage

Die Datenherkunft ist eine Knowledge Catalog-Funktion, mit der Sie verfolgen können, wie sich Daten durch Ihre Systeme bewegen – woher sie kommen, wohin sie übergeben werden und welche Transformationen auf sie angewendet werden. Sie können direkt über BigQuery auf das Data-Lineage-Feature zugreifen.

Wenn Sie die Datenherkunft in Ihrem BigQuery-Projekt aktivieren, zeichnet Knowledge Catalog automatisch die Herkunftsinformationen für Tabellen auf, die von den folgenden Vorgängen erstellt wurden:

Vorbereitung

In diesem Abschnitt aktivieren Sie die Data Lineage API und weisen IAM-Rollen (Identity and Access Management) zu, die Nutzern die erforderlichen Berechtigungen zum Ausführen der einzelnen Aufgaben in diesem Dokument gewähren.

Data Lineage aktivieren

  1. Wählen Sie in der Google Cloud Console auf der Seite für die Projektauswahl das Projekt aus, das die Ressourcen enthält, deren Herkunft Sie verfolgen möchten.

    Zur Projektauswahl

  2. Aktivieren Sie die Data Lineage API und die Dataplex API.

    APIs aktivieren

Erforderliche IAM-Rollen

Herkunftsinformationen werden automatisch erfasst, wenn Sie die Data Lineage API aktivieren.

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Herkunftsdiagrammen benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Weitere Informationen finden Sie unter Data Lineage-Rollen.

Herkunftsdiagramme in BigQuery ansehen

So rufen Sie das Diagramm zur Herkunftsvisualisierung der Daten in BigQuery auf:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Klicken Sie im linken Steuerfeld auf Explorer:

    Hervorgehobener Button für den Explorer-Bereich.

    Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf Linkes Steuerfeld maximieren , um es zu öffnen.

  3. Maximieren Sie im Bereich Explorer Ihr Projekt und klicken Sie dann auf Datasets.

  4. Klicken Sie auf Übersicht > Tabellen und wählen Sie dann eine Tabelle aus.

  5. Klicken Sie auf den Tab Herkunft.

    Tab „Datenherkunft“.

    Das Diagramm zur Datenherkunft wird angezeigt.

    Diagramm zur Datenherkunft.

  6. Optional: Wählen Sie einen Knoten aus, um weitere Details zu den Entitäten oder Prozessen aufzurufen, die an der Erstellung von Herkunftsinformationen beteiligt sind.

Weitere Informationen zur Datenherkunft finden Sie unter Informationen zur Datenherkunft.

Tags und Tag-Vorlagen

Mit Tags können Organisationen Metadaten für alle ihre Dateneinträge in einem einheitlichen Dienst erstellen, suchen und verwalten.

In diesem Abschnitt werden zwei wichtige Data Catalog-Konzepte erläutert:

  • Mit Tags können Sie Kontext für einen Dateneintrag bereitstellen, indem Sie benutzerdefinierte Metadatenfelder anhängen.

  • Tag-Vorlagen sind wiederverwendbare Strukturen, mit denen Sie schnell neue Tags erstellen können.

Tags

Data Catalog bietet zwei Arten von Tags: private und öffentliche Tags.

Private Tags

Private Tags stellen strenge Zugriffskontrollen bereit. Sie können die Tags und die zugehörigen Dateneinträge nur suchen oder ansehen, wenn Ihnen die erforderlichen Leseberechtigungen sowohl für die private Tag-Vorlage als auch die Dateneinträge gewährt wurden.

Wenn Sie auf der Data Catalog-Seite nach privaten Tags suchen möchten, müssen Sie die Suchsyntax tag: oder die Suchfilter verwenden.

Private Tags sind für Szenarien geeignet, bei denen Sie vertrauliche Informationen im Tag speichern müssen und daher neben der Prüfung, ob Nutzer zum Ansehen eines getaggten Eintrags berechtigt sind, zusätzliche Zugriffsbeschränkungen nutzen möchten.

Öffentliche Tags

Öffentliche Tags bieten im Vergleich zu privaten Tags eine weniger strenge Zugriffskontrolle für das Suchen und Ansehen des Tags. Jeder Nutzer, der über die erforderlichen Leseberechtigungen für einen Dateneintrag verfügt, kann alle zugehörigen öffentlichen Tags ansehen. Anzeigeberechtigungen für öffentliche Tags sind nur erforderlich, wenn Sie eine Suche in Data Catalog mit der Syntax tag: ausführen oder wenn Sie eine nicht angehängte Tag-Vorlage anzeigen.

Öffentliche Tags unterstützen sowohl die einfache Suche als auch die Suche mit Prädikaten auf der Data Catalog-Suchseite. Wenn Sie eine Tag-Vorlage erstellen, ist die Option zum Erstellen einer öffentlichen Tag-Vorlage die empfohlene Standardoption in der Google Cloud Console.

Nehmen wir an, Sie haben eine öffentliche Tag-Vorlage namens employee data, mit der Sie Tags für drei Dateneinträge namens Name, Location und Salary erstellt haben. Von den drei Dateneinträgen können nur Mitglieder einer bestimmten Gruppe namens HR den Dateneintrag Salary ansehen. Die anderen beiden Dateneinträge weisen Leseberechtigungen für alle Mitarbeiter des Unternehmens auf.

Wenn ein Mitarbeiter kein Mitglied der HR-Gruppe ist, die Data Catalog-Suchseite verwendet und mit dem Wort employee sucht, zeigt das Suchergebnis nur die Dateneinträge Name und Location mit den zugehörigen öffentlichen Tags an.

Öffentliche Tags sind für eine Vielzahl von Szenarien nützlich. Öffentliche Tags unterstützen die einfache Suche und die Suche mit Prädikaten, während private Tags nur die Suche mit Prädikaten unterstützen.

Tag-Vorlagen

Um mit dem Taggen von Metadaten zu beginnen, müssen Sie zuerst mindestens eine Tag-Vorlage erstellen. Eine Tag-Vorlage kann öffentlich oder privat sein. Wenn Sie eine Tag Vorlage erstellen, ist die Option zum Erstellen einer öffentlichen Tag-Vorlage die empfohlene Standardoption in der Google Cloud Console. Eine Tag-Vorlage ist eine Gruppe an Schlüssel/Wert-Paaren in Form von Metadaten, die Felder genannt werden. Ein Satz Vorlagen ist mit einem Datenbankschema für Ihre Metadaten vergleichbar.

Sie können Ihre Tags nach Themen strukturieren. Beispiel:

  • Ein data governance-Tag mit Feldern für Data Governor, Aufbewahrungsdatum, Löschdatum, personenidentifizierbare Informationen (Ja oder Nein), Datenklassifizierung (öffentlich, vertraulich, gesetzliche Vorschriften)
  • Ein data quality-Tag mit Feldern für Qualitätsprobleme, Aktualisierungshäufigkeit, SLO-Informationen
  • Ein data usage-Tag mit Feldern für häufigste Nutzer, häufigste Abfragen und durchschnittliche tägliche Nutzer

Sie können dann Tags miteinander mischen und so kombinieren, dass nur die Tags verwendet werden, die für jedes Daten-Asset und Ihre Geschäftsanforderungen relevant sind.

Zum Einstieg enthält Data Catalog eine Galerie von Beispiel-Tag-Vorlagen, um gängige Tag-Anwendungsfälle zu veranschaulichen. Anhand dieser Beispiele erfahren Sie mehr über die Möglichkeiten von Tagging, als Inspiration oder als Ausgangspunkt für die Erstellung einer eigenen Tagging-Infrastruktur.

Führen Sie die folgenden Schritte aus, um eine Tag-Vorlagen-Gallerie zu verwenden:

  1. Rufen Sie in der Google Cloud Console die Seite Tag-Vorlagen von Knowledge Catalog auf.

    Tag-Vorlagen aufrufen

  2. Klicken Sie auf Tag-Vorlage erstellen.

    Die Vorlagengalerie wird als Teil der Seite Vorlage erstellen angezeigt.

Nachdem Sie eine Vorlage aus der Galerie ausgewählt haben, können Sie sie wie jede andere Tag-Vorlage verwenden. Außerdem haben Sie die Möglichkeit, Attribute hinzuzufügen oder zu löschen und können die Vorlage ganz nach Ihren geschäftlichen Anforderungen ändern. Anschließend können Sie mit Data Catalog nach den Vorlagenfeldern und -werten suchen.

Weitere Informationen zu Tags und Tag-Vorlagen finden Sie unter Tags und Tag-Vorlagen.

Regionale Ressourcen

Alle Tag-Vorlagen und Tags werden in einer bestimmten Google Cloud Region gespeichert. Mit Tag-Vorlagen können Sie Tags in beliebigen Regionen erstellen. Sie müssen also keine Kopien Ihrer Vorlage erstellen, wenn Sie Metadateneinträge über mehrere Regionen verteilt haben.