Mit Data Catalog arbeiten
Wichtige Knowledge Catalog-Funktionen sind in BigQuery integriert und auch in der BigQuery-Benutzeroberfläche verfügbar. Weitere Informationen zum Anreichern Ihrer Daten mit Aspekten, die den Data Catalog-Tags entsprechen, finden Sie unter Aspekte verwalten und Metadaten anreichern.Data Catalog wird in BigQuery eingebunden. Es katalogisiert automatisch Metadaten zu BigQuery-Ressourcen wie Tabellen, Datasets, Ansichten und Modellen. In diesem Dokument wird beschrieben, wie Sie in diesen Ressourcen suchen, die Datenherkunft ansehen und Tags mithilfe von Data Catalog hinzufügen.
Nach BigQuery-Ressourcen suchen
So suchen Sie mit Data Catalog nach BigQuery-Datasets, -Tabellen und mit einem Sternchen markierten Projekten:
Rufen Sie in der Google Cloud Console die Seite Suche von Data Catalog auf.
Geben Sie in das Feld Suche eine Suchanfrage ein und klicken Sie auf Suchen.
Verwenden Sie zum Verfeinern der Suchparameter den Bereich Filter. Klicken Sie beispielsweise im Abschnitt Systeme das Kästchen BigQuery an. Die Ergebnisse werden nach BigQuery-Systemen gefiltert.
Sie können einfache Suchanfragen in Data Catalog über die Google Cloud Console ausführen. Weitere Informationen zur Suche in der Google Cloud Console finden Sie unter Öffentliches Dataset öffnen.
Data Lineage
Die Datenherkunft ist eine Knowledge Catalog-Funktion, mit der Sie verfolgen können, wie sich Daten durch Ihre Systeme bewegen – woher sie kommen, wohin sie übergeben werden und welche Transformationen auf sie angewendet werden. Sie können direkt über BigQuery auf das Data-Lineage-Feature zugreifen.
Wenn Sie die Datenherkunft in Ihrem BigQuery-Projekt aktivieren, zeichnet Knowledge Catalog automatisch die Herkunftsinformationen für Tabellen auf, die von den folgenden Vorgängen erstellt wurden:
- Kopierjobs.
Abfragejobs, die die folgenden DDL-Anweisungen (Data Definition Language) oder DML-Anweisungen (Data Manipulation Language) in GoogleSQL verwenden:
CREATE TABLE(einschließlich der AnweisungCREATE TABLE AS SELECT)INSERTUPDATEDELETEMERGE
Vorbereitung
In diesem Abschnitt aktivieren Sie die Data Lineage API und weisen IAM-Rollen (Identity and Access Management) zu, die Nutzern die erforderlichen Berechtigungen zum Ausführen der einzelnen Aufgaben in diesem Dokument gewähren.
Data Lineage aktivieren
- Wählen Sie in der Google Cloud Console auf der Seite für die Projektauswahl das Projekt aus, das die Ressourcen enthält, deren Herkunft Sie verfolgen möchten.
- Aktivieren Sie die Data Lineage API und die Dataplex API.
Erforderliche IAM-Rollen
Herkunftsinformationen werden automatisch erfasst, wenn Sie die Data Lineage API aktivieren.
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Herkunftsdiagrammen benötigen:
-
Data Catalog-Betrachter (
roles/datacatalog.viewer) für ein Data Catalog-Ressourcenprojekt. -
Data Lineage-Betrachter (
roles/datalineage.viewer) für das Projekt, in dem Sie von Datenreihen unterstützte Systeme verwenden. -
BigQuery-Metadaten (
roles/bigquery.metadataViewer)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Weitere Informationen finden Sie unter Data Lineage-Rollen.
Herkunftsdiagramme in BigQuery ansehen
So rufen Sie das Diagramm zur Herkunftsvisualisierung der Daten in BigQuery auf:
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im linken Steuerfeld auf Explorer:

Wenn das linke Steuerfeld nicht angezeigt wird, klicken Sie auf Linkes Steuerfeld maximieren , um es zu öffnen.
Maximieren Sie im Bereich Explorer Ihr Projekt und klicken Sie dann auf Datasets.
Klicken Sie auf Übersicht > Tabellen und wählen Sie dann eine Tabelle aus.
Klicken Sie auf den Tab Herkunft.
Das Diagramm zur Datenherkunft wird angezeigt.
Optional: Wählen Sie einen Knoten aus, um weitere Details zu den Entitäten oder Prozessen aufzurufen, die an der Erstellung von Herkunftsinformationen beteiligt sind.
Weitere Informationen zur Datenherkunft finden Sie unter Informationen zur Datenherkunft.
Tags und Tag-Vorlagen
Mit Tags können Organisationen Metadaten für alle ihre Dateneinträge in einem einheitlichen Dienst erstellen, suchen und verwalten.
In diesem Abschnitt werden zwei wichtige Data Catalog-Konzepte erläutert:
Mit Tags können Sie Kontext für einen Dateneintrag bereitstellen, indem Sie benutzerdefinierte Metadatenfelder anhängen.
Tag-Vorlagen sind wiederverwendbare Strukturen, mit denen Sie schnell neue Tags erstellen können.
Tags
Data Catalog bietet zwei Arten von Tags: private und öffentliche Tags.
Private Tags
Private Tags stellen strenge Zugriffskontrollen bereit. Sie können die Tags und die zugehörigen Dateneinträge nur suchen oder ansehen, wenn Ihnen die erforderlichen Leseberechtigungen sowohl für die private Tag-Vorlage als auch die Dateneinträge gewährt wurden.
Wenn Sie auf der Data Catalog-Seite nach privaten Tags suchen möchten, müssen Sie die Suchsyntax tag: oder die Suchfilter verwenden.
Private Tags sind für Szenarien geeignet, bei denen Sie vertrauliche Informationen im Tag speichern müssen und daher neben der Prüfung, ob Nutzer zum Ansehen eines getaggten Eintrags berechtigt sind, zusätzliche Zugriffsbeschränkungen nutzen möchten.
Öffentliche Tags
Öffentliche Tags bieten im Vergleich zu privaten Tags eine weniger strenge Zugriffskontrolle für das Suchen und Ansehen des Tags. Jeder Nutzer, der über die erforderlichen Leseberechtigungen für einen Dateneintrag verfügt, kann alle zugehörigen öffentlichen Tags ansehen. Anzeigeberechtigungen für öffentliche Tags sind nur erforderlich, wenn Sie eine Suche in Data Catalog mit der Syntax tag: ausführen oder wenn Sie eine nicht angehängte Tag-Vorlage anzeigen.
Öffentliche Tags unterstützen sowohl die einfache Suche als auch die Suche mit Prädikaten auf der Data Catalog-Suchseite. Wenn Sie eine Tag-Vorlage erstellen, ist die Option zum Erstellen einer öffentlichen Tag-Vorlage die empfohlene Standardoption in der Google Cloud Console.
Nehmen wir an, Sie haben eine öffentliche Tag-Vorlage namens employee data, mit der Sie Tags für drei Dateneinträge namens Name, Location und Salary erstellt haben. Von den drei Dateneinträgen können nur Mitglieder einer bestimmten Gruppe namens HR den Dateneintrag Salary ansehen. Die anderen beiden Dateneinträge weisen Leseberechtigungen für alle Mitarbeiter des Unternehmens auf.
Wenn ein Mitarbeiter kein Mitglied der HR-Gruppe ist, die Data Catalog-Suchseite verwendet und mit dem Wort employee sucht, zeigt das Suchergebnis nur die Dateneinträge Name und Location mit den zugehörigen öffentlichen Tags an.
Öffentliche Tags sind für eine Vielzahl von Szenarien nützlich. Öffentliche Tags unterstützen die einfache Suche und die Suche mit Prädikaten, während private Tags nur die Suche mit Prädikaten unterstützen.
Tag-Vorlagen
Um mit dem Taggen von Metadaten zu beginnen, müssen Sie zuerst mindestens eine Tag-Vorlage erstellen. Eine Tag-Vorlage kann öffentlich oder privat sein. Wenn Sie eine Tag Vorlage erstellen, ist die Option zum Erstellen einer öffentlichen Tag-Vorlage die empfohlene Standardoption in der Google Cloud Console. Eine Tag-Vorlage ist eine Gruppe an Schlüssel/Wert-Paaren in Form von Metadaten, die Felder genannt werden. Ein Satz Vorlagen ist mit einem Datenbankschema für Ihre Metadaten vergleichbar.
Sie können Ihre Tags nach Themen strukturieren. Beispiel:
- Ein
data governance-Tag mit Feldern für Data Governor, Aufbewahrungsdatum, Löschdatum, personenidentifizierbare Informationen (Ja oder Nein), Datenklassifizierung (öffentlich, vertraulich, gesetzliche Vorschriften) - Ein
data quality-Tag mit Feldern für Qualitätsprobleme, Aktualisierungshäufigkeit, SLO-Informationen - Ein
data usage-Tag mit Feldern für häufigste Nutzer, häufigste Abfragen und durchschnittliche tägliche Nutzer
Sie können dann Tags miteinander mischen und so kombinieren, dass nur die Tags verwendet werden, die für jedes Daten-Asset und Ihre Geschäftsanforderungen relevant sind.
Tag-Vorlagen-Sammlung aufrufen
Zum Einstieg enthält Data Catalog eine Galerie von Beispiel-Tag-Vorlagen, um gängige Tag-Anwendungsfälle zu veranschaulichen. Anhand dieser Beispiele erfahren Sie mehr über die Möglichkeiten von Tagging, als Inspiration oder als Ausgangspunkt für die Erstellung einer eigenen Tagging-Infrastruktur.
Führen Sie die folgenden Schritte aus, um eine Tag-Vorlagen-Gallerie zu verwenden:
Rufen Sie in der Google Cloud Console die Seite Tag-Vorlagen von Knowledge Catalog auf.
Klicken Sie auf Tag-Vorlage erstellen.
Die Vorlagengalerie wird als Teil der Seite Vorlage erstellen angezeigt.
Nachdem Sie eine Vorlage aus der Galerie ausgewählt haben, können Sie sie wie jede andere Tag-Vorlage verwenden. Außerdem haben Sie die Möglichkeit, Attribute hinzuzufügen oder zu löschen und können die Vorlage ganz nach Ihren geschäftlichen Anforderungen ändern. Anschließend können Sie mit Data Catalog nach den Vorlagenfeldern und -werten suchen.
Weitere Informationen zu Tags und Tag-Vorlagen finden Sie unter Tags und Tag-Vorlagen.
Regionale Ressourcen
Alle Tag-Vorlagen und Tags werden in einer bestimmten Google Cloud Region gespeichert. Mit Tag-Vorlagen können Sie Tags in beliebigen Regionen erstellen. Sie müssen also keine Kopien Ihrer Vorlage erstellen, wenn Sie Metadateneinträge über mehrere Regionen verteilt haben.