Grundlegende Data Governance aufbauen

Vielleicht haben Sie sich schon einmal Fragen wie „Was bedeutet dieser Spaltenname?“ gestellt. „Wem gehört dieses fehlerhafte Dataset?“ oder „Darf diese Tabelle verwendet werden?“ In einigen Datenkatalogen werden unstrukturierte Tags verwendet, um diese Informationen hinzuzufügen. Tags sind jedoch schnell veraltet oder inkonsistent. Knowledge Catalog (ehemals Dataplex Universal Catalog) vermeidet dieses Problem, da Sie strukturierte, schemabasierte Metadaten und eindeutige Geschäftsdefinitionen direkt an Ihre Daten-Assets anhängen können. Dieser Ansatz hilft Ihnen, programmatische Governance im großen Maßstab zu entwickeln.

In diesem Tutorial erfahren Sie, wie Sie mit Data Governance in Knowledge Catalog beginnen. Diese Anleitung richtet sich an Data Engineers, Datenbankadministratoren und Datenarchitekten. Sie enthält manuelle UI-Schritte, die Ihnen helfen, ein solides mentales Modell zu entwickeln, bevor Sie diese Workflows automatisieren. Darin werden die Beziehungen zwischen wichtigen Knowledge Catalog-Konzepten erläutert. Am Ende wissen Sie, wie Sie Ihre Daten auffindbar und vertrauenswürdig machen.

Ziele

In dieser Anleitung erfahren Sie mehr über die folgenden Themen:

  • Mit einem Unternehmensglossar können Sie eine Single Source of Truth für Ihre Geschäftsbegriffe schaffen.
  • Mit Aspekttypen können Sie Ihre Metadaten strukturieren und organisieren.
  • Weisen Sie Ihren Assets mit Aspekten Metadaten zu.
  • Mit der Knowledge Catalog-Suche können Sie mithilfe dieser neuen strukturierten Metadaten genau das finden, was Sie benötigen.

Hinweis

Führen Sie zuerst folgende Schritte aus:

Umgebung einrichten

In dieser Anleitung wird Cloud Shell verwendet, eine Befehlszeilenumgebung, die in der Cloud ausgeführt wird.

  1. Klicken Sie in der Google Cloud Console in der Symbolleiste rechts oben auf Cloud Shell aktivieren. Die Bereitstellung und Verbindung mit der Umgebung dauert einen kleinen Moment.

  2. Legen Sie in Cloud Shell die Variablen PROJECT_ID und LOCATION so fest, dass alle zukünftigen Befehle auf Ihr spezifisches Google Cloud Projekt ausgerichtet sind.

    export PROJECT_ID=$(gcloud config get-value project)
    gcloud config set project $PROJECT_ID
    export LOCATION="us-central1"
    
  3. Aktivieren Sie die erforderlichen Google Cloud Dienste.

    gcloud services enable \
      dataplex.googleapis.com \
      bigquery.googleapis.com \
      datacatalog.googleapis.com
    

BigQuery-Dataset erstellen und Beispieldaten vorbereiten

Mit dem folgenden Code können Sie ein BigQuery-Dataset erstellen und einige CSV-Beispieltransaktionen in eine Tabelle laden. Nachdem Sie die Tabelle erstellt haben, wird sie automatisch von Knowledge Catalog erkannt und es wird ein Eintrag dafür im Katalog erstellt.

Ein Eintrag ist die Darstellung eines Daten-Assets im Knowledge Catalog. Es ist wie ein Datensatz im Katalog, an den Sie Governance-Metadaten anhängen können. Anstatt die BigQuery-Tabelle direkt zu verwalten, verwalten Sie ihren Eintrag in Knowledge Catalog.

# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
    --description "Retail data for governance codelab" \
    $PROJECT_ID:retail_data

# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv

# Load the data from the temporary CSV file into a BigQuery table
bq load \
    --source_format=CSV \
    --autodetect \
    retail_data.transactions \
    /tmp/transactions.csv

# (Optional) Clean up the temporary file
rm /tmp/transactions.csv

Führen Sie eine SELECT-Abfrage aus, um die Einrichtung zu überprüfen:

bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"

Beispielausgabe:

+----------------+------------------+-------+------------------+
| transaction_id |    user_email    |  gmv  | transaction_date |
+----------------+------------------+-------+------------------+
|           1001 | test@example.com | 150.5 |       2025-08-28 |
|           1002 | user@example.com |  75.0 |       2025-08-28 |
+----------------+------------------+-------+------------------+

Gemeinsame Begriffe mit einem Unternehmensglossar festlegen

Gute Governance basiert auf klaren Definitionen. Ein Entwickler sollte beispielsweise nicht raten müssen, ob eine Spalte mit dem Namen gmv den Bruttowarenwert angibt oder ob sie Steuern oder Rückgaben enthält. Ein Unternehmensglossar schafft hier Abhilfe, indem es eine einzige Quelle der Wahrheit schafft, die Geschäftsdefinitionen von technischen Details entkoppelt. So wird sichergestellt, dass Begriffe wie „Bruttowarenwert“ für alle, vom Vertriebsteam bis zur Finanzabteilung, dasselbe bedeuten.

So erstellen Sie ein Glossar und definieren den ersten Begriff:

  1. Rufen Sie in der Google Cloud Console die Seite Glossare im Knowledge Catalog auf.

    Zu „Glossare“

  2. Klicken Sie auf Unternehmensglossar erstellen.

  3. Geben Sie die folgenden Informationen ein:

    • Display name (Anzeigename): Retail Business Glossary.
    • Standort: us-central1 (Iowa)
  4. Klicken Sie auf Erstellen.

  5. Klicken Sie auf Kategorie erstellen.

  6. Geben Sie einen Namen für die Kategorie ein Sales Metrics und klicken Sie auf Erstellen.

  7. Wählen Sie die Kategorie Umsatzmesswerte aus und klicken Sie auf Begriff hinzufügen.

  8. Geben Sie einen Namen für den Begriff Gross Merchandise Value ein und klicken Sie auf Erstellen.

  9. Klicken Sie auf den Begriff Bruttowarenwert, um die zugehörige Detailseite zu öffnen.

  10. Klicken Sie neben Übersicht auf Hinzufügen. Geben Sie die folgenden Informationen ein: The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.

  11. Klicken Sie auf Speichern.

Sie haben jetzt einen Glossarbegriff erstellt, den Sie mit Daten-Assets in Ihrer gesamten Organisation verknüpfen können.

Technische Metadaten mit einem Aspekttyp definieren

Wenn Sie nachverfolgen müssen, wem ein bestimmtes Daten-Asset gehört, reichen Schlüssel/Wert-Tags nicht aus. Sie möchten nicht, dass eine Tabelle mit owner:bob und eine andere mit contact:alice@example.com gekennzeichnet ist. Sie möchten ein strukturiertes Schema, bei dem die Inhaberinformationen ein gültiges E-Mail-Format haben müssen.

Um diesem Bedarf gerecht zu werden, unterstützt Knowledge Catalog Aspekttypen. Ein Aspekttyp ist wie eine Blaupause für Ihre Metadaten, mit der Sie klare Regeln und erforderliche Felder festlegen können. So bleiben alle Metadaten, die Sie später hinzufügen, übersichtlich.

  1. Rufen Sie in der Google Cloud Console auf der Seite Metadatentypen den Tab Aspekttypen auf.

    Zu den Aspekttypen

  2. Klicken Sie auf dem Tab Benutzerdefiniert auf Erstellen.

  3. Geben Sie die folgenden Informationen ein:

    • Display name (Anzeigename): Data Asset Governance.
    • Standort: us-central1 (Iowa)
  4. Klicken Sie im Bereich Vorlage auf Feld hinzufügen, um die folgenden drei Felder zu erstellen:

    • Feld 1:

      • Display name (Anzeigename): Data Steward.
      • Typ: Text
      • Erforderlich: Aktivieren Sie das Kästchen.
      • Texttyp: Plain text
    • Feld 2 (klicken Sie auf Feld hinzufügen):

      • Display name (Anzeigename): Data Sensitivity.
      • Typ: Enum
      • Erforderlich: Lassen Sie die Option auf „Optional“ eingestellt.
      • Werte: Fügen Sie Public, Internal und Confidential hinzu.
    • Feld 3 (klicken Sie auf Feld hinzufügen):

      • Display name (Anzeigename): Last Review Date.
      • Erforderlich: Lassen Sie die Option auf „Optional“ eingestellt.
      • Typ: Date and time
  5. Klicken Sie auf Speichern.

Es gibt jetzt einen Aspekttyp für Governance-bezogene Metadatenfelder wie Data Steward, Sensibilitätsstufe und Überprüfungsdatum. Im nächsten Abschnitt wenden Sie dieses Schema auf einen Tabelleneintrag an, indem Sie ein Attribut mit bestimmten Werten für diese Felder anhängen.

Eintrag mit Governance-Metadaten anreichern

Spaltennamen sind oft abgekürzt oder mehrdeutig. Wenn Sie eine Spalte mit einem Begriff in Ihrem Unternehmensglossar verknüpfen, erhalten Sie eine klare und einheitliche Definition. In diesem Schritt reichern Sie den Eintrag für die Tabelle retail_data.transactions an, indem Sie den Begriff Gross Merchandise Value mit einer Spalte namens gmv verknüpfen und mit Ihrem Aspekttyp einen Aspekt an den Tabelleneintrag anhängen.

Um zu verdeutlichen, was die Spalte gmv in retail_data.transactions ist, verlinken Sie sie mit dem Begriff Gross Merchandise Value.

  1. Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

    Zur Suche

  2. Klicken Sie auf Filter, um den Bereich Filter zu öffnen.

  3. Wählen Sie unter Umfang die Option Aktuelles Projekt aus.

  4. Suchen Sie nach retail_data.transactions und klicken Sie auf die zurückgegebene Transaktionstabelle.

  5. Klicken Sie auf den Tab Schema.

  6. Klicken Sie das Kästchen neben der Spalte gmv an und wählen Sie Geschäftsbegriff hinzufügen aus.

  7. Wählen Sie Gross Merchandise Value aus.

Aspekt an den Tabelleneintrag anhängen

Sie können nicht nur Geschäftsbegriffe mit Spalten verknüpfen, sondern auch einen Aspekt an einen Tabelleneintrag anhängen, um Metadaten zur Governance auf Tabellenebene zu erfassen, z. B. Dateneigentum und Vertraulichkeit.

Ein Aspekt ist eine Instanz eines Aspekttyps, die bestimmte Werte für Metadatenfelder enthält. Wenn Sie einem Eintrag einen Aspekt zuweisen, prüft Knowledge Catalog die von Ihnen angegebenen Informationen anhand des im Aspekttyp definierten Schemas, um die Konsistenz zu gewährleisten.

Wenn Sie Inhaberschaft und Vertraulichkeit für die Tabelle retail_data.transactions definieren möchten, fügen Sie den Aspekt Data Asset Governance hinzu:

  1. Klicken Sie auf der Seite des retail_data.transactions-Eintrags auf dem Tab Details neben Optionale Aspekte auf Hinzufügen.
  2. Wählen Sie Data Asset Governance aus der Liste aus.
  3. Geben Sie Werte in die Felder ein:

    • Data Steward:finance-team@example.com
    • Data Sensitivity (Datenvertraulichkeit): Wählen Sie Internal (Intern) aus.
    • Datum der letzten Überprüfung:Wählen Sie das heutige Datum aus.
  4. Klicken Sie auf Speichern.

Sie haben jetzt eine solide Grundlage für Data Governance in Knowledge Catalog geschaffen.

Mit angereicherten Metadaten nach Einträgen suchen

Sie haben den Eintrag retail_data.transactions angereichert, indem Sie eine Spalte mit einem Geschäftsbegriff verknüpft und ein Attribut angehängt haben. Sie können jetzt die Knowledge Catalog-Suche verwenden, um Einträge basierend auf diesen Geschäftskontexten zu finden. So können Sie beispielsweise alle Assets mit einem bestimmten Vertraulichkeitsniveau finden oder nach Ihrem Glossarbegriff suchen, um die zugrunde liegenden Tabellen zu ermitteln.

  1. Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.

    Zur Suche

  2. Klicken Sie auf Filter, um den Bereich Filter zu öffnen.

  3. Wählen Sie unter Umfang die Option Aktuelles Projekt aus.

  4. Geben Sie in der Suchleiste Find tables where the Data Asset Governance aspect has Internal sensitivity. ein.

  5. Ihre Tabelle retail_data.transactions sollte in der Ergebnisliste angezeigt werden.

  6. Leeren Sie die Suchleiste und geben Sie Find tables with the Gross Merchandise Value term attached. ein.

  7. In den Ergebnissen sollte wieder die Tabelle retail_data.transactions angezeigt werden, da die Spalte gmv direkt mit diesem Begriff verknüpft ist.

Bereinigen

Löschen Sie die in dieser Anleitung erstellten Ressourcen, um Gebühren zu vermeiden.

Beispiel-Dataset löschen

Verwenden Sie den folgenden Befehl, um das BigQuery-Beispieldataset und alle zugehörigen Tabellen zu löschen. Diese Aktion kann nicht rückgängig gemacht werden.

# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)

# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data

Knowledge Catalog-Artefakte löschen

  1. Rufen Sie in der Google Cloud Console auf der Seite Metadatentypen den Tab Aspekttypen auf.

    Zu den Aspekttypen

  2. Wählen Sie den Aspekttyp data_asset_governance aus und klicken Sie auf Löschen.

  3. Rufen Sie in der Google Cloud Console die Seite Glossare im Knowledge Catalog auf.

    Zu „Glossare“

  4. Wählen Sie den Begriff Gross Merchandise Value aus und klicken Sie auf Löschen.

  5. Wählen Sie die Kategorie Sales Metrics aus und klicken Sie auf Löschen.

  6. Wählen Sie Retail Business Glossary aus und klicken Sie auf Löschen.

Nächste Schritte