Wenn Sie mit Daten arbeiten, haben Sie sich wahrscheinlich schon einmal Fragen wie „Was bedeutet dieser Spaltenname?“ gestellt. „Wem gehört dieses fehlerhafte Dataset?“ oder „Darf diese Tabelle verwendet werden?“ Metadaten-Tags sollen diese Fragen beantworten, sind aber schnell veraltet oder inkonsistent. Knowledge Catalog (ehemals Dataplex Universal Catalog) löst dieses Problem, indem Sie strukturierte Metadaten und eindeutige Geschäftsdefinitionen direkt an Daten-Assets anhängen können. Wenn Sie einen klaren Datenkontext bereitstellen, erhalten KI‑Agents eine Grundlage und es wird eine Vertrauensbasis für jeden Nutzer geschaffen, der mit den Daten interagiert.
In diesem Tutorial erfahren Sie, wie Sie Datenkontext in Knowledge Catalog herstellen. Diese Anleitung richtet sich an Nutzer wie Data Stewards und Business-Analysten. Sie enthält UI-basierte Schritte zum Erstellen von Standardbegriffen und ‑kontexten, bevor Sie diese Workflows automatisieren. In diesem Tutorial werden die Beziehungen zwischen den wichtigsten Konzepten des Knowledge Catalog erläutert. Am Ende wissen Sie, wie Sie Ihre Daten auffindbar und vertrauenswürdig machen.
Ziele
In dieser Anleitung erfahren Sie mehr über die folgenden Themen:
- Mit einem Unternehmensglossar können Sie eine zentrale Datenquelle für Geschäftsbegriffe erstellen.
- Metadaten mit Aspekttypen strukturieren und organisieren
- Weisen Sie Daten-Assets mit Aspekten Metadaten zu.
- Mit Knowledge Catalog Search können Sie mithilfe dieser neuen strukturierten Metadaten genau das finden, was Sie benötigen.
Hinweis
Führen Sie zuerst folgende Schritte aus:
- Wählen Sie ein Google Cloud -Projekt für diese Anleitung aus.
- Prüfen Sie, ob für Ihr Projekt die Abrechnung aktiviert ist.
Umgebung einrichten
In dieser Anleitung wird Cloud Shell verwendet, eine Befehlszeilenumgebung, die in der Cloud ausgeführt wird.
Klicken Sie in der Google Cloud Console in der Symbolleiste rechts oben auf Cloud Shell aktivieren. Die Bereitstellung und Verbindung mit der Umgebung dauert einen kleinen Moment.
Legen Sie in Cloud Shell die Variablen
PROJECT_IDundLOCATIONso fest, dass alle zukünftigen Befehle auf Ihr spezifisches Google Cloud -Projekt ausgerichtet sind.export PROJECT_ID=$(gcloud config get-value project) gcloud config set project $PROJECT_ID export LOCATION="us-central1"Aktivieren Sie die erforderlichen Google Cloud Dienste.
gcloud services enable \ dataplex.googleapis.com \ bigquery.googleapis.com \ datacatalog.googleapis.com
BigQuery-Dataset erstellen und Beispieldaten vorbereiten
Mit dem folgenden Code können Sie ein BigQuery-Dataset erstellen und einige CSV-Beispieltransaktionen in eine Tabelle laden. Nachdem Sie die Tabelle erstellt haben, wird sie von Knowledge Catalog erkannt und es wird ein Eintrag dafür im Katalog erstellt.
Ein Eintrag ist die Darstellung eines Daten-Assets in Knowledge Catalog. Es ist wie ein Datensatz im Katalog, an den Sie Metadaten anhängen können. Anstatt der BigQuery-Tabelle direkt Kontext hinzuzufügen (oder sie anzureichern), fügen Sie ihn dem zugehörigen Eintrag in Knowledge Catalog hinzu.
# Create the BigQuery Dataset in the us-central1 region
bq --location=$LOCATION mk --dataset \
--description "Sample retail data for foundational data context tutorial" \
$PROJECT_ID:retail_data
# Create a temporary CSV file with the sample data
echo "transaction_id,user_email,gmv,transaction_date
1001,test@example.com,150.50,2025-08-28
1002,user@example.com,75.00,2025-08-28" > /tmp/transactions.csv
# Load the data from the temporary CSV file into a BigQuery table
bq load \
--source_format=CSV \
--autodetect \
retail_data.transactions \
/tmp/transactions.csv
# (Optional) Clean up the temporary file
rm /tmp/transactions.csv
Führen Sie eine SELECT-Abfrage aus, um die Einrichtung zu überprüfen:
bq query --nouse_legacy_sql "SELECT * FROM retail_data.transactions"
Beispielausgabe:
+----------------+------------------+-------+------------------+
| transaction_id | user_email | gmv | transaction_date |
+----------------+------------------+-------+------------------+
| 1001 | test@example.com | 150.5 | 2025-08-28 |
| 1002 | user@example.com | 75.0 | 2025-08-28 |
+----------------+------------------+-------+------------------+
Gemeinsame Begriffe mit einem Unternehmensglossar festlegen
Ein guter Datenkontext hängt von klaren Definitionen ab. Ein Entwickler sollte beispielsweise nicht raten müssen, ob eine Spalte mit dem Namen gmv den Bruttowarenwert angibt oder ob sie Steuern und Retouren enthält. Ein Unternehmensglossar schafft eine einzige Quelle für diese Definitionen in Ihrem gesamten Unternehmen. Wenn Teammitglieder oder KI-Agents Ihre Daten analysieren, wird dieser genaue geschäftliche Kontext übernommen. Gemeinsame Definitionen gleichen Messwerte in Teams wie Finanzen, Vertrieb und Betrieb an und helfen KI-Agents, Halluzinationen zu vermeiden.
So erstellen Sie ein Glossar und definieren den ersten Begriff:
Rufen Sie in der Google Cloud Console die Seite Glossare im Knowledge Catalog auf.
Klicken Sie auf Unternehmensglossar erstellen.
Geben Sie die folgenden Informationen ein:
- Display name (Anzeigename):
Retail Business Glossary. - Standort:
us-central1 (Iowa)
- Display name (Anzeigename):
Klicken Sie auf Erstellen.
Klicken Sie auf Kategorie erstellen.
Geben Sie einen Namen für die Kategorie ein
Sales Metricsund klicken Sie auf Erstellen.Wählen Sie die Kategorie Verkaufsstatistiken aus und klicken Sie auf Begriff hinzufügen.
Geben Sie einen Namen für den Begriff
Gross Merchandise Valueein und klicken Sie auf Erstellen.Klicken Sie auf den Begriff Bruttowarenwert, um die zugehörige Detailseite zu öffnen.
Klicken Sie neben Übersicht auf Hinzufügen. Geben Sie die folgenden Informationen ein:
The total value of merchandise sold over a given period of time before the deduction of any fees or expenses. This is a key indicator of e-commerce business growth.Klicken Sie auf Speichern.
Sie haben jetzt einen Glossarbegriff erstellt, den Sie mit Dateneinträgen in Ihrer gesamten Organisation verknüpfen können.
Technische Metadaten mit einem Aspekttyp definieren
Wenn Sie unstrukturierte Metadaten-Tags verwenden, erhalten Sie oft inkonsistente Katalogeinträge. So kann beispielsweise eine Tabelle mit owner:bob und eine andere mit steward:alice@example.com getaggt werden. Damit Ihre Metadaten auch bei großen Mengen organisiert bleiben, benötigen Sie ein einheitliches Schema.
Hier kommen Aspekttypen ins Spiel. Ein Aspekttyp ist eine Metadaten-Blaupause, mit der Sie klare Regeln und Pflichtfelder festlegen können. Wenn Sie Standardfelder wie gültige E‑Mail-Adressen für Datenverantwortliche angeben, können nachgelagerte Scripts Ihre Metadaten automatisch validieren und schützen.
So erstellen Sie einen Aspekttyp:
Rufen Sie in der Google Cloud Console auf der Seite Metadatentypen den Tab Aspekttypen des Knowledge Catalog auf.
Klicken Sie auf dem Tab Benutzerdefiniert auf Erstellen.
Geben Sie die folgenden Informationen ein:
- Display name (Anzeigename):
Data Asset Context. - Standort:
us-central1 (Iowa)
- Display name (Anzeigename):
Klicken Sie im Bereich Vorlage auf Feld hinzufügen, um die folgenden drei Felder zu erstellen:
Feld 1:
- Display name (Anzeigename):
Data Steward. - Typ:
Text - Erforderlich: Aktivieren Sie das Kästchen.
- Texttyp:
Plain text
- Display name (Anzeigename):
Feld 2 (klicken Sie auf Feld hinzufügen):
- Display name (Anzeigename):
Data Sensitivity. - Typ:
Enum - Erforderlich: Optional lassen.
- Werte: Fügen Sie
Public,InternalundConfidentialhinzu.
- Display name (Anzeigename):
Feld 3 (klicken Sie auf Feld hinzufügen):
- Display name (Anzeigename):
Last Review Date. - Erforderlich: Optional lassen.
- Typ:
Date and time
- Display name (Anzeigename):
Klicken Sie auf Speichern.
Es gibt jetzt einen Aspekttyp für Metadatenfelder, die mit Data Governance zusammenhängen, z. B. Datenverantwortlicher, Vertraulichkeitsstufe und Überprüfungsdatum. Im nächsten Abschnitt wenden Sie dieses Schema auf einen Tabelleneintrag an, indem Sie ein Attribut mit bestimmten Werten für diese Felder anhängen.
Eintrag mit geschäftlichem und technischem Kontext anreichern
Spaltennamen sind oft abgekürzt oder mehrdeutig. Wenn Sie eine Spalte mit einem Begriff in Ihrem Unternehmensglossar verknüpfen, erhalten Sie eine klare und einheitliche Definition. In diesem Schritt reichern Sie den Eintrag für die Tabelle retail_data.transactions an, indem Sie den Begriff Gross Merchandise Value mit einer Spalte namens gmv verknüpfen und dem Tabelleneintrag mithilfe Ihres Aspekttyps einen Aspekt hinzufügen.
Spalte mit einem Unternehmensbegriff verknüpfen
Um zu verdeutlichen, was die Spalte gmv in retail_data.transactions ist, verlinken Sie sie mit dem Begriff Gross Merchandise Value.
Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.
Klicken Sie auf Filter, um den Bereich Filter zu öffnen.
Wählen Sie unter Umfang die Option Aktuelles Projekt aus.
Suchen Sie nach
retail_data.transactionsund klicken Sie auf die zurückgegebene Transaktionstabelle.Klicken Sie auf den Tab Schema.
Klicken Sie das Kästchen neben der Spalte
gmvan und wählen Sie Geschäftsbegriff hinzufügen aus.Wählen Sie
Gross Merchandise Valueaus.
Aspekt an den Tabelleneintrag anhängen
Sie können nicht nur Geschäftsbegriffe mit Spalten verknüpfen, sondern auch einen Aspekt an einen Tabelleneintrag anhängen, um Metadaten auf Tabellenebene zu erfassen, z. B. Dateneigentum und Vertraulichkeit.
Ein Aspekt ist eine Instanz eines Aspekttyps mit bestimmten Werten für Metadatenfelder. Wenn Sie einem Eintrag einen Aspekt zuweisen, vergleicht Knowledge Catalog die von Ihnen angegebenen Informationen mit dem im Aspekttyp definierten Schema, um die Konsistenz zu gewährleisten.
Wenn Sie Inhaberschaft und Vertraulichkeit für die Tabelle retail_data.transactions definieren möchten, hängen Sie den Aspekt Data Asset Context an:
- Klicken Sie auf der Seite des
retail_data.transactions-Eintrags auf dem Tab Details neben Optionale Aspekte auf Hinzufügen. - Wählen Sie
Data Asset Contextaus der Liste aus. Geben Sie Werte in die Felder ein:
- Data Steward:
finance-team@example.com - Data Sensitivity (Datenvertraulichkeit): Wählen Sie Internal (Intern) aus.
- Datum der letzten Überprüfung:Wählen Sie das heutige Datum aus.
- Data Steward:
Klicken Sie auf Speichern.
Durch die Anreicherung Ihrer Beispieltransaktionsdaten für den Einzelhandel haben Sie eine solide Grundlage für den Datenkontext in Knowledge Catalog geschaffen.
Mit angereicherten Metadaten nach Einträgen suchen
Sie können jetzt die Knowledge Catalog-Suche verwenden, um Einträge basierend auf dem von Ihnen eingerichteten Geschäftskontext zu finden. Sie können beispielsweise alle Assets mit einem bestimmten Vertraulichkeitsniveau finden oder nach einem Glossarbegriff suchen, um die zugrunde liegenden Tabellen zu ermitteln.
Rufen Sie in der Google Cloud Console die Seite Suchen im Knowledge Catalog auf.
Klicken Sie auf Filter, um den Bereich Filter zu öffnen.
Wählen Sie unter Umfang die Option Aktuelles Projekt aus.
Geben Sie in der Suchleiste
Find tables where the Data Asset Context aspect has Internal sensitivity.ein.Ihre Tabelle
retail_data.transactionssollte in der Ergebnisliste angezeigt werden.Leeren Sie die Suchleiste und geben Sie
Find tables with the Gross Merchandise Value term attached.ein.Die Tabelle
retail_data.transactionssollte wieder in den Ergebnissen angezeigt werden, da die Spaltegmvdirekt mit diesem Begriff verknüpft ist.
Wenn Sie einen KI-Agenten mit Knowledge Catalog verbinden, werden diese angereicherten Metadaten automatisch übernommen. Wenn Sie einen Agent beispielsweise bitten, interne Umsatzmesswerte abzurufen, liest er den Aspekt „Datensensibilität“ (den Sie auf „Intern“ festgelegt haben) und den verknüpften Glossarbegriff „Bruttowarenwert“. Dieser gemeinsame Kontext hilft dem Agent, seine Datenquellen zu überprüfen, Zugriffsrichtlinien einzuhalten und Halluzinationen zu vermeiden.
Bereinigen
Löschen Sie die in dieser Anleitung erstellten Ressourcen, um Gebühren zu vermeiden.
Beispiel-Dataset löschen
Verwenden Sie den folgenden Befehl, um das BigQuery-Beispieldataset und alle zugehörigen Tabellen zu löschen. Diese Aktion kann nicht rückgängig gemacht werden.
# Re-run these exports if your Cloud Shell session timed out
export PROJECT_ID=$(gcloud config get-value project)
# Manually type this command to confirm you are deleting the correct dataset
bq rm -r -f --dataset $PROJECT_ID:retail_data
Knowledge Catalog-Artefakte löschen
Rufen Sie in der Google Cloud Console auf der Seite Metadatentypen den Tab Aspekttypen des Knowledge Catalog auf.
Wählen Sie den Aspekttyp
Data Asset Contextaus und klicken Sie auf Löschen.Rufen Sie in der Google Cloud Console die Seite Glossare im Knowledge Catalog auf.
Wählen Sie den Begriff
Gross Merchandise Valueaus und klicken Sie auf Löschen.Wählen Sie die Kategorie
Sales Metricsaus und klicken Sie auf Löschen.Wählen Sie
Retail Business Glossaryaus und klicken Sie auf Löschen.
Nächste Schritte
Weitere Informationen zur Katalogkuration und zum Erstellen von KI-Agenten mit Knowledge Catalog finden Sie in den folgenden Ressourcen:
- Aspekte verwalten und Metadaten anreichern:Hier erfahren Sie, wie Sie benutzerdefinierte Schemas definieren und strukturierte Metadaten anhängen. Aspekte verwalten und Metadaten anreichern
- Unternehmensglossare verwalten:Hier erfahren Sie, wie Sie ein standardisiertes Vokabular für Ihre Organisation erstellen.
- Mit Terraform verwalten:Hier erfahren Sie, wie Sie benutzerdefinierte Aspekttypen und Glossare mit Terraform bereitstellen.
- Glossarbegriffe im großen Maßstab verarbeiten:Führen Sie die Bulk-Metadatenanreicherung mit JSON-Dateien durch. Weitere Informationen finden Sie unter Glossare und Eintragslinks importieren und exportieren.
- Metadaten mit Agents anreichern:Erstellen Sie einen KI-Agenten, um Kontext zu extrahieren und Ihre Daten-Assets anzureichern. Weitere Informationen
- Noch mehr entdecken:Im Bereich Anwendungsfälle finden Sie zusätzliche praktische Workflows und Szenarien.