In diesem Dokument werden die Architektur und die wichtigsten Konzepte von Datenprodukten in Knowledge Catalog (ehemals Dataplex Universal Catalog) beschrieben.
Ein Datenprodukt ist eine logische, kuratierte Sammlung von Daten-Assets, die formell verpackt sind, um sicherzustellen, dass sie auffindbar, vertrauenswürdig und zugänglich sind. Zu den wichtigsten Funktionen eines Datenprodukts gehören:
- Katalog-Assets in einer logischen Einheit organisieren, die ein bestimmtes Geschäftsproblem löst und schnellere Erkenntnisse ermöglicht.
- Mit Kontext verteilen, einschließlich einer Beschreibung, Dokumentation und Aspekten.
- Vertrauen durch Verträge schaffen, mit denen Datenersteller Datennutzern Zusicherungen geben können.
- Selfservice-Workflow für Datennutzer bereitstellen, damit sie Datenprodukte bewerten und auf Daten zugreifen können.
Wichtige Konzepte
In diesem Abschnitt werden die wichtigsten Konzepte und Begriffe im Zusammenhang mit Datenprodukten beschrieben.
Datenprodukt
Eine kuratierte, logische Gruppierung von Daten-Assets, die formell verpackt sind, um auffindbar, vertrauenswürdig und zugänglich zu sein und bestimmte Geschäftsprobleme zu lösen.
Asset
Ein Verweis auf eine physische Datenressource, z. B. ein BigQuery-Dataset, eine BigQuery-Tabelle oder eine BigQuery-Ansicht. Ein Datenprodukt enthält ein oder mehrere Assets.
Zugriffsgruppe
Zugriffsgruppen vereinfachen die Berechtigungsverwaltung für Ihr Datenprodukt. Sie ordnen nutzerfreundliche Rollen (z. B. Reader oder Analyst) zugrunde liegenden Google-Gruppen oder Dienstkonten zu. Durch diese Abstraktion können Datenproduktinhaber den Zugriff auf konzeptioneller Ebene verwalten und Datennutzer können die entsprechende Zugriffsebene anfordern.
Datenproduktinhaber konfigurieren Zugriffsgruppen und weisen ihnen bestimmte Asset-Berechtigungen zu.
Datennutzer verwenden diese Gruppen, um Zugriff auf das Datenprodukt anzufordern.
Datenproduktinhaber oder Datenersteller
Die Person oder das Team, die für die Erstellung und Verwaltung von Datenprodukten verantwortlich sind. Dazu gehören die Verwaltung von Qualität, Zugriff und Dokumentation.
Datennutzer
Die Person, das Team oder der KI-Agent, der Datenprodukte verwendet, um Erkenntnisse zu gewinnen.
Vertrag
Eine Vereinbarung zwischen dem Datenproduktinhaber und den Datennutzern. Diese Vereinbarung legt klare Erwartungen fest, indem sie bestimmte Bedingungen für die Bereitstellung und Verwendung der Daten definiert, z. B. den Aktualisierungszeitplan und die Qualitätsstandards.
Anwendungsbeispiel
Ein Data Scientist analysiert ein E‑Commerce-Unternehmen. Ziel ist es, den durchschnittlichen Bestellwert nach Traffic-Quelle zu ermitteln und zu prüfen, ob es eine Korrelation zwischen dem Alter des Nutzers und der Bestellgröße gibt. Dazu müssen Daten aus mehreren Tabellen kombiniert werden, z. B. order_details, user_traffic und user_demographics.
In einer herkömmlichen Einrichtung führt dieser Prozess zu Reibungsverlusten. Um Erkenntnisse zu gewinnen, muss der Data Scientist zuerst die richtigen Tabellen in der riesigen Datenlandschaft des Unternehmens finden, dann jeden Dateninhaber kontaktieren, die Zugriffsanfrage begründen und auf die Genehmigung warten.
Mit Datenprodukten können Dateninhaber diesen Prozess optimieren, indem sie die relevanten Assets in einem einzigen Produkt mit dem Namen „E‑Commerce-Geschäftsdaten“ zusammenfassen. Dieses Paket enthält Folgendes:
Assets
- BigQuery-Tabellen
order_detailsunduser_traffic(mit historischen Bestelldaten und Traffic-Quellen) - BigQuery-Ansicht
user_demographics(mit Nutzerdetails ohne personenbezogene Daten)
- BigQuery-Tabellen
Zugriffsgruppen
- Vordefinierte Gruppen
ReaderundWriterzur Optimierung von Zugriffsanfragen
- Vordefinierte Gruppen
Vertrag
- Ein Vertrag, in dem die Häufigkeit der Datenaktualisierung definiert ist (z. B. wöchentlich um 8:00 Uhr PST)
Kontext
- Dokumentation mit Beispielabfragen und anderen Details
- Zusätzliche Metadaten zur Darstellung der Datensensibilität
Data Scientists können dieses Datenprodukt jetzt als eine einzige logische Einheit finden. So können sie zuverlässig Erkenntnisse gewinnen, um Fragen wie „Wie hoch ist der durchschnittliche Bestellwert für jede Traffic-Quelle?“ zu beantworten und letztendlich herauszufinden, welche Quellen die wertvollsten Kunden generieren.
Nutzerfluss für Datenprodukte
Der Lebenszyklus von Datenprodukten in Knowledge Catalog umfasst zwei wichtige Nutzerpfade: einen für den Datenproduktinhaber (oder ‑ersteller), der die Daten erstellt und verwaltet, und einen für den Datennutzer, der sie findet und verwendet.
Nutzerpfad des Datenproduktinhabers
Dieser Pfad konzentriert sich auf das Verpacken, Sichern und Verwalten der Datenprodukte, um sicherzustellen, dass sie vertrauenswürdig und zugänglich sind.
Erstellen: Definieren Sie das Datenprodukt und fügen Sie Assets hinzu. Dazu sind folgende Schritte erforderlich:
- Konfigurieren Sie den eindeutigen Namen, das Projekt, die Region und die Beschreibung.
- Fügen Sie Assets wie BigQuery-Tabellen, ‑Datasets oder ‑Ansichten hinzu.
- Konfigurieren Sie Zugriffsgruppen (z. B.
AnalystoderReader) und ordnen Sie sie zugrunde liegenden Google-Gruppen oder Dienstkonten zu, um die Berechtigungsverwaltung zu vereinfachen. - Weisen Sie diesen Zugriffsgruppen die erforderlichen IAM-Rollen für die jeweiligen Assets zu.
- Fügen Sie einen Vertrag (einen Systemaspekt) hinzu, um die vereinbarte Aktualisierungsfrequenz, ‑häufigkeit und ‑schwelle für Daten formell zu kommunizieren.
Weitere Informationen finden Sie unter Datenprodukte erstellen.
Verwalten: Aktualisieren Sie das Datenprodukt und sorgen Sie für Auffindbarkeit. Dazu sind folgende Schritte erforderlich:
- Aktualisieren Sie grundlegende Details, Assets, Berechtigungen und zusätzliche Aspekte (Metadaten) sowie RTF-Dokumentation.
- Gewähren Sie Nutzern Zugriff, damit sie Datenprodukte finden und Zugriff darauf anfordern können.
Weitere Informationen finden Sie unter Datenprodukte verwalten.
Nutzerpfad des Datennutzers
Dieser Pfad konzentriert sich darauf, schnell vertrauenswürdige Daten zu finden und die erforderlichen Berechtigungen für die Verwendung zu erhalten.
Finden: Suchen Sie nach relevanten, vertrauenswürdigen Daten für ein bestimmtes Geschäftsproblem. Dazu sind folgende Schritte erforderlich:
- Verwenden Sie die Knowledge Catalog-Suche mit Keywords oder natürlicher Sprache, um das verpackte Datenprodukt zu finden.
- Prüfen Sie die Übersicht, die Assets, den Vertrag und andere Aspekte des Datenprodukts, um festzustellen, ob es für die Verwendung geeignet ist.
Weitere Informationen finden Sie unter Nach Datenprodukten suchen.
Zugriff anfordern: Bitten Sie den Datenproduktinhaber um die Berechtigung, auf die Daten zuzugreifen.
Weitere Informationen finden Sie unter Zugriff auf Datenprodukte anfordern.
Verwenden: Greifen Sie auf die zugrunde liegenden Assets zu, um Erkenntnisse zu gewinnen. Dazu ist folgende Aktion erforderlich:
Nach der Genehmigung können Sie auf das Produkt und seine Assets zugreifen. Wenn das Asset beispielsweise eine BigQuery-Tabelle ist, können Sie zum BigQuery-Studio navigieren und die Daten direkt abfragen.
Für Anwendungen und Entwicklungs-Workflows außerhalb von Google Cloudkönnen Sie das Datenprodukt über ein externes Metadaten Gateway verfügbar machen. Weitere Informationen finden Sie unter Remote-MCP-Server von Knowledge Catalog verwenden.
Weitere Informationen finden Sie unter Datenprodukte verwenden.
Unterstützte Assets
Ein Datenprodukt kann aus einem oder mehreren Daten-Assets bestehen. Die folgenden Daten-Assets werden unterstützt:
- BigQuery-Datasets
- BigQuery-Tabellen
- BigQuery-Ansichten
- BigQuery-Routinen
- BigQuery-Modelle
- Externe BigQuery-Tabellen
- Gemini Enterprise Agent Platform-Datasets
- Gemini Enterprise Agent Platform-Modelle
Beschränkungen
- Standort: Datenprodukte und ihre zugrunde liegenden Assets müssen sich am selben Google Cloud Standort befinden.
- Automatisierte Metadaten: Automatisierte Dokumentation und Erkenntnisse unterstützen die Multiregionen
us(USA) undeu(Europäische Union) nicht. - BigQuery-Modelle: Der Zugriff auf BigQuery-Modelle in einem Datenprodukt wird über IAM-Bedingungen verwaltet, die auf die IAM-Richtlinie des übergeordneten Datasets angewendet werden. Für die Freigabe von BigQuery Modellen gelten die Beschränkungen von IAM-Bedingungen.
- Kontingente und Limits: Eine vollständige Liste der API-Ratenlimits und Kapazitätskontingente finden Sie unter siehe Kontingente für API-Anfragen für Datenprodukte.
Nächste Schritte
- Datenprodukt erstellen
- Mehr über das Verwalten von Datenprodukten erfahren.
- Erfahren Sie, wie Sie nach Datenprodukten suchen.
- Zugriff auf Datenprodukte anfordern
- VPC Service Controls mit Datenprodukten verwenden