Datenprodukte

In diesem Dokument werden die Architektur und die wichtigsten Konzepte von Datenprodukten im Dataplex Universal Catalog beschrieben.

Ein Datenprodukt ist eine logische, kuratierte Sammlung von Daten-Assets, die formal verpackt sind, um sicherzustellen, dass sie auffindbar, vertrauenswürdig und zugänglich sind. Zu den wichtigsten Funktionen eines Datenprodukts gehören:

  • Organisieren Sie Katalog-Assets in einer logischen Einheit, die ein bestimmtes geschäftliches Problem löst und schnellere Erkenntnisse ermöglicht.
  • Verteilen Sie den Kontext mit einer Beschreibung, Dokumentation und Aspekten.
  • Vertrauen durch Verträge schaffen, die es Datenproduzenten ermöglichen, Datennutzern Zusicherungen zu geben.
  • Self-Service-Workflow für Datennutzer bereitstellen, damit sie Datenprodukte bewerten und auf Daten zugreifen können.

Wichtige Konzepte

In diesem Abschnitt werden die wichtigsten Konzepte und Begriffe im Zusammenhang mit Datenprodukten beschrieben.

Datenprodukt

Eine kuratierte, logische Gruppierung von Daten-Assets, die formal so verpackt sind, dass sie auffindbar, vertrauenswürdig und zugänglich sind, um spezifische Geschäftsprobleme zu lösen.

Asset

Ein Zeiger auf eine physische Datenressource, z. B. ein BigQuery-Dataset, eine BigQuery-Tabelle oder eine BigQuery-Ansicht. Ein Datenprodukt besteht aus einem oder mehreren Assets.

Zugriffsgruppe

Google-Gruppen werden von Datenproduktinhabern konfiguriert und von Datenproduktnutzern verwendet, um Zugriff anzufordern. Asset-Berechtigungen werden diesen Zugriffsgruppen zugewiesen.

Zugriffsgruppen vereinfachen die Berechtigungsverwaltung für Ihr Datenprodukt. Sie fungieren als nutzerfreundliche Aliase (z. B. Reader oder Analyst) für zugrunde liegende IAM-Gruppen. So können Inhaber von Datenprodukten Berechtigungen auf hoher Ebene zuweisen und Nutzer können die richtige Zugriffsebene anfordern.

Datenproduktinhaber oder Datenersteller

Die Person oder das Team, die für die Erstellung und Verwaltung von Datenprodukten verantwortlich sind. Dazu gehören die Verwaltung von Qualität, Zugriff und Dokumentation.

Nutzer von Datenprodukten

Die Person, das Team oder der KI-Agent, der Datenprodukte nutzt, um Statistiken zu generieren.

Vertrag

Eine Vereinbarung zwischen dem Inhaber des Datenprodukts und den Nutzern. In dieser Vereinbarung werden klare Erwartungen festgelegt, indem bestimmte Bedingungen für die Bereitstellung und Nutzung der Daten definiert werden, z. B. der Aktualisierungszeitplan und die Qualitätsstandards.

Anwendungsbeispiel

Stellen Sie sich einen Data Scientist vor, der ein E‑Commerce-Unternehmen analysiert. Ziel ist es, den durchschnittlichen Bestellwert nach Traffic-Quelle zu ermitteln und zu sehen, ob es eine Korrelation zwischen dem Alter der Nutzer und der Bestellgröße gibt. Dazu müssen sie Daten aus mehreren Tabellen wie order_details, user_traffic und user_demographic kombinieren.

Bei einer herkömmlichen Einrichtung führt dieser Prozess zu Reibungsverlusten. Um Erkenntnisse zu gewinnen, muss der Data Scientist zuerst die richtigen Tabellen in der riesigen Datenlandschaft der Organisation finden, dann jeden Dateninhaber kontaktieren, seinen Zugriffsantrag begründen und auf die Genehmigung warten.

Mit Datenprodukten können Dateninhaber diesen Prozess optimieren, indem sie die relevanten Assets in einem einzigen Produkt mit dem Namen „E-Commerce-Geschäftsdaten“ zusammenfassen. Dieses Paket enthält Folgendes:

  • Assets

    • BigQuery-Tabellen order_details und user_traffic (mit Verlaufsdaten zu Bestellungen und Traffic-Quellen)
    • BigQuery-Ansicht user_demographics (mit Nutzerdetails ohne personenbezogene Daten)
  • Zugriffsgruppen

    • Vordefinierte Reader- und Writer-Gruppen zur Optimierung von Zugriffsanfragen
  • Vertrag

    • Ein Vertrag, in dem die Häufigkeit der Datenaktualisierung festgelegt ist (z. B. wöchentlich um 8:00 Uhr PST)
  • Kontext

    • Dokumentation mit Beispielabfragen und anderen Details
    • Zusätzliche Metadaten zur Darstellung der Vertraulichkeit von Daten

Data Scientists können dieses Datenprodukt jetzt als einzelne logische Einheit erkennen. So können sie fundierte Statistiken erstellen, um Fragen wie „Was ist der durchschnittliche Bestellwert für jede Traffic-Quelle?“ zu beantworten. So lässt sich letztendlich ermitteln, welche Quellen die Kunden mit dem höchsten Umsatzpotenzial generieren.

User-Flow für Datenprodukte

Der Datenproduktlebenszyklus in Dataplex Universal Catalog umfasst zwei wichtige Nutzeraktionen: eine für den Datenprodukteigentümer (oder ‑erzeuger), der die Daten erstellt und verwaltet, und eine für den Datenproduktnutzer, der die Daten findet und verwendet.

Der Weg zum Datenproduktinhaber

In diesem Abschnitt geht es darum, die Datenprodukte zu verpacken, zu sichern und zu verwalten, damit sie vertrauenswürdig und zugänglich sind.

  • Erstellen: Definieren Sie das Datenprodukt und fügen Sie Assets hinzu. Dazu sind folgende Schritte erforderlich:

    • Konfigurieren Sie den eindeutigen Namen, das Projekt, die Region und die Beschreibung.
    • Fügen Sie Assets wie BigQuery-Tabellen, -Datasets oder -Ansichten hinzu.
    • Konfigurieren Sie Zugriffsgruppen (z. B. Analyst oder Reader) und ordnen Sie sie zugrunde liegenden Google-Gruppen zu, um die Berechtigungsverwaltung zu vereinfachen.
    • Weisen Sie diesen Zugriffsgruppen die erforderlichen IAM-Rollen für die jeweiligen Assets zu.
    • Fügen Sie einen Vertrag (einen Systemaspekt) hinzu, um die vereinbarte Datenaktualisierungshäufigkeit, ‑frequenz und ‑schwelle formal zu kommunizieren.

    Weitere Informationen finden Sie unter Datenprodukte erstellen.

  • Verwalten: Aktualisieren Sie das Datenprodukt und sorgen Sie für Sichtbarkeit. Dazu sind folgende Schritte erforderlich:

    • Aktualisieren Sie grundlegende Details, Assets, Berechtigungen, zusätzliche Aspekte (Metadaten) und Rich-Text-Dokumentation.
    • Nutzern Zugriff gewähren, damit sie Datenprodukte finden und Zugriff darauf anfordern können.

    Weitere Informationen finden Sie unter Datenprodukte verwalten.

Kaufprozess für Datenprodukte

In diesem Abschnitt geht es darum, schnell vertrauenswürdige Daten zu finden und die erforderlichen Berechtigungen für die Verwendung zu erhalten.

  • Entdecken: Relevante, vertrauenswürdige Daten für ein bestimmtes Geschäftsproblem finden. Dazu sind folgende Aktionen erforderlich:

    • Verwenden Sie die Dataplex Universal Catalog-Suche mit Keywords oder natürlicher Sprache, um das verpackte Datenprodukt zu finden.
    • Sehen Sie sich die Übersicht, die Assets, den Vertrag und andere Aspekte des Datenprodukts an, um festzustellen, ob es für Ihre Zwecke geeignet ist.

    Weitere Informationen finden Sie unter Nach Datenprodukten suchen.

  • Zugriff anfordern: Bitten Sie den Inhaber des Datenprodukts um die Berechtigung, auf die Daten zuzugreifen.

    Weitere Informationen finden Sie unter Zugriff auf Datenprodukte anfordern.

  • Verwenden: Auf die zugrunde liegenden Assets zugreifen, um Statistiken zu generieren. Dazu ist folgende Aktion erforderlich:

    • Nach der Genehmigung können Sie auf das Produkt und seine Assets zugreifen. Wenn es sich bei dem Asset beispielsweise um eine BigQuery-Tabelle handelt, können Sie zum BigQuery-Studio wechseln und die Daten direkt abfragen.

    Weitere Informationen finden Sie unter Datenprodukte nutzen.

Unterstützte Assets

Ein Datenprodukt kann aus einem oder mehreren Daten-Assets bestehen. In der Vorschau werden die folgenden Daten-Assets unterstützt:

  • BigQuery-Datasets
  • BigQuery-Tabellen
  • BigQuery-Ansichten

Beschränkungen

  • Datenprodukte und die zugrunde liegenden Assets müssen sich am selbenGoogle Cloud Standort befinden.
  • Ein Datenprodukt kann maximal 10 Assets enthalten.
  • Sie können maximal 50 Datenprodukte pro Projekt erstellen.
  • Die Integration des Genehmigungsworkflows für Anfragen ist nicht als Vorabversion verfügbar. Nutzer von Datenprodukten können jedoch Zugriff anfordern, indem sie E‑Mail-Benachrichtigungen an die Inhaber von Datenprodukten senden.

Nächste Schritte