Datenprodukte

In diesem Dokument werden die Architektur und die wichtigsten Konzepte von Datenprodukten in Dataplex Universal Catalog beschrieben.

Ein Datenprodukt ist eine logische, kuratierte Sammlung von Daten-Assets, die formell verpackt sind, um sicherzustellen, dass sie auffindbar, vertrauenswürdig und zugänglich sind. Zu den wichtigsten Funktionen eines Datenprodukts gehören:

  • Katalog-Assets in einer logischen Einheit organisieren, die ein bestimmtes Geschäftsproblem löst und schnellere Erkenntnisse ermöglicht.
  • Mit Kontext verteilen, der eine Beschreibung, Dokumentation und Aspekte enthält.
  • Vertrauen mit Verträgen schaffen, die es Datenproduzenten ermöglichen, Datenkonsumenten Zusicherungen zu geben.
  • Self-Service-Workflow für Datenkonsumenten bereitstellen, um Datenprodukte zu bewerten und Zugriff auf Daten zu erhalten.

Wichtige Konzepte

In diesem Abschnitt werden die wichtigsten Konzepte und Begriffe im Zusammenhang mit Datenprodukten beschrieben.

Datenprodukt

Eine kuratierte, logische Gruppierung von Daten-Assets, die formell verpackt sind, um auffindbar, vertrauenswürdig und zugänglich zu sein und bestimmte Geschäftsprobleme zu lösen.

Asset

Ein Verweis auf eine physische Datenressource wie ein BigQuery-Dataset, eine BigQuery-Tabelle oder eine BigQuery-Ansicht. Ein Datenprodukt enthält ein oder mehrere Assets.

Zugriffsgruppe

Google-Gruppen werden von Datenproduktinhabern konfiguriert und von Datenproduktkonsumenten verwendet, um Zugriff anzufordern. Asset-Berechtigungen werden diesen Zugriffsgruppen zugewiesen.

Zugriffsgruppen vereinfachen die Berechtigungsverwaltung für Ihr Datenprodukt. Sie fungieren als nutzerfreundliche Aliase (z. B. Reader oder Analyst) für zugrunde liegende IAM-Gruppen. So können Datenproduktinhaber Berechtigungen auf hoher Ebene zuweisen und Konsumenten können die richtige Zugriffsebene anfordern.

Datenproduktinhaber oder Datenproduzent

Die Person oder das Team, die für die Erstellung und Verwaltung von Datenprodukten verantwortlich sind. Dazu gehören die Verwaltung von Qualität, Zugriff und Dokumentation.

Datenproduktkonsument

Die Person, das Team oder der KI-Agent, der Datenprodukte verwendet, um Erkenntnisse zu gewinnen.

Vertrag

Eine Vereinbarung zwischen dem Datenproduktinhaber und den Konsumenten. Diese Vereinbarung legt klare Erwartungen fest, indem sie bestimmte Bedingungen für die Bereitstellung und Verwendung der Daten definiert, z. B. den Aktualisierungszeitplan und die Qualitätsstandards.

Anwendungsbeispiel

Stellen Sie sich einen Data Scientist vor, der ein E‑Commerce-Unternehmen analysiert. Ziel ist es, den durchschnittlichen Bestellwert nach Traffic-Quelle zu ermitteln und zu prüfen, ob es eine Korrelation zwischen dem Alter des Nutzers und der Bestellmenge gibt. Dazu müssen Daten aus mehreren Tabellen kombiniert werden, z. B. order_details, user_traffic und user_demographic.

In einer herkömmlichen Konfiguration führt dieser Prozess zu Reibungsverlusten. Um Erkenntnisse zu gewinnen, muss der Data Scientist zuerst die richtigen Tabellen in der riesigen Datenlandschaft des Unternehmens finden, dann jeden Dateninhaber kontaktieren, die Zugriffsanfrage begründen und auf die Genehmigung warten.

Mit Datenprodukten können Dateninhaber diesen Prozess optimieren, indem sie die relevanten Assets in einem einzigen Produkt mit dem Namen „Ecommerce Business Data“ zusammenfassen. Dieses Paket enthält Folgendes:

  • Assets

    • BigQuery-Tabellen order_details und user_traffic mit historischen Bestelldaten und Traffic-Quellen
    • BigQuery-Ansicht user_demographics mit Nutzerdetails ohne personenbezogene Daten
  • Zugriffsgruppen

    • Vordefinierte Gruppen Reader und Writer, um Zugriffsanfragen zu optimieren
  • Vertrag

    • Ein Vertrag, in dem die Häufigkeit der Datenaktualisierung definiert ist (z. B. wöchentlich um 8:00 Uhr PST)
  • Kontext

    • Dokumentation mit Beispielabfragen und anderen Details
    • Zusätzliche Metadaten zur Darstellung der Datensensibilität

Data Scientists können dieses Datenprodukt jetzt als eine einzige logische Einheit finden. So können sie zuverlässig Erkenntnisse gewinnen, um Fragen wie „Wie hoch ist der durchschnittliche Bestellwert für jede Traffic-Quelle?“ zu beantworten und letztendlich herauszufinden, welche Quellen die wertvollsten Kunden generieren.

Nutzerfluss für Datenprodukte

Der Lebenszyklus von Datenprodukten in Dataplex Universal Catalog umfasst zwei wichtige Nutzerprozesse: einen für den Datenproduktinhaber (oder -produzenten), der die Daten erstellt und verwaltet, und einen für den Datenproduktkonsumenten, der sie findet und verwendet.

Prozess des Datenproduktinhabers

Dieser Prozess konzentriert sich auf das Verpacken, Sichern und Verwalten der Datenprodukte, um sicherzustellen, dass sie vertrauenswürdig und zugänglich sind.

  • Erstellen: Definieren Sie das Datenprodukt und fügen Sie Assets hinzu. Dazu sind folgende Schritte erforderlich:

    • Konfigurieren Sie den eindeutigen Namen, das Projekt, die Region und die Beschreibung.
    • Fügen Sie Assets wie BigQuery-Tabellen, ‑Datasets oder ‑Ansichten hinzu.
    • Konfigurieren Sie Zugriffsgruppen (z. B. Analyst oder Reader) und ordnen Sie sie zugrunde liegenden Google-Gruppen zu, um die Berechtigungsverwaltung zu vereinfachen.
    • Weisen Sie diesen Zugriffsgruppen die erforderlichen IAM-Rollen für die jeweiligen Assets zu.
    • Fügen Sie einen Vertrag (einen Systemaspekt) hinzu, um die vereinbarte Aktualisierungsfrequenz, ‑häufigkeit und ‑schwelle für Daten formell zu kommunizieren.

    Weitere Informationen finden Sie unter Datenprodukte erstellen.

  • Verwalten: Aktualisieren Sie das Datenprodukt und sorgen Sie für Auffindbarkeit. Dazu sind folgende Schritte erforderlich:

    • Aktualisieren Sie grundlegende Details, Assets, Berechtigungen und zusätzliche Aspekte (Metadaten) sowie Rich-Text-Dokumentation.
    • Gewähren Sie Konsumenten Zugriff, um Datenprodukte zu finden und Zugriff darauf anzufordern.

    Weitere Informationen finden Sie unter Datenprodukte verwalten.

Prozess des Datenproduktkonsumenten

Dieser Prozess konzentriert sich darauf, schnell vertrauenswürdige Daten zu finden und die erforderlichen Berechtigungen für die Verwendung zu erhalten.

  • Finden: Suchen Sie nach relevanten, vertrauenswürdigen Daten für ein bestimmtes Geschäftsproblem. Dazu sind folgende Schritte erforderlich:

    • Verwenden Sie die Dataplex Universal Catalog-Suche mit Keywords oder natürlicher Sprache, um das verpackte Datenprodukt zu finden.
    • Prüfen Sie die Übersicht, die Assets, den Vertrag und andere Aspekte des Datenprodukts, um festzustellen, ob es für die Verwendung geeignet ist.

    Weitere Informationen finden Sie unter Nach Datenprodukten suchen.

  • Zugriff anfordern: Bitten Sie den Datenproduktinhaber um die Berechtigung, auf die Daten zuzugreifen.

    Weitere Informationen finden Sie unter Zugriff auf Datenprodukte anfordern.

  • Verwenden: Greifen Sie auf die zugrunde liegenden Assets zu, um Erkenntnisse zu gewinnen. Dazu ist folgende Aktion erforderlich:

    • Nach der Genehmigung können Sie auf das Produkt und seine Assets zugreifen. Wenn das Asset beispielsweise eine BigQuery-Tabelle ist, können Sie zum BigQuery-Studio navigieren und die Daten direkt abfragen.

    Weitere Informationen finden Sie unter Datenprodukte verwenden.

Unterstützte Assets

Ein Datenprodukt kann aus einem oder mehreren Daten-Assets bestehen. In der Vorschau werden die folgenden Daten-Assets unterstützt:

  • BigQuery-Datasets
  • BigQuery-Tabellen
  • BigQuery-Ansichten

Beschränkungen

  • Datenprodukte und ihre zugrunde liegenden Assets müssen sich am selben Google Cloud Standort befinden.
  • Ein Datenprodukt kann maximal 10 Assets enthalten.
  • Sie können maximal 50 Datenprodukte pro Projekt und Region erstellen.
  • Die Integration des Workflows für die Genehmigungsanfrage ist in der Vorschau nicht verfügbar. Datenproduktkonsumenten können jedoch Zugriff anfordern, indem sie E‑Mail-Benachrichtigungen an Datenproduktinhaber senden.

Nächste Schritte