Dieses Dokument richtet sich an Inhaber von Datenprodukten, die Datenprodukte in Knowledge Catalog (früher Dataplex Universal Catalog) erstellen und konfigurieren möchten.
Weitere Informationen zur Architektur und zu den wichtigsten Konzepten von Datenprodukten finden Sie unter Datenprodukte.
Hinweis
Bevor Sie Datenprodukte erstellen, müssen Sie die folgenden Voraussetzungen erfüllen.
Gemini aktivieren
Die Konfiguration von Gemini in Ihrem Daten-Asset ist ein optionaler, aber sehr empfehlenswerter Schritt, bevor Sie Ihr erstes Datenprodukt erstellen.
Standardmäßig müssen Sie beim Erstellen eines Datenprodukts Geschäfts- und technische Beschreibungen sowie Onboarding-Dokumentation für Ihre Assets manuell eingeben. Wenn Sie die Gemini-Integration aktivieren, nutzt Knowledge Catalog KI-Unterstützung, um Ihre Schemas und Daten-Scanergebnisse automatisch zu analysieren und Folgendes zu generieren:
- Geschäftsdokumentation:Generiert Dokumentationsvorlagen und klare Beschreibungen für Ihr Datenprodukt und die einzelnen Daten-Assets.
- Erkenntnisse und Beispielabfragen:Erstellt gebrauchsfertige Beispielabfragen basierend auf dem Schemalayout des Assets, sodass Datenverbraucher nach der Genehmigung sofort mit der Abfrage des Produkts beginnen können.
Wenn Sie Gemini nicht aktivieren möchten, können Sie diesen Abschnitt überspringen. Sie müssen jedoch alle Asset-Metadaten und Abfragevorlagen manuell angeben.
Weitere Informationen zum Aktivieren von Gemini in BigQuery finden Sie unter Gemini in BigQuery einrichten.
APIs aktivieren
Aktivieren Sie die Dataplex- und BigQuery-APIs.
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Weitere Informationen zum Zuweisen von Rollen
Daten-Assets erstellen
Prüfen Sie, ob Ihre Daten-Assets (z. B. BigQuery-Datasets, ‑Tabellen und ‑Ansichten) erstellt und mit Daten gefüllt wurden.
Weitere Informationen zum Erstellen von Daten-Assets finden Sie in den folgenden Dokumenten:
- BigQuery-Datasets erstellen
- BigQuery-Tabellen erstellen und verwenden
- Logische Ansichten in BigQuery erstellen
- Materialisierte Ansichten in BigQuery erstellen
Identitäten konfigurieren
Ermitteln oder erstellen Sie die Google-Gruppen oder Dienstkonten, die Sie in Ihrem Datenprodukt konfigurieren möchten.
Erforderliche Rollen
In diesem Abschnitt werden die erforderlichen Mindest-IAM-Rollen für die folgenden Hauptbereiche beschrieben:
Inhaber von Datenprodukten: Nutzer, die Datenprodukte und die zugehörigen Assets erstellen, konfigurieren und verwalten
Datennutzer: Nutzer, die nach veröffentlichten Datenprodukten suchen, sie ansehen und Zugriff darauf anfordern
Erforderliche Rollen für Data Product Owners
Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Erstellen und Verwalten von Datenprodukten benötigen:
-
Vollständige Berechtigungen zum Erstellen, Aktualisieren, Löschen, Verwalten von Berechtigungen und Genehmigen oder Ablehnen von Zugriffsanfragen für Datenprodukte:
Dataplex Data Products Admin (
roles/dataplex.dataProductsAdmin) -
Berechtigungen aktualisieren und verwalten sowie Zugriffsanfragen für Datenprodukte genehmigen oder ablehnen:
Dataplex Data Products Editor (
roles/dataplex.dataProductsEditor) -
Metadatenaspekte hinzufügen (z. B.
schema,overview,contactsundqueries): Dataplex Entry and EntryLink Owner (roles/dataplex.entryOwner) -
Assets suchen und hinzufügen:
Dataplex Catalog Viewer (
roles/dataplex.catalogViewer) -
Systemaspekttypen bearbeiten (z. B.
overview,contact,contractundqueries): Dataplex Catalog Editor (roles/dataplex.catalogEditor) -
Scans für Statistiken erstellen oder abrufen, um automatisch Dokumentation und Statistiken zu generieren:
Dataplex DataScan-Administrator (
roles/dataplex.dataScanAdmin)
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Diese vordefinierten Rollen enthalten die Berechtigungen, die zum Erstellen und Verwalten von Datenprodukten erforderlich sind. Maximieren Sie den Abschnitt Erforderliche Berechtigungen, um die notwendigen Berechtigungen anzuzeigen:
Erforderliche Berechtigungen
Die folgenden Berechtigungen sind erforderlich, um Datenprodukte zu erstellen und zu verwalten:
-
Datenprodukt erstellen:
dataplex.dataProducts.create -
Datenprodukte in einem Projekt auflisten:
dataplex.dataProducts.list -
Datenprodukt abrufen oder ansehen:
dataplex.dataProducts.get -
So bearbeiten Sie ein vorhandenes Datenprodukt:
dataplex.dataProducts.update -
Datenprodukt löschen:
dataplex.dataProducts.delete -
Anfrage für den Zugriff auf das Datenprodukt genehmigen:
dataplex.dataProducts.approve -
So suchen Sie mit Knowledge Catalog nach einem Datenprodukt:
-
dataplex.dataProducts.get -
dataplex.projects.search
-
-
Zugriffsanfrage für Datenprodukt erstellen:
dataplex.dataProducts.get -
Daten-Asset erstellen:
dataplex.dataAssets.create -
Daten-Assets in einem Datenprodukt auflisten:
dataplex.dataAssets.list -
Datenasset abrufen:
dataplex.dataAssets.get -
So bearbeiten Sie ein vorhandenes Daten-Asset:
dataplex.dataAssets.update -
Daten-Asset löschen:
dataplex.dataAssets.delete -
Datenscan erstellen:
dataplex.datascans.create -
Alle Daten-Scans auflisten:
dataplex.datascans.list -
Datenscan durchführen:
dataplex.datascans.get -
Datenscan ausführen:
dataplex.datascans.run -
Bearbeiten Sie den Systemaspekttyp
overview:dataplex.entryGroups.useOverviewAspect -
Bearbeiten Sie den Systemaspekttyp
refresh cadence:dataplex.entryGroups.useRefreshCadenceAspect -
Bearbeiten Sie den Systemaspekttyp
queries:dataplex.entryGroups.useQueriesAspect
Sie können diese Berechtigungen auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Erforderliche Rollen für Nutzer von Datenprodukten
Damit Nutzer von Datenprodukten nach Datenprodukten suchen, sie ansehen und Zugriff darauf anfordern können, müssen Sie als Inhaber eines Datenprodukts dafür sorgen, dass das Datenprodukt auffindbar ist. Weisen Sie den Nutzern des Datenprodukts dazu die folgenden IAM-Rollen für das Datenprodukt zu:
- Nach Datenprodukten suchen und Zugriff darauf anfordern:
Dataplex Data Product Consumer (
dataplex.dataProductsConsumer) und Dataplex Catalog Viewer (roles/dataplex.catalogViewer) - Schreibgeschützter Zugriff zum Aufrufen von Datenproduktdefinitionen und ‑metadaten: Dataplex Data Product Viewer (
dataplex.dataProductsViewer)
Datenprodukt erstellen und konfigurieren
Das Erstellen eines Datenprodukts umfasst die folgenden allgemeinen Aufgaben:
Datenprodukt erstellen
In diesem obligatorischen ersten Schritt müssen grundlegende Details wie ein eindeutiger Name des Datenprodukts, eine Beschreibung, die Region, in der das Datenprodukt erstellt wird, und Kontaktdaten angegeben werden.
Optional: Assets hinzufügen
In dieser Phase wählen Sie Assets aus, die in das Datenprodukt aufgenommen werden sollen. Eine wichtige Einschränkung ist, dass sich Assets in derselben Region wie das Datenprodukt selbst befinden müssen. Sie können jeweils bis zu 10 Assets hinzufügen. Pro Datenprodukt sind insgesamt maximal 50 Assets zulässig.
Eine Liste der unterstützten Assets finden Sie unter Unterstützte Assets.
Optional: Zugriffsgruppen und Asset-Berechtigungen konfigurieren
In dieser optionalen Phase vereinfachen Sie die Zugriffssteuerung, indem Sie Zugriffsgruppen erstellen. Diese Zugriffsgruppen fungieren als benutzerfreundliche Aliase (z. B.
AnalystoderReader) für zugrunde liegende Google-Gruppen und Dienstkonten. Anschließend weisen Sie Berechtigungen zu, indem Sie eine bestimmte IAM-Rolle auswählen und sie einer Zugriffsgruppe für ein bestimmtes Asset zuordnen.Optional: Details zu Vertrag und Aspekt hinzufügen
In dieser Phase verbessern Sie die Governance und die Auffindbarkeit von Daten, indem Sie Metadaten-Frameworks anhängen. Sie können einen Vertrag hinzufügen, um die Häufigkeit der Datenaktualisierung offiziell zu kommunizieren. Dabei können Sie Parameter wie Aktualisierungshäufigkeit, Zeitangaben und Varianzschwellenwerte angeben. Sie können auch benutzerdefinierte Aspekte anhängen, um zusätzliche geschäftliche oder technische Metadaten für Ihr Datenprodukt bereitzustellen.
Optional: Zusätzliche Details hinzufügen
In dieser letzten Phase fügen Sie Rich-Text-Dokumentation hinzu, z. B. Anleitungen für das Onboarding von Nutzern, geschäftliche Definitionen und Beispielabfragen, damit Nutzer nach der Genehmigung sofort mit dem Datenprodukt interagieren können.
Führen Sie die Schritte in den folgenden Abschnitten aus, um ein Datenprodukt zu erstellen und zu konfigurieren:
Datenprodukt erstellen
Console
Rufen Sie in der Google Cloud Console die Seite Datenprodukte des Knowledge Catalog auf.
Klicken Sie auf Erstellen.
Geben Sie im Bereich Datenprodukte erstellen die folgenden Details ein:
- Name des Datenprodukts: Geben Sie einen eindeutigen Namen für Ihr Datenprodukt ein.
- Datenprodukt-ID: Dies ist eine automatisch generierte eindeutige Kennung. Dieses Feld kann bearbeitet werden.
- Projekt-ID: Dies ist eine eindeutige Kennung des Projekts, in dem das Datenprodukt erstellt wird. Suchen Sie nach dem Projekt und wählen Sie es aus.
- Region: Wählen Sie die Region oder multiregionale Umgebung aus, in der das Datenprodukt erstellt wird.
- Datenproduktsymbol: Suchen Sie nach einem Symbol und wählen Sie es aus, um das Datenprodukt visuell zu kennzeichnen. Dies ist optional.
- Beschreibung: Geben Sie eine kurze Beschreibung des Datenprodukts ein.
Kontakte: Geben Sie die Kontaktdaten für Governance- und Genehmigungsworkflows an:
- E‑Mail-Adresse des/der Datenproduktinhaber(s): Geben Sie die E‑Mail-Adresse der Datenproduktinhaber ein.
- E‑Mail-Adresse des bzw. der Datenproduktgenehmiger(s):Geben Sie die E‑Mail-Adresse der zuständigen Genehmiger ein, die für die Genehmigung von Zugriffsanfragen oder ‑änderungen verantwortlich sind.
Labels: Fügen Sie Schlüssel/Wert-Labels hinzu, um Ihre Ressourcen zu organisieren. Dies ist optional.
Klicken Sie auf Datenprodukt erstellen.
REST
Verwenden Sie zum Erstellen eines Datenprodukts die Methode dataProducts.create.
Senden Sie beispielsweise die folgende POST-Anfrage:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"display_name": "DISPLAY_NAME", "owner_emails": ["EMAIL_IDs"], "access_approval_config": { "approver_emails": ["APPROVER_EMAIL_IDs"]} }' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts?data_product_id=DATA_PRODUCT_ID
Ersetzen Sie Folgendes:
- DISPLAY_NAME: ein benutzerfreundlicher Name für Ihr Datenprodukt
- EMAIL_IDs: kommagetrennte E-Mail-Adressen der Datenproduktinhaber
- APPROVER_EMAIL_IDs: kommagetrennte E-Mail-Adressen der zuständigen Genehmiger, die für die Genehmigung von Zugriffsanfragen oder ‑änderungen verantwortlich sind.
- PROJECT_ID: die ID Ihres Google Cloud-Projekts
- LOCATION: die Region, in der Sie das Datenprodukt erstellen möchten
- DATA_PRODUCT_ID: Eine eindeutige ID für Ihr Datenprodukt.
Terraform
Verwenden Sie zum Erstellen eines Datenprodukts die Ressource google_dataplex_data_product.
resource "google_dataplex_data_product" "example_product" {
project = "PROJECT_ID"
location = "LOCATION"
data_product_id = "DATA_PRODUCT_ID"
display_name = "DISPLAY_NAME"
description = "DESCRIPTION"
owner_emails = ["EMAIL_IDs"]
provider = google-beta
}
Ersetzen Sie Folgendes:
- PROJECT_ID: die ID Ihres Google Cloud -Projekts
- LOCATION: die Region, in der Sie das Datenprodukt erstellen möchten
- DATA_PRODUCT_ID: Eine eindeutige ID für Ihr Datenprodukt
- DISPLAY_NAME: Ein nutzerfreundlicher Name für Ihr Datenprodukt
- DESCRIPTION: eine kurze Beschreibung des Datenprodukts
- EMAIL_IDs: kommagetrennte E-Mail-Adressen der Inhaber des Datenprodukts, z. B.
["user1@example.com", "user2@example.com"]
Optional: Assets hinzufügen
Sie können Ihrem Datenprodukt verschiedene Daten-Assets wie BigQuery-Tabellen, ‑Ansichten, ‑Datasets und ‑Modelle hinzufügen. Eine Liste der unterstützten Assets finden Sie unter Unterstützte Assets.
Console
Klicken Sie im Bereich Assets hinzufügen auf + Hinzufügen.
Suchen Sie nach den Assets, die Sie Ihrem Datenprodukt hinzufügen möchten, und wählen Sie sie aus. Die von Ihnen ausgewählten Assets müssen sich in derselben Region wie das Datenprodukt befinden.
Wenn Sie die erforderlichen Berechtigungen haben, können Sie die Metadaten von Assets aufrufen, indem Sie auf das Asset klicken.
Mit Filtern können Sie die Suchergebnisse eingrenzen.
Klicken Sie nach der Auswahl der Assets auf Hinzufügen.
Klicken Sie auf Weiter.
REST
Verwenden Sie die Methode dataAssets.create, um Ihrem Datenprodukt ein Daten-Asset hinzuzufügen.
Senden Sie beispielsweise die folgende POST-Anfrage:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"resource": "RESOURCE_NAME"}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID/dataAssets?data_asset_id=DATA_ASSET_ID
Ersetzen Sie Folgendes:
- RESOURCE_NAME: Der vollständige Ressourcenname des Daten-Assets, z. B.
//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID. - PROJECT_ID: die ID Ihres Google Cloud -Projekts
- LOCATION: die Region, in der das Datenprodukt vorhanden ist
- DATA_PRODUCT_ID: die ID des Datenprodukts
- DATA_ASSET_ID: eine eindeutige ID für dieses Daten-Asset innerhalb des Datenprodukts
Terraform
Verwenden Sie die Ressource google_dataplex_data_product_data_asset, um Ihrem Datenprodukt ein Daten-Asset hinzuzufügen.
resource "google_dataplex_data_product_data_asset" "example_asset" {
project = "PROJECT_ID"
location = "LOCATION"
data_product_id = "DATA_PRODUCT_ID"
data_asset_id = "DATA_ASSET_ID"
resource = "RESOURCE_NAME"
provider = google-beta
}
Ersetzen Sie Folgendes:
- PROJECT_ID: die ID Ihres Google Cloud -Projekts
- LOCATION: die Region, in der das Datenprodukt vorhanden ist
- DATA_PRODUCT_ID: die ID des Datenprodukts
- DATA_ASSET_ID: eine eindeutige ID für dieses Daten-Asset innerhalb des Datenprodukts
- RESOURCE_NAME: Der vollständige Ressourcenname des Daten-Assets, z. B.
//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID.
Optional: Zugriffsgruppen und Asset-Berechtigungen konfigurieren
Im Bereich Zugriffsgruppen und Asset-Berechtigungen konfigurieren können Sie Zugriffsgruppen erstellen und Assets Berechtigungen zuweisen.
Zugriffsgruppen konfigurieren
Console
Klicken Sie auf Zugriffsgruppe hinzufügen.
Geben Sie im Feld Name der Zugriffsgruppe einen Namen für die Zugriffsgruppe ein. Beispiel:
Analyst.Geben Sie im Feld Beschreibung der Zugriffsgruppe eine Beschreibung für die Zugriffsgruppe ein.
Geben Sie im Feld Kennung der Zugriffsgruppe die E‑Mail-Adresse einer Google-Gruppe ein, die Sie dieser Zugriffsgruppe zuweisen möchten.
Datenproduktnutzer, die Zugriff für sich selbst anfordern, werden der zugeordneten Google-Gruppe als Mitglieder hinzugefügt.
Weitere Informationen zum Erstellen von Google-Gruppen finden Sie unter Google-Gruppen in der Google Cloud Konsole erstellen und verwalten.
Geben Sie im Feld Dienstkonto der Zugriffsgruppe die E-Mail-Adresse eines Dienstkontos ein, das Sie dieser Zugriffsgruppe zuweisen möchten.
Datenproduktnutzern, die Zugriff für ihre Dienstkonten anfordern, wird die IAM-Rolle „Ersteller von Dienstkonto-Tokens“ (
roles/iam.serviceAccountTokenCreator) gewährt, um die Identität des Dienstkontos des Datenproduzenten zu übernehmen, das der Zugriffsgruppe zugeordnet ist.Weitere Informationen zum Erstellen von Dienstkonten finden Sie unter Dienstkonten erstellen.
Klicken Sie auf Fertig.
Wenn Sie eine weitere Zugriffsgruppe hinzufügen möchten, klicken Sie auf Zugriffsgruppe hinzufügen und wiederholen Sie die Schritte.
Sie können maximal drei Zugriffsgruppen pro Datenprodukt hinzufügen.
Klicken Sie auf Speichern.
REST
Verwenden Sie die Methode dataProducts.patch, um eine Zugriffsgruppe für das Datenprodukt zu konfigurieren.
Senden Sie beispielsweise die folgende PATCH-Anfrage:
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"access_groups": ACCESS_GROUPS_MAP}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID?update_mask="access_groups"
Ersetzen Sie Folgendes:
ACCESS_GROUPS_MAP: Ein JSON-Objekt, das eine Zuordnung darstellt, in der jeder Schlüssel eine Zugriffsgruppen-ID und der Wert ein AccessGroup-Objekt ist. Beispiel:
{ "analyst": { "id": "analyst", "display_name": "Analyst access group", "description": "Access group for analysts", "principal": { "google_group": "analyst-team@example.com", "service_account": "analyst-svc@gserviceaccount.com" } }PROJECT_ID: die ID Ihres Google Cloud-Projekts
LOCATION: die Region, in der das Datenprodukt vorhanden ist
DATA_PRODUCT_ID: die ID Ihres Datenprodukts
Terraform
Verwenden Sie den verschachtelten Block access_groups in der Ressource google_dataplex_data_product, um Zugriffsgruppen für Ihr Datenprodukt zu definieren.
Verwenden Sie zum Beispiel die folgende Konfiguration:
resource "google_dataplex_data_product" "example_data_product" {
project = "PROJECT_ID"
location = "LOCATION"
data_product_id = "DATA_PRODUCT_ID"
display_name = "DISPLAY_NAME"
owner_emails = ["EMAIL_IDs"]
access_groups {
id = "analyst" # Internal identifier for configuration
group_id = "analyst" # Unique identifier of the access group, should be same as the 'id'
display_name = "Business Analyst"
description = "Access group for regional analysts"
principal {
google_group = "analyst-team@example.com"
}
provider = google-beta
}
Ersetzen Sie Folgendes:
- PROJECT_ID: die ID Ihres Google Cloud -Projekts
- LOCATION: die Region, in der das Datenprodukt vorhanden ist
- DATA_PRODUCT_ID: eine eindeutige ID für das Datenprodukt
- DISPLAY_NAME: Ein nutzerfreundlicher Name für Ihr Datenprodukt
- EMAIL_IDs: kommagetrennte E-Mail-Adressen der Inhaber des Datenprodukts, z. B.
["user1@example.com", "user2@example.com"]
Asset-Berechtigungen konfigurieren
Nachdem Sie Zugriffsgruppen konfiguriert haben, können Sie Berechtigungen für die Assets im Datenprodukt konfigurieren.
Console
Wählen Sie im Bereich Asset permissions (Asset-Berechtigungen) das Asset aus, für das Sie Berechtigungen konfigurieren möchten. Sie können Berechtigungen für bis zu 10 Assets gleichzeitig auswählen und konfigurieren.
Klicken Sie auf Berechtigungen konfigurieren.
Wählen Sie im Feld Zugriffsgruppe auswählen eine Zugriffsgruppe aus.
Wählen Sie im Feld IAM-Rolle zuweisen eine IAM-Rolle aus, die Sie der Zugriffsgruppe zuweisen möchten.
Wenn Ihr Asset beispielsweise eine BigQuery-Tabelle mit dem Namen
Salesist, Sie die ZugriffsgruppeAnalystausgewählt und dieser Zugriffsgruppe die RolleBigQuery Metadata Viewerzugewiesen haben, haben die Nutzer des Datenprodukts, die Teil der ZugriffsgruppeAnalystsind, die BerechtigungBigQuery Metadata Viewerfür die TabelleSales.Sie können einem Asset mehrere Rollen hinzufügen.
Klicken Sie auf Konfigurieren. Für das Asset werden jetzt die zugewiesenen Berechtigungen angezeigt.
Wenn Sie Berechtigungen für andere Assets konfigurieren möchten, wiederholen Sie die Schritte.
Klicken Sie auf Weiter.
REST
Verwenden Sie die Methode dataAssets.patch, um Berechtigungen für die Assets im Datenprodukt zu konfigurieren.
Senden Sie beispielsweise die folgende PATCH-Anfrage:
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d '{"access_group_configs": ACCESS_GROUP_CONFIGS_MAP}' \
https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataProducts/DATA_PRODUCT_ID/dataAssets/DATA_ASSET_ID?update_mask="access_group_configs"
Ersetzen Sie Folgendes:
ACCESS_GROUP_CONFIGS_MAP: Ein JSON-Objekt, das eine Zuordnung darstellt, in der jeder Schlüssel eine Zugriffs-Gruppen-ID und der Wert ein AccessGroupConfig-Objekt ist. Beispiel:
{ "analyst": { iam_roles: ["roles/bigquery.dataViewer"] } }PROJECT_ID: die ID Ihres Google Cloud-Projekts
LOCATION: die Region, in der das Datenprodukt vorhanden ist
DATA_PRODUCT_ID: die ID Ihres Datenprodukts
DATA_ASSET_ID: die ID des Assets, für das Sie Berechtigungen konfigurieren möchten
Terraform
Weisen Sie Ihren Zugriffsgruppen IAM-Rollen für bestimmte Assets mit dem access_group_configs-Block in der Ressource google_dataplex_data_product_data_asset zu.
Verwenden Sie zum Beispiel die folgende Konfiguration:
resource "google_dataplex_data_product_data_asset" "example_data_asset" {
project = "PROJECT_ID"
location = "LOCATION"
data_product_id = "DATA_PRODUCT_ID"
data_asset_id = "DATA_ASSET_ID"
resource = "RESOURCE_NAME"
access_group_configs {
access_group = "analyst" # Must match the 'id' defined in google_dataplex_data_product
iam_roles = ["roles/bigquery.dataViewer"]
}
provider = google-beta
}
Ersetzen Sie Folgendes:
- PROJECT_ID: die ID Ihres Google Cloud -Projekts
- LOCATION: die Region, in der das Datenprodukt vorhanden ist
- DATA_PRODUCT_ID: die ID des Datenprodukts
- DATA_ASSET_ID: eine eindeutige ID für dieses Daten-Asset innerhalb des Datenprodukts
- RESOURCE_NAME: Der vollständige Ressourcenname des Daten-Assets, z. B.
//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID.
Optional: Details zu Vertrag und Aspekt hinzufügen
Sie können einem Datenprodukt Verträge und Aspekte hinzufügen.
Vertrag hinzufügen
Um eine Vertrauensbasis zwischen Datenerstellern und ‑nutzern zu schaffen, können Sie Ihrem Datenprodukt einen Vertrag beifügen. Durch die Angabe von Parametern wie Aktualisierungszeit und Grenzwerten stellen Sie den Nutzern den erforderlichen Kontext zur Verfügung, um zu verstehen, wann die Daten aktualisiert werden und ob sie ihren spezifischen Geschäftsanforderungen entsprechen.
Console
Klicken Sie im Bereich Details zu Vertrag und Aspekt hinzufügen auf Vertrag hinzufügen.
Wählen Sie im Feld Vertrag auswählen die Option
Refresh cadenceaus.Wählen Sie im Feld Häufigkeit einen vereinbarten Zeitplan dafür aus, wie oft Daten aktualisiert oder bereitgestellt werden. So sorgen Sie für einen vorhersehbaren Fluss vom Datenproduzenten zum Datenverbraucher. Beispiel:
Weekly.Geben Sie im Feld Aktualisierungszeit die maximal zulässige Zeit ein, die vergehen darf, bis Daten an der Quelle aktualisiert werden und für den Nutzer verfügbar sind. Beispiel:
23:00 PST.Geben Sie im Feld Schwellenwert (in Minuten) ein messbares Limit in Minuten für die akzeptable Verzögerung bei der Datenübermittlung ein. Geben Sie beispielsweise
30ein, um einen Schwellenwert von 30 Minuten festzulegen.Optional: Geben Sie im Feld Cron-Zeitplan einen Cron-Ausdruck ein, der den Zeitplan für die Datengenerierung und ‑bereitstellung im Format
MINUTE HOUR DAY_OF_MONTH MONTH DAY_OF_WEEKdefiniert.Folgende Werte sind zulässig:
- MINUTE:
0–59 - HOUR:
0–23 - DAY_OF_MONTH:
1–31 - MONTH:
1-31oderJAN-DEC - DAY_OF_WEEK:
0-6oderSUN-SAT
Beispiel:
0 8 * * 1-5wird an Wochentagen (Montag bis Freitag) um 8:00 Uhr ausgeführt.- MINUTE:
Klicken Sie auf Speichern.
REST
Verträge werden als Aspekte für das Datenprodukt modelliert.
Wenn Sie einen Refresh Cadence-Vertrag für ein Datenprodukt hinzufügen möchten, verwenden Sie die Methode entries.patch.
Senden Sie beispielsweise die folgende PATCH-Anfrage:
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d \
'{
"aspects": {
"dataplex-types.global.refresh-cadence": {
"aspectType": "projects/dataplex-types/locations/global/aspectTypes/refresh-cadence",
"data": {
"frequency": "REFRESH_FREQUENCY"
}
}
}
}' \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/DATA_PRODUCT_LOCATION/dataProducts/DATA_PRODUCT_ID?updateMask=aspects"
Ersetzen Sie Folgendes:
- REFRESH_FREQUENCY: Der vereinbarte Zeitplan für die Häufigkeit, mit der Daten aktualisiert oder bereitgestellt werden, um einen vorhersehbaren Fluss vom Datenproduzenten zum Datenverbraucher zu gewährleisten. Beispiel:
Weekly - PROJECT_ID: die ID Ihres Google Cloud Projekts, in dem der API-Aufruf erfolgt
- LOCATION: die Region des Knowledge Catalog-Dienstendpunkts, den Sie aufrufen (z. B.
us-central1) - DATA_PRODUCT_PROJECT_NUMBER: die Projektnummer des Projekts, in dem sich die Datenproduktressource befindet
- DATA_PRODUCT_LOCATION: der Speicherort der Datenproduktressource
- DATA_PRODUCT_ID: die ID Ihres Datenprodukts
Terraform
Verträge werden als Aspekte für das Datenprodukt modelliert.
Wenn Sie einen Vertrag verwalten möchten, müssen Sie den zugrunde liegenden Knowledge Catalog-Eintrag verwalten. Da Terraform vorhandene Aspekte nicht automatisch erkennt, müssen Sie zuerst die google_dataplex_entry importieren.
Verwenden Sie den folgenden Befehl, um den Eintrag zu importieren:
terraform import google_dataplex_entry.data_product_metadata "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
Terraform-Konfiguration:
resource "google_dataplex_entry" "data_product_metadata" {
project = "DATA_PRODUCT_PROJECT_NUMBER"
location = "LOCATION"
entry_group_id = "@dataplex"
entry_id = "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
entry_type = "projects/655216118709/locations/global/entryTypes/data-product"
aspects {
aspect_key = "655216118709.global.refresh-cadence"
aspect {
data = jsonencode({
frequency = "REFRESH_FREQUENCY"
})
}
}
provider = google-beta
}
Ersetzen Sie Folgendes:
- DATA_PRODUCT_PROJECT_NUMBER: die Projektnummer, in der sich die Datenproduktressource befindet
- LOCATION: die Region des Knowledge Catalog-Dienstendpunkts, den Sie aufrufen (z. B.
us-central1) - DATA_PRODUCT_ID: die ID Ihres Datenprodukts
- REFRESH_FREQUENCY: der vereinbarte Zeitplan für die Häufigkeit, mit der Daten aktualisiert oder bereitgestellt werden, um einen vorhersehbaren Fluss vom Datenproduzenten zum Datenkonsumenten zu gewährleisten. Beispiel:
Weekly
Allgemeine Informationen zum Importvorgang finden Sie in der Terraform-Dokumentation zum Importieren.
Aspekte hinzufügen
Verwenden Sie Aspekte, um Ihr Datenprodukt mit strukturierten, wiederverwendbaren Metadaten anzureichern. Diese Vorlagen bieten Datenproduzenten eine standardisierte Möglichkeit, die Qualität und Eignung eines Datenprodukts zu kommunizieren. So wird die Governance verbessert und Nutzer können leichter feststellen, ob das Produkt ihren geschäftlichen Anforderungen entspricht.
So fügen Sie Aspekte für das Datenprodukt hinzu:
Console
Klicken Sie im Bereich Details zu Vertrag und Aspekt hinzufügen auf + Aspekt hinzufügen.
Suchen Sie im Feld Aspekttyp auswählen nach einem Aspekttyp und wählen Sie ihn aus der Liste aus. Beispiel:
Geo context.Klicken Sie auf Speichern.
REST
Verwenden Sie die Methode entries.patch, um Aspekte für ein Datenprodukt hinzuzufügen.
Senden Sie beispielsweise die folgende PATCH-Anfrage:
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d \
'{
"aspects": {
"ASPECT_PROJECT_ID.ASPECT_LOCATION.ASPECT_NAME": {
"aspectType": "projects/ASPECT_PROJECT_ID/locations/ASPECT_LOCATION/aspectTypes/ASPECT_NAME",
"data": {}
}
}
}' \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/DATA_PRODUCT_LOCATION/dataProducts/DATA_PRODUCT_ID?updateMask=aspects"
Ersetzen Sie Folgendes:
- ASPECT_PROJECT_ID: die ID Ihres Google Cloud-Projekts, in dem der Aspekt erstellt wird
- ASPECT_LOCATION: die Region des Knowledge Catalog-Dienstendpunkts, in der der Aspekt erstellt wird (z. B.
us-central1) - ASPECT_NAME: Der Name des Aspekts, den Sie dem Datenprodukt zuweisen möchten.
- PROJECT_ID: die ID Ihres Google Cloud Projekts, in dem der API-Aufruf erfolgt
- LOCATION: die Region des Knowledge Catalog-Dienstendpunkts, den Sie aufrufen (z. B.
us-central1) - DATA_PRODUCT_PROJECT_NUMBER: die Projektnummer, in der sich die Datenproduktressource befindet
- DATA_PRODUCT_LOCATION: der Speicherort der Datenproduktressource
- DATA_PRODUCT_ID: die ID Ihres Datenprodukts
Terraform
Wenn Sie Aspekte verwalten möchten, müssen Sie den zugrunde liegenden Knowledge Catalog-Eintrag verwalten.
Da Terraform vorhandene Aspekte nicht automatisch erkennt, müssen Sie zuerst google_dataplex_entry importieren.
Verwenden Sie den folgenden Befehl, um den Eintrag zu importieren:
terraform import google_dataplex_entry.data_product_metadata "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
Terraform-Konfiguration:
resource "google_dataplex_entry" "data_product_metadata" {
project = "DATA_PRODUCT_PROJECT_NUMBER"
location = "LOCATION"
entry_group_id = "@dataplex"
entry_id = "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
entry_type = "projects/655216118709/locations/global/entryTypes/data-product"
aspects {
aspect_key = "ASPECT_PROJECT_NUMBER.ASPECT_LOCATION.ASPECT_NAME"
aspect {
data = {}
}
}
provider = google-beta
}
Ersetzen Sie Folgendes:
- DATA_PRODUCT_PROJECT_NUMBER: die Projektnummer, in der sich die Datenproduktressource befindet
- LOCATION: die Region des Knowledge Catalog-Dienstendpunkts, den Sie aufrufen (z. B.
us-central1) - DATA_PRODUCT_ID: die ID Ihres Datenprodukts
- ASPECT_PROJECT_NUMBER: die Google Cloud Projektnummer, in der der Aspekt erstellt wird
- ASPECT_LOCATION: die Region des Knowledge Catalog-Dienstendpunkts, in der der Aspekt erstellt wird (z. B.
us-central1) - ASPECT_NAME: Der Name des Aspekts, den Sie dem Datenprodukt zuweisen möchten.
Allgemeine Informationen zum Importvorgang finden Sie in der Terraform-Dokumentation zum Importieren.
Optional: Zusätzliche Details hinzufügen
Sie können Ihrem Datenprodukt Dokumentation und Beispielabfragen hinzufügen, um wichtigen Kontext, Beschreibungen der Geschäftslogik und Nutzeranleitungen bereitzustellen. In Knowledge Catalog wird die Dokumentation über den Systemaspekt overview verwaltet.
Sie können diese Dokumentation manuell erstellen oder Knowledge Catalog-Datenanalysen verwenden, um sie automatisch generieren zu lassen.
Dokumentation und Beispielabfragen manuell hinzufügen
Console
So fügen Sie Dokumentation für Ihr Datenprodukt hinzu:
Klicken Sie im Bereich Zusätzliche Details hinzufügen neben Dokumentation auf Bearbeiten.
Geben Sie den Inhalt in den Rich-Text-Editor ein.
Klicken Sie auf Speichern.
So fügen Sie Beispielabfragen für Ihr Datenprodukt hinzu:
Klicken Sie im Bereich Zusätzliche Details hinzufügen im Abschnitt Abfrageempfehlung auf Abfragen hinzufügen.
Geben Sie die Beispielabfragen ein.
Klicken Sie auf Speichern.
Das neu erstellte Datenprodukt wird auf der Knowledge Catalog-Seite Datenprodukte angezeigt.
REST
Die Dokumentation wird als Aspekte des Datenprodukts modelliert.
Verwenden Sie zum Hinzufügen von Dokumentation die Methode entries.patch.
Senden Sie beispielsweise die folgende PATCH-Anfrage:
curl -X PATCH \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-d \
'{
"aspects": {
"dataplex-types.global.overview": {
"aspectType": "projects/dataplex-types/locations/global/aspectTypes/overview",
"data": {
"content": "DOCUMENTATION"
}
}
}
}' \
"https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/DATA_PRODUCT_LOCATION/dataProducts/DATA_PRODUCT_ID?updateMask=aspects"
Ersetzen Sie Folgendes:
- PROJECT_ID: die ID Ihres Google Cloud Projekts, in dem der API-Aufruf erfolgt
- LOCATION: die Region des Knowledge Catalog-Dienstendpunkts, den Sie aufrufen (z. B.
us-central1) - DATA_PRODUCT_PROJECT_NUMBER: die Projektnummer, in der sich die Datenproduktressource befindet
- DATA_PRODUCT_LOCATION: der Speicherort der Datenproduktressource
- DATA_PRODUCT_ID: die ID Ihres Datenprodukts
- DOCUMENTATION: Der Inhalt, den Sie an das Datenprodukt anhängen möchten
Terraform
Die Dokumentation wird als Aspekte des Datenprodukts modelliert.
Wenn Sie die Dokumentation verwalten möchten, müssen Sie den zugrunde liegenden Knowledge Catalog-Eintrag verwalten. Da Terraform vorhandene Aspekte nicht automatisch erkennt, müssen Sie zuerst die google_dataplex_entry importieren.
Verwenden Sie den folgenden Befehl, um den Eintrag zu importieren:
terraform import google_dataplex_entry.data_product_metadata "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
Terraform-Konfiguration:
resource "google_dataplex_entry" "data_product_metadata" {
project = "DATA_PRODUCT_PROJECT_NUMBER"
location = "LOCATION"
entry_group_id = "@dataplex"
entry_id = "projects/DATA_PRODUCT_PROJECT_NUMBER/locations/LOCATION/dataProducts/DATA_PRODUCT_ID"
entry_type = "projects/655216118709/locations/global/entryTypes/data-product"
aspects {
aspect_key = "655216118709.global.overview"
aspect {
data = jsonencode({
content = "DOCUMENTATION"
})
}
}
provider = google-beta
}
Ersetzen Sie Folgendes:
- DATA_PRODUCT_PROJECT_NUMBER: die Projektnummer, in der sich die Datenproduktressource befindet
- LOCATION: die Region des Knowledge Catalog-Dienstendpunkts, den Sie aufrufen (z. B.
us-central1) - DATA_PRODUCT_ID: die ID Ihres Datenprodukts
- DOCUMENTATION: Der Inhalt, den Sie an das Datenprodukt anhängen möchten
Allgemeine Informationen zum Importvorgang finden Sie in der Terraform-Dokumentation zum Importieren.
Automatisierte Dokumentation und Beispielabfragen mit Data Insights erstellen
Bevor Sie mit Gemini Dokumentation und Beispielabfragen erstellen, müssen Sie die folgenden Voraussetzungen erfüllen:
Aktivieren Sie die Gemini for Google Cloud API in dem Projekt, in dem Sie das Datenprodukt erstellen.
Weisen Sie nutzerspezifische Rollen für Statistiken zu: Bitten Sie Ihren Administrator, Ihrer Identität die folgenden Rollen und Berechtigungen für das Datenproduktprojekt zuzuweisen:
- Datenstatistiken generieren und verwalten: Dataplex DataScan-Bearbeiter (
roles/dataplex.dataScanEditor) oder Dataplex DataScan-Administrator (roles/dataplex.dataScanAdmin) für das Projekt, in dem sich das Datenprodukt befindet - Generierte Statistiken ansehen: Dataplex DataScan DataViewer (
roles/dataplex.dataScanDataViewer) für das Projekt, in dem sich das Datenprodukt befindet
- Datenstatistiken generieren und verwalten: Dataplex DataScan-Bearbeiter (
Berechtigungen für projektübergreifende Dienst-Agents konfigurieren Wenn sich Ihre zugrunde liegenden Daten-Assets in einem Google Cloud Projekt befinden, das sich von Ihrem Datenproduktprojekt unterscheidet, müssen Sie dem Knowledge Catalog-Dienst-Agent (P4SA) Zugriff auf diese Assets gewähren:
Führen Sie den folgenden Google Cloud CLI-Befehl aus, um die Dienst-Agent-ID für Ihr Datenproduktprojekt zu generieren oder abzurufen:
gcloud beta services identity create --service=dataplex.googleapis.com --project=DATA_PRODUCT_PROJECT_IDErsetzen Sie DATA_PRODUCT_PROJECT_ID durch dieGoogle Cloud Projekt-ID, in der sich Ihr Datenprodukt befindet.
Weisen Sie dem Dienst-Agent des Datenproduktprojekts in jedem externen Projekt, in dem sich Ihre Assets befinden, die folgenden Rollen zu:
BigQuery-Dateneditor (
roles/bigquery.dataEditor) für die zugrunde liegenden Tabellen und DatasetsBigQuery Studio-Administrator (
roles/bigquery.studioAdmin) für das Asset-Projekt
So generieren Sie Dokumentation und Beispielabfragen für Ihr Datenprodukt mithilfe von Datenstatistiken:
Console
Klicken Sie im Bereich Zusätzliche Details hinzufügen in der Leiste Mit Gemini Statistiken generieren auf Generieren.
Warten Sie einige Minuten, bis die Statistiken generiert wurden.
Wenn Sie sich die generierten Inhalte ansehen möchten, klicken Sie auf Ansehen.
Generierte Inhalte bewerten:
Wenn die Inhalte korrekt sind, klicken Sie auf Speichern. Der Rich-Text-Editor wird mit einer vordefinierten Dokumentationsvorlage gefüllt und dem Bereich Insights werden Beispielabfragen hinzugefügt.
Wenn der Inhalt nicht den Erwartungen entspricht, klicken Sie auf Verwerfen.
Klicken Sie auf Speichern, um die Änderungen zu übernehmen.
REST
Wenn Sie Dokumentation und Statistiken automatisch mit der API generieren, abrufen und anwenden möchten, führen Sie die folgende Reihe von DataScans API-Aufrufen für Knowledge Catalog aus.
Automatisierte Dokumentation erstellen
Um die automatische Dokumentationsgenerierung auszulösen, erstellen Sie einen Daten-Scan vom Typ
DATA_DOCUMENTATION, indem Sie einePOST-Anfrage an den EndpunktdataScanssenden:curl -X POST \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -d '{ "data": { "resource": "DATA_PRODUCT_RESOURCE_NAME" }, "executionSpec": { "trigger": { "oneTime": { "ttl_after_scan_completion": "TTL" } } }, "type": "DATA_DOCUMENTATION", "dataDocumentationSpec": {} }' \ "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?data_scan_id=DATA_SCAN_ID"Ersetzen Sie Folgendes:
- DATA_PRODUCT_RESOURCE_NAME: der vollständige Ressourcenname des zu scannenden Zieldatenprodukts.
- TTL: Die Dauer in Sekunden, nach der die Scanressource automatisch gelöscht werden soll (z. B.
3600für eine Stunde). Wenn nicht angegeben, beträgt der Standardwert 24 Stunden. Der maximal zulässige Wert beträgt 365 Tage (31536000Sekunden). - PROJECT_ID: die ID Ihres Google Cloud-Projekts
- LOCATION: die Region, in der der Datenscan ausgeführt wird
- DATA_SCAN_ID: Eine eindeutige ID, die Sie für diesen Scan angeben
Rufen Sie die generierte Dokumentation ab.
Nachdem der Job zum Scannen von Daten abgeschlossen ist, können Sie die generierte Dokumentation und die Abfrage-Insights abrufen, indem Sie eine
GET-Anfrage mit dem Parameterview=fullsenden:curl -X GET \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATA_SCAN_ID?view=full"Speichern Sie die generierten Abfragen im Datenprodukt.
Extrahieren Sie die generierten SQL-Snippets aus der Ausgabe des Daten-Scans im vorherigen Schritt und hängen Sie sie an Ihren Datenprodukteintrag an, indem Sie den Aspekt
queriesüber einePATCH-Anfrage aktualisieren:curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ -d '{ "aspects": { "dataplex-types.global.queries": { "aspectType": "projects/dataplex-types/locations/global/aspectTypes/queries", "data": { "queries": [ { "description": "QUERY_DESCRIPTION", "sql": "SQL_STATEMENT", "source": "USER" } ] } } } }' \ "https://dataplex.googleapis.com/v1/projects/CATALOG_PROJECT_ID/locations/CATALOG_LOCATION/entryGroups/@dataplex/entries/projects/DATA_PRODUCT_PROJECT_NUMBER/locations/DATA_PRODUCT_LOCATION/dataProducts/DATA_PRODUCT_ID?updateMask=aspects"Ersetzen Sie Folgendes:
QUERY_DESCRIPTION: eine Beschreibung, die erklärt, was mit der empfohlenen Beispielabfrage erreicht wird
SQL_STATEMENT: Der Literaltext der generierten SQL-Beispielabfrage.
CATALOG_PROJECT_ID: die ID desGoogle Cloud -Projekts, in dem Sie den API-Aufruf ausführen
CATALOG_LOCATION: der regionale Endpunkt für den Knowledge Catalog-Dienst (z. B.
us-central1)DATA_PRODUCT_PROJECT_NUMBER: die Projektnummer, in der die Datenproduktressource gehostet wird
DATA_PRODUCT_LOCATION: der Speicherort Ihrer Datenproduktressource
DATA_PRODUCT_ID: die ID Ihres Datenprodukts
Nächste Schritte
- Weitere Informationen zum Verwalten von Datenprodukten
- Weitere Informationen zum Suchen nach Datenprodukten
- Als Datennutzer Zugriff auf Datenprodukte anfordern