Auf dieser Seite wird erläutert, wie Sie Cloud Storage-Buckets und BigQuery-Datasets als Assets in vorhandenen Dataplex Universal Catalog-Zonen hinzufügen, aktualisieren und entfernen.
Übersicht
Ein Asset wird Daten zugeordnet, die entweder in Cloud Storage oder BigQuery gespeichert sind. Sie können Daten, die in separaten Google Cloud Projekten gespeichert sind, als Assets einer einzelnen Zone in einem Lake zuordnen. Sie können vorhandene Cloud Storage-Buckets oder BigQuery-Datasets anhängen, die im Lake verwaltet werden sollen.
Hinweise
Falls noch nicht geschehen, erstellen Sie einen Lake und eine Zone in diesem Lake.
Für die meisten
gcloud lakes-Befehle ist ein Speicherort erforderlich. Sie können den Speicherort mit dem Flag--locationangeben.
Erforderliche Rollen und Berechtigungen
Um Assets in Dataplex Universal Catalog zu verwalten, sind Berechtigungen für Nutzer erforderlich, damit sie Verwaltungsaktionen ausführen können, und für das Dataplex Universal Catalog-Dienstkonto, damit es auf zugrunde liegende Ressourcen zugreifen kann.
Zum Hinzufügen oder Entfernen von Assets müssen Nutzern IAM-Rollen mit den erforderlichen Berechtigungen (z. B. dataplex.assets.create und dataplex.assets.delete) zugewiesen werden. Die vordefinierten Rollen Dataplex-Administrator (roles/dataplex.admin) und Dataplex-Bearbeiter (roles/dataplex.editor) oder die alten Rollen Inhaber (roles/owner) und Bearbeiter (roles/editor) enthalten diese Berechtigungen.
Wenn Sie eine Ressource (Cloud Storage-Bucket oder BigQuery-Dataset) an einen Lake anhängen, verwendet Dataplex Universal Catalog sein Dienstkonto für die Interaktion mit dieser Ressource.
- Wenn sich die Ressource im selben Projekt wie der Data Lake befindet, werden dem Dienstkonto Berechtigungen implizit gewährt.
- Wenn sich die Ressource in einem anderen Projekt als dem Data Lake befindet, müssen Sie dem Dienstkonto explizit Berechtigungen für den Zugriff auf diese Ressource erteilen, wie in den folgenden Abschnitten beschrieben.
Weitere Informationen finden Sie unter Dataplex Universal Catalog-IAM und -Zugriffssteuerung.
Rollen für Cloud Storage-Buckets zuweisen
Wenn Sie einen Cloud Storage-Bucket aus einem anderen Projekt anhängen möchten, gewähren Sie dem Dataplex Universal Catalog-Dienstkonto (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com) Berechtigungen auf eine der folgenden Arten:
Berechtigungen auf Projektebene: Weisen Sie dem Dienstkonto die Rolle
roles/dataplex.serviceAgentfür das Projekt mit dem Bucket zu. Dadurch erhält Dataplex Universal Catalog Administratorberechtigungen für alle Buckets im Projekt, sodass Berechtigungen für angehängte Buckets verwaltet werden können.Berechtigungen auf Bucket-Ebene: Für eine detailliertere Steuerung verwenden Sie den Befehl
gcloud dataplex lakes authorize, um dem Dienstkonto nur für einen bestimmten Bucket die erforderlichen Berechtigungen zu erteilen.
Rollen für BigQuery-Datasets zuweisen
Wenn Sie ein BigQuery-Dataset aus einem anderen Projekt anhängen möchten, weisen Sie dem Dataplex Universal Catalog-Dienstkonto die Rolle BigQuery-Administrator (roles/bigquery.admin) für das Dataset zu.
VPC Service Controls – Überlegungen
Dataplex Universal Catalog verstößt nicht gegen VPC Service Controls-Perimeter. Bevor Sie dem Lake ein Asset hinzufügen, müssen Sie darauf achten, dass sich der zugrunde liegende Bucket oder das zugrunde liegende Dataset im selben VPC Service Controls-Netzwerk wie der Lake befindet.
Weitere Informationen finden Sie unter VPC Service Controls mit Dataplex Universal Catalog.
Asset hinzufügen
Wenn es keine Überschneidung zwischen der Region des Dataplex Universal Catalog-Lake und der Region eines der Cloud Storage-Buckets gibt, können Sie den Bucket nicht einer Zone in Ihrem Lake hinzufügen.
Weitere Informationen zum Regionsstandort eines Cloud Storage-Assets und dazu, wie Dataplex Universal Catalog den Standort eines Buckets beim Erstellen des Veröffentlichungs-Datasets verarbeitet, finden Sie unter Regionale Ressourcen.
So fügen Sie ein Asset hinzu:
Console
Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Lakes auf.
Klicken Sie auf den Data Lake, dem Sie einen Cloud Storage-Bucket oder ein BigQuery-Dataset hinzufügen möchten. Die Seite für den See wird geöffnet.
Klicken Sie auf dem Tab Zonen auf den Namen der Datenzone, der Sie das Asset hinzufügen möchten. Die Seite „Data Zone“ für diese Data Zone wird geöffnet.
Klicken Sie auf dem Tab Assets auf + Assets hinzufügen. Die Seite Assets hinzufügen wird geöffnet.
Klicken Sie auf Asset hinzufügen.
Wählen Sie im Feld Typ entweder BigQuery-Dataset oder Cloud Storage-Bucket aus.
Geben Sie im Feld Anzeigename einen Namen für das neue Asset ein.
Geben Sie im Feld ID eine eindeutige ID für das Asset ein.
Optional: Geben Sie eine Beschreibung ein.
Klicken Sie im Feld Dataset oder Bucket (je nach Art des Assets) auf Durchsuchen, um Ihren Cloud Storage-Bucket oder Ihr BigQuery-Dataset zu suchen und auszuwählen.
Optional: Wenn Ihr Asset-Typ Cloud Storage-Bucket ist und Sie möchten, dass Dataplex Universal Catalog das Asset verwaltet, wählen Sie das Kästchen Auf „Verwaltet“ upgraden aus. Wenn Sie diese Option auswählen, müssen Sie das Asset nicht separat aktualisieren. Diese Option ist für BigQuery-Datasets nicht verfügbar.
Klicken Sie auf Weiter.
Wählen Sie die restlichen Parameterwerte aus. Weitere Informationen zu Sicherheitseinstellungen finden Sie unter Lake-Sicherheit.
Klicken Sie auf Senden.
Achten Sie darauf, dass Sie wieder auf die Seite der Datenzone zurückgekehrt sind und Ihr neues Asset in der Asset-Liste angezeigt wird.
REST
Verwenden Sie zum Hinzufügen eines Assets die Methode lakes.zones.assets.create.
Wenn das Hinzufügen erfolgreich ist, wechselt die Datenzone automatisch in den aktiven Status. Wenn er fehlschlägt, wird die Datenzone auf ihren vorherigen fehlerfreien Zustand zurückgesetzt.
Cloud Storage-Bucket-Asset upgraden
Wenn Sie ein Asset vom Typ „Cloud Storage-Bucket“ hinzufügen, veröffentlicht Dataplex Universal Catalog automatisch externe BigQuery-Tabellen für die im Asset gehosteten Tabellen.
Wenn Sie ein Cloud Storage-Bucket-Asset aktualisieren, entfernt Dataplex Universal Catalog die angehängten externen Tabellen und erstellt BigLake-Tabellen. BigLake-Tabellen unterstützen eine detailliertere Sicherheit, einschließlich Sicherheit auf Zeilen- und Spaltenebene sowie dynamische Datenmaskierung.
So führen Sie ein Upgrade für ein Cloud Storage-Bucket-Asset durch:
Console
Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Lakes auf.
Klicken Sie auf den Namen des Data Lakes. Die Seite für den See wird geöffnet.
Klicken Sie auf dem Tab Zonen auf den Namen der Datenzone. Die Seite für die Datenzone wird geöffnet.
Klicken Sie auf dem Tab Assets auf den Namen des Assets, das Sie upgraden möchten.
Klicken Sie auf Auf verwaltet upgraden.
REST
Verwenden Sie die Methode lakes.zones.assets.patch, um ein Bucket-Asset zu aktualisieren.
Cloud Storage-Bucket-Asset downgraden
Wenn Sie ein Cloud Storage-Bucket-Asset downgraden, werden die angehängten BigLake-Tabellen aus Dataplex Universal Catalog entfernt und externe Tabellen erstellt.
Console
Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Lakes auf.
Klicken Sie auf den Namen des Data Lakes. Die Seite für den See wird geöffnet.
Klicken Sie auf dem Tab Zonen auf den Namen der Datenzone. Die Seite für die Datenzone wird geöffnet.
Klicken Sie auf dem Tab Assets auf den Namen des Assets, das Sie upgraden möchten.
Klicken Sie auf Aus verwalteten Modus downgraden.
REST
Verwenden Sie die Methode lakes.zones.assets.patch, um ein Bucket-Asset herabzustufen. Achten Sie darauf, dass Sie das Feld readAccessMode in ResourceSpec auf DIRECT setzen.
Asset entfernen
Entfernen Sie das Asset aus der Datenzone oder dem Lake, bevor Sie es an eine andere Datenzone oder einen anderen Lake anhängen.
So entfernen Sie ein Asset:
Console
Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Lakes auf.
Klicken Sie auf den Data Lake, aus dem Sie einen Cloud Storage-Bucket oder ein BigQuery-Dataset entfernen möchten. Die Lake-Seite für diesen Lake wird geöffnet.
Klicken Sie auf dem Tab Zonen auf den Namen der Datenzone, aus der Sie den Cloud Storage-Bucket oder das BigQuery-Dataset entfernen möchten. Die Seite „Data Zone“ für diese Data Zone wird geöffnet.
Wählen Sie auf dem Tab Assets das Asset aus, indem Sie das Kästchen links neben dem Asset-Namen aktivieren.
Klicken Sie auf Asset löschen.
Klicken Sie im Dialogfeld zur Bestätigung auf Löschen.
REST
Wenn Sie einen Bucket entfernen möchten, verwenden Sie die Methode lakes.zones,assets.delete.
Nächste Schritte
- Weitere Informationen zum Ermitteln von Daten
- Weitere Informationen zum Erstellen eines Data Lakes
- Cloud-Audit-Logs