Lakes schützen

In diesem Dokument wird beschrieben, wie Sie den Zugriff auf Dataplex Universal Catalog-Lakes sichern und verwalten.

Mit dem Dataplex Universal Catalog-Sicherheitsmodell können Sie Nutzerberechtigungen für die folgenden Aufgaben verwalten:

  • Lake verwalten (Assets, Zonen und zusätzliche Lakes erstellen und anhängen)
  • Über das Mapping-Asset auf Daten zugreifen, die mit einem Lake verbunden sind (z. B. Google Cloud Ressourcen wie Cloud Storage-Buckets und BigQuery-Datasets)
  • Auf Metadaten zu den Daten zugreifen, die mit einem Lake verbunden sind

Ein Administrator für einen Lake steuert den Zugriff auf Dataplex Universal Catalog-Ressourcen wie Lakes, Zonen und Assets, indem er die einfachen und vordefinierten Rollen gewährt.

Vordefinierte Rollen

Google Cloud verwaltet die vordefinierten Rollen, die einen detaillierten Zugriff auf Dataplex Universal Catalog ermöglichen.

Dataplex Universal Catalog-Rollen

Rolle Beschreibung
Dataplex-Betrachter
(roles/dataplex.viewer)
Kann den Lake und seine konfigurierten Zonen und Assets ansehen, aber nicht bearbeiten.
Dataplex-Bearbeiter
(roles/dataplex.editor)
Kann den Lake bearbeiten. Kann Lakes, Zonen, Assets, und Aufgaben erstellen und konfigurieren.
Dataplex-Administrator
(roles/dataplex.administrator)
Kann einen Lake vollständig verwalten.
Dataplex-Entwickler
(roles/dataplex.developer)
Kann Arbeitslasten zur Datenanalyse in einem Lake ausführen. Dazu gehört das Erstellen und Konfigurieren von Inhalten und Aufgaben sowie das Ausführen von Code in den konfigurierten Umgebungen. Diese Rolle gewährt keine Berechtigungen zum Erstellen von BigQuery-Tabellen oder zum Ausführen von Spark-Jobs. *
* Wenn Sie eine BigQuery-Tabelle abfragen möchten, benötigen Sie die Berechtigung zum Ausführen eines BigQuery-Jobs. Legen Sie diese Berechtigung in dem Projekt fest, dem die Rechenkosten des Jobs zugewiesen oder in Rechnung gestellt werden sollen. Weitere Informationen finden Sie unter BigQuery-IAM-Rollen und -Berechtigungen.
Wenn Sie einen Spark-Job ausführen möchten, erstellen Sie einen verwalteten Dienst für Apache Spark-Cluster und senden Sie verwaltete Dienste für Apache Spark-Jobs in dem Projekt, dem die Rechenkosten zugewiesen werden sollen.

Metadatenrollen

Metadatenrollen können Metadaten wie Tabellenschemas ansehen.

Rolle Beschreibung
Autor von Dataplex-Metadaten
(roles/dataplex.metadataWriter)
Kann die Metadaten einer bestimmten Ressource aktualisieren.
Dataplex-Metadatenleser
(roles/dataplex.metadataReader)
Kann die Metadaten lesen (z. B. zum Abfragen einer Tabelle).

Datenrollen

Wenn Sie einem Hauptkonto Datenrollen gewähren, kann es Daten in den zugrunde liegenden Ressourcen lesen oder schreiben, auf die die Assets des Lakes verweisen.

Dataplex Universal Catalog ordnet seine Rollen den Datenrollen für jede zugrunde liegende Speicherressource zu, z. B. Cloud Storage und BigQuery.

Dataplex Universal Catalog übersetzt und gibt Dataplex Universal Catalog-Datenrollen an die zugrunde liegende Speicherressource weiter und legt die richtigen Rollen für jede Speicherressource fest. Sie können eine einzelne Dataplex Universal Catalog-Datenrolle in der Lake-Hierarchie gewähren (z. B. für einen Lake). Dataplex Universal Catalog behält den angegebenen Zugriff auf Daten für alle Ressourcen bei, die mit diesem Lake verbunden sind (z. B. auf Cloud Storage-Buckets und BigQuery-Datasets, auf die in den zugrunde liegenden Zonen verwiesen wird).

Wenn Sie einem Hauptkonto beispielsweise die Rolle dataplex.dataWriter für einen Lake gewähren, erhält es Schreibzugriff auf alle Daten im Lake, in den zugrunde liegenden Zonen und in den Assets. Auf einer niedrigeren Ebene (Zone) gewährte Datenzugriffsrollen werden in der Lake-Hierarchie an die zugrunde liegenden Assets vererbt.

Rolle Beschreibung
Dataplex-Datenleser
(roles/dataplex.dataReader)
Kann Daten aus dem Speicher lesen, der an Assets angehängt ist, einschließlich Speicher Buckets und BigQuery-Datasets (und deren Inhalte). *
Dataplex-Datenautor
(roles/dataplex.dataWriter)
Kann in die zugrunde liegenden Ressourcen schreiben, auf die das Asset verweist. *
Dataplex-Dateninhaber
(roles/dataplex.dataOwner)
Gewährt die Rolle „Inhaber“ für die zugrunde liegenden Ressourcen, einschließlich der Möglichkeit, untergeordnete Ressourcen zu verwalten. Als Dateninhaber eines BigQuery-Datasets können Sie beispielsweise die zugrunde liegenden Tabellen verwalten.

Lakes schützen

Sie können den Zugriff auf Ihren Lake und die daran angehängten Daten sichern und verwalten. Verwenden Sie in der Google Cloud Console eine der folgenden Ansichten:

  • Die Ansicht Verwalten von Dataplex Universal Catalog auf dem Tab Berechtigungen
  • Die Ansicht Sichern von Dataplex Universal Catalog

Ansicht Verwalten verwenden

Auf dem Tab Berechtigungen können Sie alle Berechtigungen für eine Lake-Ressource verwalten. Es wird eine ungefilterte Ansicht aller Berechtigungen angezeigt, einschließlich der vererbten.

So sichern Sie Ihren Lake:

  1. Rufen Sie in der Google Cloud Console die Seite Dataplex Universal Catalog Lakes auf.

    Zu den Lakes

  2. Klicken Sie auf den Namen des von Ihnen erstellten Lakes.

  3. Klicken Sie auf den Tab Berechtigungen.

  4. Klicken Sie auf den Tab Nach Rollen ansehen.

  5. Klicken Sie auf Hinzufügen , um eine neue Rolle hinzuzufügen. Fügen Sie die Rollen Dataplex-Datenleser, Dataplex-Datenautor und Dataplex-Dateninhaber hinzu.

  6. Prüfen Sie, ob die Rollen Dataplex-Datenleser, Dataplex-Datenautor und Dataplex-Dateninhaber angezeigt werden.

Ansicht Sichern verwenden

Die Ansicht Sichern von Dataplex Universal Catalog in der Google Cloud Console bietet Folgendes:

  • Eine filterbare Ansicht nur der Dataplex Universal Catalog-Rollen, die auf eine bestimmte Ressource ausgerichtet sind
  • Separate Datenrollen von Rollen für Lake-Ressourcen
Beispiel für Datenberechtigungen, die nicht von übergeordneten Lake-Ressourcen übernommen werden
Abbildung 1: In diesem Beispiel eines Lakes haben beide Hauptkonten Datenberechtigungen für das Asset Cloud Storage-Daten (GCS-Daten). Diese Berechtigungen werden nicht von übergeordneten Lake-Ressourcen vererbt.


Beispiel für Berechtigungen, die nicht von Ressourcen auf höherer Ebene übernommen werden
Abbildung 2: Dieses Beispiel zeigt:
  1. Ein Dienstkonto, das die Rolle „Dataplex-Administrator“ vom das Projekt erbt.
  2. Hauptkonten (E-Mail-Adresse), die die Rollen „Dataplex-Bearbeiter“ und „Dataplex-Betrachter“ vom Projekt erben. Dies sind die Rollen, die für alle Ressourcen gelten.
  3. Ein Hauptkonto (E-Mail-Adresse), das die Rolle „Dataplex-Administrator“ vom Projekt erbt.

Richtlinienverwaltung

Nachdem Sie Ihre Sicherheitsrichtlinie angegeben haben, gibt Dataplex Universal Catalog die Berechtigungen an die IAM-Richtlinien der verwalteten Ressourcen weiter.

Die auf Lake-Ebene konfigurierte Sicherheitsrichtlinie wird an alle Ressourcen weitergegeben, die in diesem Lake verwaltet werden. Dataplex Universal Catalog bietet auf dem Tab Dataplex Universal Catalog > Verwalten > Berechtigungen den Weitergabestatus und Einblick in diese groß angelegten Weitergaben. Es überwacht die verwalteten Ressourcen kontinuierlich auf Änderungen an der IAM-Richtlinie außerhalb von Dataplex Universal Catalog.

Nutzer, die bereits Berechtigungen für eine Ressource haben, behalten diese auch, nachdem eine Ressource an einen Dataplex Universal Catalog-Lake angehängt wurde. Ebenso bleiben nicht mit Dataplex Universal Catalog verknüpfte Rollenbindungen, die nach dem Anhängen der Ressource an Dataplex Universal Catalog erstellt oder aktualisiert werden, unverändert.

Richtlinien auf Spalten-, Zeilen- und Tabellenebene festlegen

Cloud Storage-Bucket-Assets haben zugehörige BigQuery externe Tabellen.

Sie können ein Cloud Storage-Bucket-Asset aktualisieren. Das bedeutet, dass Dataplex Universal Catalog die angehängten externen Tabellen entfernt und stattdessen BigLake-Tabellen anhängt.

Sie können BigLake-Tabellen anstelle von externen Tabellen verwenden, um eine detaillierte Zugriffssteuerung zu ermöglichen, einschließlich Steuerung auf Zeilen, Spalten und Spaltendatenmaskierung.

Metadatensicherheit

Metadaten beziehen sich hauptsächlich auf Schemainformationen, die mit Nutzerdaten in Ressourcen verknüpft sind, die von einem Lake verwaltet werden.

Dataplex Universal Catalog Discovery untersucht die Daten in verwalteten Ressourcen und extrahiert tabellarische Schemainformationen. Diese Tabellen werden in BigQuery-, Dataproc Metastore- und Data Catalog-Systemen (eingestellt) veröffentlicht.

BigQuery

Jede gefundene Tabelle hat eine zugehörige Tabelle, die in BigQuery registriert ist. Für jede Zone gibt es ein zugehöriges BigQuery-Dataset, unter dem alle externen Tabellen registriert sind, die mit Tabellen verknüpft sind, die in dieser Datenzone gefunden wurden.

Die gefundenen in Cloud Storage gehosteten Tabellen sind unter dem für die Zone erstellten Dataset registriert.

Dataproc Metastore

Datenbanken und Tabellen werden im Dataproc Metastore verfügbar gemacht, der mit der Dataplex Universal Catalog-Lake-Instanz verknüpft ist. Jede Datenzone hat eine zugehörige Datenbank und jedes Asset kann eine oder mehrere zugehörige Tabellen haben.

Die Daten in einem Dataproc Metastore-Dienst werden durch die Konfiguration Ihres VPC-SC-Netzwerks geschützt. Die Dataproc Metastore-Instanz wird Dataplex Universal Catalog bei der Lake-Erstellung bereitgestellt, wodurch sie bereits zu einer vom Nutzer verwalteten Ressource wird.

Data Catalog

Jede gefundene Tabelle hat einen zugehörigen Eintrag in Data Catalog (eingestellt), um die Suche und Auffindbarkeit zu ermöglichen.

Für Data Catalog sind bei der Erstellung von Einträgen IAM-Richtliniennamen erforderlich. Daher stellt Dataplex Universal Catalog den IAM-Richtliniennamen der Dataplex Universal Catalog-Asset-Ressource bereit, mit der der Eintrag verknüpft werden soll. Die Berechtigungen für den Dataplex Universal Catalog-Eintrag werden also durch die Berechtigungen für die Asset-Ressource bestimmt. Gewähren Sie die Rolle „Dataplex-Metadatenleser“ (roles/dataplex.metadataReader) und die Rolle „Autor von Dataplex-Metadaten“ (roles/dataplex.metadataWriter) für die Asset-Ressource.

Nächste Schritte