Lakes schützen

In diesem Dokument wird beschrieben, wie Sie den Zugriff auf Dataplex Universal Catalog-Lakes sichern und verwalten.

Mit dem Sicherheitsmodell von Dataplex Universal Catalog können Sie Nutzerberechtigungen für die folgenden Aufgaben verwalten:

  • Lake verwalten (Assets, Zonen und zusätzliche Lakes erstellen und anhängen)
  • Zugriff auf Daten, die über das Mapping-Asset mit einem Lake verbunden sind (z. B.Google Cloud -Ressourcen wie Cloud Storage-Buckets und BigQuery-Datasets)
  • Auf Metadaten zu den mit einem Lake verbundenen Daten zugreifen

Ein Administrator für einen Lake steuert den Zugriff auf Dataplex Universal Catalog-Ressourcen wie Lakes, Zonen und Assets, indem er die grundlegenden und vordefinierten Rollen gewährt.

Einfache Rollen

Rolle Beschreibung
Dataplex-Betrachter
(roles/dataplex.viewer)
Berechtigung zum Ansehen (aber nicht zum Bearbeiten) des Data Lakes und seiner konfigurierten Zonen und Assets.
Dataplex-Bearbeiter
(roles/dataplex.editor)
Sie können den Lake bearbeiten. Kann Lakes, Zonen, Assets und Aufgaben erstellen und konfigurieren.
Dataplex-Administrator
(roles/dataplex.administrator)
Möglichkeit, einen Lake vollständig zu verwalten.
Dataplex-Entwickler
(roles/dataplex.developer)
Möglichkeit, Arbeitslasten zur Datenanalyse in einem Lake auszuführen. Dazu gehört das Erstellen und Konfigurieren von Inhalten und Aufgaben sowie das Ausführen von Code in den konfigurierten Umgebungen. Mit dieser Rolle werden keine Berechtigungen zum Erstellen von BigQuery-Tabellen oder zum Ausführen von Spark-Jobs gewährt. *
* Wenn Sie eine BigQuery-Tabelle abfragen möchten, benötigen Sie die Berechtigung zum Ausführen eines BigQuery-Jobs. Legen Sie diese Berechtigung in dem Projekt fest, dem die Compute-Ausgaben des Jobs zugeordnet oder in Rechnung gestellt werden sollen. Weitere Informationen finden Sie unter BigQuery-IAM-Rollen und -Berechtigungen.
Wenn Sie einen Spark-Job ausführen möchten, erstellen Sie Dataproc-Cluster und senden Sie Dataproc-Jobs in dem Projekt, dem die Rechenleistung zugeordnet werden soll.

Vordefinierte Rollen

Google Cloud verwaltet die vordefinierten Rollen, die einen genau definierten Zugriff auf den Dataplex Universal Catalog ermöglichen.

Metadatenrollen

Mit Metadatenrollen können Metadaten wie Tabellenschemas aufgerufen werden.

Rolle Beschreibung
Autor von Dataplex-Metadaten
(roles/dataplex.metadataWriter)
Metadaten einer bestimmten Ressource aktualisieren
Dataplex-Metadatenleser
(roles/dataplex.metadataReader)
Ermöglicht das Lesen der Metadaten (z. B. zum Abfragen einer Tabelle).

Datenrollen

Wenn Sie einem Hauptkonto Datenrollen zuweisen, kann es Daten in den zugrunde liegenden Ressourcen lesen oder schreiben, auf die die Assets des Data Lakes verweisen.

Dataplex Universal Catalog ordnet seine Rollen den Datenrollen für jede zugrunde liegende Speicherressource wie Cloud Storage und BigQuery zu.

Dataplex Universal Catalog übersetzt und überträgt Dataplex Universal Catalog-Datenrollen an die zugrunde liegende Speicherressource und legt die richtigen Rollen für jede Speicherressource fest. Sie können eine einzelne Dataplex Universal Catalog-Datenrolle in der Lake-Hierarchie (z. B. für einen Lake) zuweisen. Dataplex Universal Catalog behält den angegebenen Zugriff auf Daten für alle Ressourcen bei, die mit diesem Lake verbunden sind. Auf Cloud Storage-Buckets und BigQuery-Datasets wird beispielsweise über Assets in den zugrunde liegenden Zonen verwiesen.

Wenn Sie einem Hauptkonto beispielsweise die Rolle dataplex.dataWriter für einen Lake zuweisen, erhält das Hauptkonto Schreibzugriff auf alle Daten im Lake, in den zugehörigen Zonen und in den zugehörigen Assets. Auf einer niedrigeren Ebene (Zone) gewährte Datenzugriffsrollen werden in der Lake-Hierarchie an die zugrunde liegenden Assets vererbt.

Rolle Beschreibung
Dataplex-Datenleser
(roles/dataplex.dataReader)
Daten aus dem an Assets angehängten Speicher lesen, einschließlich Speicher-Buckets und BigQuery-Datasets (und deren Inhalt). *
Dataplex Data Writer
(roles/dataplex.dataWriter)
Kann in die zugrunde liegenden Ressourcen schreiben, auf die das Asset verweist. *
Dataplex-Dateninhaber
(roles/dataplex.dataOwner)
Gewährt die Rolle „Inhaber“ für die zugrunde liegenden Ressourcen, einschließlich der Möglichkeit, untergeordnete Ressourcen zu verwalten. Als Dateninhaber eines BigQuery-Datasets können Sie beispielsweise die zugrunde liegenden Tabellen verwalten.

Lakes schützen

Sie können den Zugriff auf Ihren Lake und die daran angehängten Daten sichern und verwalten. Verwenden Sie in der Google Cloud Console eine der folgenden Ansichten:

  • Die Ansicht Verwalten des Dataplex Universal Catalog auf dem Tab Berechtigungen
  • Die Secure-Ansicht von Dataplex Universal Catalog

Ansicht Verwalten verwenden

Auf dem Tab Berechtigungen können Sie alle Berechtigungen für eine Lake-Ressource verwalten. Dort wird eine ungefilterte Ansicht aller Berechtigungen angezeigt, einschließlich der geerbten.

So schützen Sie Ihren See:

  1. Rufen Sie in der Google Cloud Console die Dataplex Universal Catalog-Seite Lakes auf.

    Zu den Seen

  2. Klicken Sie auf den Namen des von Ihnen erstellten Data Lakes.

  3. Klicken Sie auf den Tab Berechtigungen.

  4. Klicken Sie auf den Tab Nach Rollen ansehen.

  5. Klicken Sie auf Hinzufügen, um eine neue Rolle hinzuzufügen. Fügen Sie die Rollen Dataplex Data Reader, Data Writer und Data Owner hinzu.

  6. Prüfen Sie, ob die Rollen Dataplex-Datenleser, Datenschreiber und Dateninhaber angezeigt werden.

Ansicht Sicher verwenden

Die Ansicht Sicher des Dataplex Universal Catalog in der Google Cloud Console bietet Folgendes:

  • Eine filterbare Ansicht nur der Dataplex Universal Catalog-Rollen, die sich auf eine bestimmte Ressource beziehen
  • Datenrollen von Rollen für Lake-Ressourcen trennen
Beispiel für Datenberechtigungen, die nicht von übergeordneten Lake-Ressourcen übernommen werden
Abbildung 1: In diesem Beispiel eines Data Lakes haben beide Principals Datenberechtigungen für das Asset Cloud Storage-Daten (GCS-Daten). Diese Berechtigungen werden nicht von übergeordneten Lake-Ressourcen übernommen.


Beispiel für Berechtigungen, die nicht von übergeordneten Lake-Ressourcen übernommen werden
Abbildung 2: In diesem Beispiel wird Folgendes gezeigt:
  1. Ein Dienstkonto, das die Rolle „Dataplex-Administrator“ vom Projekt erbt.
  2. Hauptkonten (E‑Mail-Adresse), die die Rollen „Dataplex-Bearbeiter“ und „Dataplex-Betrachter“ vom Projekt übernehmen. Dies sind die Rollen, die für alle Ressourcen gelten.
  3. Ein Hauptkonto (E-Mail-Adresse), das die Rolle „Dataplex-Administrator“ vom Projekt erbt.

Richtlinienverwaltung

Nachdem Sie Ihre Sicherheitsrichtlinie angegeben haben, werden die Berechtigungen von Dataplex Universal Catalog an die IAM-Richtlinien der verwalteten Ressourcen weitergegeben.

Die auf Lake-Ebene konfigurierte Sicherheitsrichtlinie wird auf alle in diesem Lake verwalteten Ressourcen übertragen. Dataplex Universal Catalog bietet auf dem Tab Verwalten>Berechtigungen den Weitergabestatus und die Sichtbarkeit dieser groß angelegten Weitergaben. Sie überwacht die verwalteten Ressourcen kontinuierlich auf Änderungen an der IAM-Richtlinie außerhalb von Dataplex Universal Catalog.

Nutzer, die bereits Berechtigungen für eine Ressource haben, behalten diese auch, nachdem eine Ressource an einen Dataplex Universal Catalog-Lake angehängt wurde. Entsprechend bleiben Rollenbindungen, die nicht für Dataplex Universal Catalog gelten und nach dem Anhängen der Ressource an Dataplex Universal Catalog erstellt oder aktualisiert werden, unverändert.

Richtlinien auf Spalten-, Zeilen- und Tabellenebene festlegen

Cloud Storage-Bucket-Assets sind mit zugehörigen externen BigQuery-Tabellen verknüpft.

Sie können ein Cloud Storage-Bucket-Asset aktualisieren. In diesem Fall werden die angehängten externen Tabellen aus Dataplex Universal Catalog entfernt und stattdessen BigLake-Tabellen angehängt.

Sie können BigLake-Tabellen anstelle von externen Tabellen verwenden, um eine detaillierte Zugriffssteuerung zu ermöglichen, einschließlich Steuerelemente auf Zeilenebene, Steuerelemente auf Spaltenebene und Maskierung von Spaltendaten.

Metadatensicherheit

Metadaten beziehen sich hauptsächlich auf Schemainformationen, die mit Nutzerdaten in Ressourcen verknüpft sind, die von einem Data Lake verwaltet werden.

Mit Dataplex Universal Catalog Discovery werden die Daten in verwalteten Ressourcen untersucht und Informationen zum tabellarischen Schema extrahiert. Diese Tabellen werden in BigQuery, Dataproc Metastore und Data Catalog (eingestellt) veröffentlicht.

BigQuery

Jeder gefundenen Tabelle ist eine in BigQuery registrierte Tabelle zugeordnet. Für jede Zone gibt es ein zugehöriges BigQuery-Dataset, in dem alle externen Tabellen registriert sind, die mit Tabellen verknüpft sind, die in dieser Datenzone ermittelt wurden.

Die erkannten Cloud Storage-basierten Tabellen werden im Dataset registriert, das für die Zone erstellt wurde.

Dataproc Metastore

Datenbanken und Tabellen werden im Dataproc Metastore verfügbar gemacht, der der Dataplex Universal Catalog-Lake-Instanz zugeordnet ist. Jeder Datenzone ist eine Datenbank zugeordnet und jedem Asset können eine oder mehrere Tabellen zugeordnet sein.

Die Daten in einem Dataproc Metastore-Dienst werden durch die Konfiguration Ihres VPC-SC-Netzwerks geschützt. Die Dataproc Metastore-Instanz wird während der Lake-Erstellung für den Dataplex Universal Catalog bereitgestellt. Dadurch ist sie bereits eine nutzerverwaltete Ressource.

Data Catalog

Jeder erkannten Tabelle ist ein Eintrag in Data Catalog (Eingestellt) zugeordnet, um die Suche und Erkennung zu ermöglichen.

Für Data Catalog sind IAM-Richtliniennamen beim Erstellen von Einträgen erforderlich. Daher wird im Dataplex Universal Catalog der IAM-Richtlinienname der Dataplex Universal Catalog-Asset-Ressource angegeben, der der Eintrag zugeordnet werden soll. Die Berechtigungen für den Dataplex Universal Catalog-Eintrag werden daher durch die Berechtigungen für die Asset-Ressource bestimmt. Weisen Sie die Rolle „Dataplex Metadata Reader“ (roles/dataplex.metadataReader) und die Rolle „Dataplex Metadata Writer“ (roles/dataplex.metadataWriter) für die Asset-Ressource zu.

Nächste Schritte