Lakes schützen

In diesem Dokument wird beschrieben, wie Sie den Zugriff auf Knowledge Catalog-Lakes (ehemals Dataplex Universal Catalog) schützen und verwalten.

Mit dem Knowledge Catalog-Sicherheitsmodell können Sie Nutzerberechtigungen für die folgenden Aufgaben verwalten:

  • Lake verwalten (Assets, Zonen und zusätzliche Lakes erstellen und anhängen)
  • Über das Mapping-Asset auf Daten zugreifen, die mit einem Lake verbunden sind (z. B. Google Cloud Ressourcen wie Cloud Storage-Buckets und BigQuery-Datasets)
  • Auf Metadaten zu den Daten zugreifen, die mit einem Lake verbunden sind

Ein Administrator für einen Lake steuert den Zugriff auf Knowledge Catalog-Ressourcen wie Lakes, Zonen und Assets, indem er die einfachen und vordefinierten Rollen zuweist.

Vordefinierte Rollen

Google Cloud verwaltet die vordefinierten Rollen, die einen detaillierten Zugriff auf Knowledge Catalog ermöglichen.

Knowledge Catalog-Rollen

Rolle Beschreibung
Dataplex-Betrachter
(roles/dataplex.viewer)
Kann den Lake und seine konfigurierten Zonen und Assets ansehen, aber nicht bearbeiten.
Dataplex-Bearbeiter
(roles/dataplex.editor)
Kann den Lake bearbeiten. Kann Lakes, Zonen, Assets, und Aufgaben erstellen und konfigurieren.
Dataplex-Administrator
(roles/dataplex.administrator)
Kann einen Lake vollständig verwalten.
Dataplex-Entwickler
(roles/dataplex.developer)
Kann Arbeitslasten zur Datenanalyse in einem Lake ausführen. Dazu gehört das Erstellen und Konfigurieren von Inhalten und Aufgaben sowie das Ausführen von Code in den konfigurierten Umgebungen. Diese Rolle gewährt keine Berechtigungen zum Erstellen von BigQuery-Tabellen oder zum Ausführen von Spark-Jobs. *
* Wenn Sie eine BigQuery-Tabelle abfragen möchten, benötigen Sie die Berechtigung zum Ausführen eines BigQuery-Jobs. Legen Sie diese Berechtigung in dem Projekt fest, dem die Rechenkosten des Jobs zugewiesen oder in Rechnung gestellt werden sollen. Weitere Informationen finden Sie unter BigQuery-IAM-Rollen und -Berechtigungen.
Wenn Sie einen Spark-Job ausführen möchten, erstellen Sie einen verwalteten Dienst für Apache Spark-Cluster und senden Sie verwaltete Dienste für Apache Spark-Jobs in dem Projekt, dem die Rechenkosten zugewiesen werden sollen.

Metadatenrollen

Metadatenrollen können Metadaten wie Tabellenschemas ansehen.

Rolle Beschreibung
Autor von Dataplex-Metadaten
(roles/dataplex.metadataWriter)
Kann die Metadaten einer bestimmten Ressource aktualisieren.
Dataplex-Metadatenleser
(roles/dataplex.metadataReader)
Kann die Metadaten lesen (z. B. eine Tabelle abfragen).

Datenrollen

Wenn Sie einem Hauptkonto Datenrollen zuweisen, kann es Daten in den zugrunde liegenden Ressourcen lesen oder schreiben, auf die die Assets des Lakes verweisen.

Knowledge Catalog ordnet seine Rollen den Datenrollen für jede zugrunde liegende Speicherressource zu, z. B. Cloud Storage und BigQuery.

Knowledge Catalog übersetzt und überträgt Knowledge Catalog-Datenrollen an die zugrunde liegende Speicherressource und legt die richtigen Rollen für jede Speicherressource fest. Sie können eine einzelne Knowledge Catalog-Datenrolle in der Lake-Hierarchie (z. B. für einen Lake) zuweisen. Knowledge Catalog behält den angegebenen Zugriff auf Daten für alle Ressourcen bei, die mit diesem Lake verbunden sind (z. B. Cloud Storage-Buckets und BigQuery-Datasets, auf die von Assets in den zugrunde liegenden Zonen verwiesen wird).

Wenn Sie einem Hauptkonto beispielsweise die Rolle dataplex.dataWriter für einen Lake zuweisen, erhält es Schreibzugriff auf alle Daten im Lake, in den zugrunde liegenden Zonen und in den Assets. Datenzugriffsrollen, die auf einer niedrigeren Ebene (Zone) zugewiesen werden, werden in der Lake-Hierarchie an die zugrunde liegenden Assets vererbt.

Rolle Beschreibung
Dataplex-Datenleser
(roles/dataplex.dataReader)
Kann Daten aus dem Speicher lesen, der an Assets angehängt ist, einschließlich Speicher Buckets und BigQuery-Datasets (und deren Inhalte). *
Dataplex-Datenautor
(roles/dataplex.dataWriter)
Kann in die zugrunde liegenden Ressourcen schreiben, auf die das Asset verweist. *
Dataplex-Dateninhaber
(roles/dataplex.dataOwner)
Weist den zugrunde liegenden Ressourcen die Rolle „Inhaber“ zu, einschließlich der Möglichkeit, untergeordnete Ressourcen zu verwalten. Als Dateninhaber eines BigQuery-Datasets können Sie beispielsweise die zugrunde liegenden Tabellen verwalten.

Lakes schützen

Sie können den Zugriff auf Ihren Lake und die daran angehängten Daten schützen und verwalten. Verwenden Sie in der Google Cloud Console eine der folgenden Ansichten:

  • Die Ansicht Verwalten von Knowledge Catalog auf dem Tab Berechtigungen
  • Die Ansicht Sichern von Knowledge Catalog

Ansicht Verwalten verwenden

Auf dem Tab Berechtigungen können Sie alle Berechtigungen für eine Lake-Ressource verwalten. Es wird eine ungefilterte Ansicht aller Berechtigungen angezeigt, einschließlich der vererbten.

So schützen Sie Ihren Lake:

  1. Rufen Sie in der Google Cloud Console die Seite Lakes von Knowledge Catalog auf.

    Zu den Lakes

  2. Klicken Sie auf den Namen des von Ihnen erstellten Lakes.

  3. Klicken Sie auf den Tab Berechtigungen.

  4. Klicken Sie auf den Tab Nach Rollen ansehen.

  5. Klicken Sie auf Hinzufügen , um eine neue Rolle hinzuzufügen. Fügen Sie die Rollen Dataplex-Datenleser, Dataplex-Datenautor und Dataplex-Dateninhaber hinzu.

  6. Prüfen Sie, ob die Rollen Dataplex-Datenleser, Dataplex-Datenautor und Dataplex-Dateninhaber angezeigt werden.

Ansicht Sichern verwenden

Die Ansicht Sichern von Knowledge Catalog in der Google Cloud Console bietet Folgendes:

  • Eine filterbare Ansicht mit nur den Knowledge Catalog-Rollen, die auf eine bestimmte Ressource ausgerichtet sind
  • Separate Datenrollen von Lake-Ressourcenrollen
Beispiel für Datenberechtigungen, die nicht von übergeordneten Lake-Ressourcen übernommen werden
Abbildung 1: In diesem Beispiel für einen Lake haben beide Hauptkonten Datenberechtigungen für das Asset Beispiel. Diese Berechtigungen werden nicht von übergeordneten Lake-Ressourcen vererbt.


Beispiel für Berechtigungen, die nicht von Ressourcen auf höherer Ebene übernommen werden
Abbildung 2: Dieses Beispiel zeigt:
  1. Ein Dienstkonto, das die Rolle „Dataplex-Administrator“ vom das Projekt erbt.
  2. Hauptkonten (E-Mail-Adresse), die die Rollen „Dataplex-Bearbeiter“ und „Dataplex-Betrachter“ vom Projekt erben. Dies sind die Rollen, die für alle Ressourcen gelten.
  3. Ein Hauptkonto (E-Mail-Adresse), das die Rolle „Dataplex-Administrator“ vom Projekt erbt.

Richtlinienverwaltung

Nachdem Sie Ihre Sicherheitsrichtlinie angegeben haben, überträgt Knowledge Catalog die Berechtigungen an die IAM-Richtlinien der verwalteten Ressourcen.

Die auf Lake-Ebene konfigurierte Sicherheitsrichtlinie wird an alle Ressourcen übertragen, die in diesem Lake verwaltet werden. Knowledge Catalog bietet den Übertragungsstatus und Einblick in diese groß angelegten Übertragungen auf dem Tab Verwalten > Berechtigungen von Knowledge Catalog. Es überwacht die verwalteten Ressourcen kontinuierlich auf Änderungen an der IAM-Richtlinie außerhalb von Knowledge Catalog.

Nutzer, die bereits Berechtigungen für eine Ressource haben, behalten diese auch, nachdem eine Ressource an einen Knowledge Catalog-Lake angehängt wurde. Ebenso bleiben nicht Knowledge Catalog-Rollenbindungen, die nach dem Anhängen der Ressource an Knowledge Catalog erstellt oder aktualisiert werden, unverändert.

Richtlinien auf Spalten-, Zeilen- und Tabellenebene festlegen

Cloud Storage-Bucket-Assets haben zugeordnete BigQuery externe Tabellen.

Sie können ein Cloud Storage-Bucket-Asset aktualisieren. Das bedeutet, dass Knowledge Catalog die angehängten externen Tabellen entfernt und stattdessen BigLake-Tabellen anhängt.

Sie können BigLake-Tabellen anstelle von externen Tabellen verwenden, um eine detaillierte Zugriffssteuerung zu ermöglichen, einschließlich Steuerung auf Zeilen- und Spaltenebene, sowie Maskierung von Spaltendaten, und .

Metadatensicherheit

Metadaten beziehen sich hauptsächlich auf Schemainformationen, die mit Nutzerdaten in Ressourcen verknüpft sind, die von einem Lake verwaltet werden.

Knowledge Catalog Discovery untersucht die Daten in verwalteten Ressourcen und extrahiert tabellarische Schemainformationen. Diese Tabellen werden in BigQuery-, Dataproc Metastore- und Data Catalog-Systemen (eingestellt) veröffentlicht.

BigQuery

Jede erkannte Tabelle hat eine zugeordnete Tabelle, die in BigQuery registriert ist. Für jede Zone gibt es ein zugehöriges BigQuery-Dataset, unter dem alle externen Tabellen registriert sind, die mit Tabellen verknüpft sind, die in dieser Datenzone erkannt wurden.

Die erkannten Cloud Storage-gehosteten Tabellen werden unter dem für die Zone erstellten Dataset registriert.

Dataproc Metastore

Datenbanken und Tabellen sind im Dataproc Metastore verfügbar, der mit der Knowledge Catalog-Lake-Instanz verknüpft ist. Jede Datenzone hat eine zugeordnete Datenbank und jedes Asset kann eine oder mehrere zugeordnete Tabellen haben.

Die Daten in einem Dataproc Metastore-Dienst werden durch Konfigurieren Ihres VPC-SC-Netzwerks geschützt. Die Dataproc Metastore-Instanz wird Knowledge Catalog bei der Lake-Erstellung bereitgestellt, wodurch sie bereits zu einer vom Nutzer verwalteten Ressource wird.

Data Catalog

Jede erkannte Tabelle hat einen zugehörigen Eintrag in Data Catalog (eingestellt), um die Suche und Ermittlung zu ermöglichen.

Für Data Catalog sind bei der Erstellung von Einträgen IAM-Richtliniennamen erforderlich. Daher stellt Knowledge Catalog den IAM-Richtliniennamen der Knowledge Catalog-Asset-Ressource bereit, mit der der Eintrag verknüpft werden soll. Die Berechtigungen für den Knowledge Catalog-Eintrag werden also durch die Berechtigungen für die Asset-Ressource bestimmt. Weisen Sie der Asset-Ressource die Rolle „Dataplex-Metadatenleser“ (roles/dataplex.metadataReader) und die Rolle „Autor von Dataplex-Metadaten“ (roles/dataplex.metadataWriter) zu.

Nächste Schritte