Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Datenverwaltungs- und Analyseplattform für Unternehmen bereitstellen

Last reviewed 2025-04-04 UTC

Eine Plattform für die Datenverwaltung und ‑analyse auf Unternehmensebene bietet eine Enklave, in der Sie vertrauliche Informationen speichern, analysieren und bearbeiten können, während Sicherheitskontrollen beibehalten werden. Mit der Enterprise Data Mesh-Architektur können Sie eine Plattform auf Google Cloud für Datenmanagement und ‑analyse bereitstellen. Die Architektur ist für den Einsatz in einer Hybridumgebung konzipiert, in der Google Cloud Komponenten mit Ihren vorhandenen lokalen Komponenten und Betriebsprozessen interagieren.

Die Enterprise Data Mesh-Architektur umfasst Folgendes:

Ein GitHub-Repository, das eine Reihe von Terraform-Konfigurationen, Skripts und Code zum Erstellen der folgenden Elemente enthält:
- Ein Governance-Projekt, mit dem Sie die Implementierung des CDMC Key Controls Framework (Cloud Data Management Capabilities) von Google nutzen können.
- Ein Beispiel für eine Datenplattform, die interaktive Workflows und Produktionsworkflows unterstützt.
- Eine Producer-Umgebung innerhalb der Datenplattform, die mehrere Datenbereiche unterstützt. Datendomänen sind logische Gruppierungen von Datenelementen.
- Eine Nutzerumgebung innerhalb der Datenplattform, die mehrere Nutzerprojekte unterstützt.
- Ein Dienst für die Datenübertragung, der die Identitätsföderation von Arbeitslasten und die Tink-Verschlüsselungsbibliothek verwendet, um Ihnen zu helfen, Daten sicher in Google Cloud zu übertragen.
- Ein Beispiel für eine Datendomäne, die Aufnahme-, nicht vertrauliche und vertrauliche Projekte enthält.
- Ein Beispiel für ein Datenzugriffssystem, mit dem Datenverbraucher Zugriff auf Datasets anfordern und Dateninhaber Zugriff auf diese Datasets gewähren können. Das Beispiel enthält auch einen Workflow-Manager, der die IAM-Berechtigungen dieser Datasets entsprechend ändert.
Einer Anleitung zu den Architektur-, Design-, Sicherheitskontrollen und Betriebsprozessen, die Sie mit dieser Architektur implementieren (dieses Dokument).

Die Data-Mesh-Architektur für Unternehmen ist mit dem Blueprint für Unternehmensgrundlagen kompatibel. Der Blueprint zu den Unternehmensgrundlagen bietet eine Reihe von Diensten auf Basisebene, auf die diese Architektur basiert, z. B. VPC-Netzwerke und Logging. Sie können diese Architektur bereitstellen, ohne den Blueprint für Unternehmensgrundlagen bereitzustellen, wenn IhreGoogle Cloud -Umgebung die erforderlichen Funktionen bietet.

Dieses Dokument richtet sich an Cloud-Architekten, Data Scientists, Data Engineers und Sicherheitsarchitekten, die die Architektur verwenden können, um umfassende Datendienste auf Google Cloudzu erstellen und bereitzustellen. In diesem Dokument wird davon ausgegangen,dass Sie mit den Konzepten von Data Meshes, Google CloudDatendiensten und der Google Cloud Implementierung des CDMC-Frameworks vertraut sind.

Architektur

Die Data-Mesh-Architektur für Unternehmen bietet eine mehrschichtige Lösung für die Datenaufnahme, ‑verarbeitung und ‑verwaltung. Die Architektur soll über einen CI/CD-Workflow bereitgestellt und gesteuert werden. Das folgende Diagramm zeigt, wie sich die von dieser Architektur bereitgestellte Datenschicht auf andere Ebenen in Ihrer Umgebung bezieht.

Data Mesh-Architektur.

Dieses Diagramm enthält Folgendes:

Die Google Cloud -Infrastruktur bietet Sicherheitsfunktionen wie Verschlüsselung inaktiver Daten und Verschlüsselung während der Übertragung sowie Grundbausteine wie Computing und Speicher.
Die Unternehmensgrundlage bietet eine Baseline von Ressourcen wie Identität, Netzwerk, Logging, Monitoring und Bereitstellungssystemen, mit denen Sie Google Cloud für Ihre Datenarbeitslasten einführen können.
Die Datenschicht bietet verschiedene Funktionen wie Datenaufnahme, Datenspeicherung, Datenzugriffssteuerung und Data Governance, Datenmonitoring und Datenfreigabe.
Die Anwendungsebene repräsentiert verschiedene Anwendungen, die die Assets der Datenschicht verwenden.
CI/CD bietet die Tools, um die Bereitstellung, Konfiguration, Verwaltung und Bereitstellung von Infrastruktur, Workflows und Softwarekomponenten zu automatisieren. Mit diesen Komponenten sorgen Sie für konsistente, zuverlässige und überprüfbare Bereitstellungen und können manuelle Fehler minimieren und den gesamten Entwicklungszyklus beschleunigen.

Um zu zeigen, wie die Datenumgebung verwendet wird, enthält die Architektur einen Beispiel-Datenworkflow. Der Workflow für Beispieldaten umfasst die folgenden Prozesse: Data Governance, Datenaufnahme, Datenverarbeitung, Datenfreigabe und Datennutzung.

Wichtige Architekturentscheidungen

In der folgenden Tabelle sind die wichtigsten Entscheidungen zur Architektur zusammengefasst.

Entscheidungsbereich	Entscheidung
Google Cloud architecture
Ressourcenhierarchie	Die Architektur verwendet die Ressourcenhierarchie aus dem Blueprint für Unternehmensgrundlagen.
Netzwerk	Die Architektur umfasst einen Beispiel-Datenübertragungsdienst, der die Identitätsföderation von Arbeitslasten und eine Tink-Bibliothek verwendet.
Rollen und IAM-Berechtigungen	Die Architektur umfasst segmentierte Rollen für Datenersteller, Datennutzer, Data Governance und Datenplattform.
Allgemeine Datendienste
Metadaten	Die Architektur verwendet Data Catalog, um Datenmetadaten zu verwalten.
Zentrale Richtlinienverwaltung	Zum Verwalten von Richtlinien wird die Implementierung des CDMC-Frameworks von Google Cloudverwendet.
Verwaltung des Datenzugriffs	Zur Kontrolle des Zugriffs auf Daten umfasst die Architektur einen unabhängigen Prozess, bei dem Datennutzer den Zugriff auf Daten-Assets vom Dateninhaber anfordern müssen.
Datenqualität	Die Architektur verwendet die Cloud Data Quality Engine, um Datenqualitätsregeln für angegebene Tabellenspalten zu definieren und auszuführen. Die Datenqualität wird anhand von Messwerten wie Richtigkeit und Vollständigkeit gemessen.
Datensicherheit	Die Architektur verwendet Tagging, Verschlüsselung, Maskierung, Tokenisierung und IAM-Steuerelemente, um Datensicherheit zu gewährleisten.
Datendomäne
Datenumgebungen	Die Architektur umfasst drei Umgebungen. Zwei Umgebungen (Nicht-Produktion und Produktion) sind operative Umgebungen, die von Pipelines gesteuert werden. Eine Umgebung (Entwicklung) ist eine interaktive Umgebung.
Dateninhaber	Dateninhaber nehmen Daten-Assets auf, verarbeiten sie, stellen sie zur Verfügung und gewähren Zugriff darauf.
Datenkonsumenten	Datennutzer fordern Zugriff auf Datenassets an.
Onboarding und Vorgänge
Pipelines	Die Architektur verwendet die folgenden Pipelines zum Bereitstellen von Ressourcen: Fundament-Pipeline Infrastrukturpipeline Artefakt-Pipelines Service Catalog-Pipeline
Repositories	Für jede Pipeline wird ein separates Repository verwendet, um die Verantwortlichkeiten zu trennen.
Prozessablauf	Für Änderungen an der Produktionsumgebung sind ein Absender und ein Genehmiger erforderlich.
Cloud Operations
Übersichten für Datenprodukte	Die Berichts-Engine generiert Übersichten für Datenprodukte.
Cloud Logging	Die Architektur verwendet die Logging-Infrastruktur aus dem Blueprint für Unternehmensgrundlagen.
Cloud Monitoring	Die Architektur verwendet die Monitoring-Infrastruktur aus dem Blueprint für Unternehmensgrundlagen.

Identität: Rollen Gruppen zuordnen

Das Data Mesh nutzt die vorhandene Architektur für die Verwaltung des Identitätslebenszyklus, die Autorisierung und die Authentifizierung des Enterprise Foundations-Blueprints. Nutzern werden Rollen nicht direkt zugewiesen. Stattdessen sind Gruppen die primäre Methode zum Zuweisen von Rollen und Berechtigungen in IAM. IAM-Rollen und -Berechtigungen werden während der Projekterstellung über die Foundation-Pipeline zugewiesen.

Im Data Mesh werden Gruppen einem von vier Schlüsselbereichen zugeordnet: Infrastruktur, Daten-Governance, domänenbasierte Datenproduzenten und domänenbasierte Nutzer.

Die Berechtigungsbereiche für diese Gruppen sind die folgenden:

Der Berechtigungsbereich der Infrastrukturgruppe ist das gesamte Data Mesh.
Der Berechtigungsbereich der Data-Governance-Gruppen ist das Data-Governance-Projekt.
Die Berechtigungen von domainbasierten Produzenten und Nutzern sind auf ihre Datendomäne beschränkt.

In den folgenden Tabellen sind die verschiedenen Rollen aufgeführt, die in dieser Data Mesh-Implementierung verwendet werden, sowie die zugehörigen Berechtigungen.

Infrastruktur

Gruppe	Beschreibung	Rollen
`data-mesh-ops@example.com`	Allgemeine Administratoren des Data Mesh	`roles/owner` (Datenplattform)

Data Governance

Gruppe	Beschreibung	Rollen
`gcp-dm-governance-admins@example.com`	Administratoren des Data Governance-Projekts	`roles/owner` für das Data Governance-Projekt
`gcp-dm-governance-developers@example.com`	Entwickler, die die Data Governance-Komponenten erstellen und verwalten	Mehrere Rollen für das Data Governance-Projekt, darunter `roles/viewer`, BigQuery-Rollen und Data Catalog-Rollen
`gcp-dm-governance-data-readers@example.com`	Leser von Data Governance-Informationen	`roles/viewer`
`gcp-dm-governance-security-administrator@example.com`	Sicherheitsadministratoren des Governance-Projekts	`roles/orgpolicy.policyAdmin` und `roles/iam.securityReviewer`
`gcp-dm-governance-tag-template-users@example.com`	Gruppe mit der Berechtigung, Tag-Vorlagen zu verwenden	`roles/datacatalog.tagTemplateUser`
`gcp-dm-governance-tag-users@example.com`	Gruppe mit der Berechtigung, Tag-Vorlagen zu verwenden und Tags hinzuzufügen	`roles/datacatalog.tagTemplateUser` und `roles/datacatalog.tagEditor`
`gcp-dm-governance-scc-notifications@example.com`	Dienstkontogruppe für Security Command Center-Benachrichtigungen	Keine. Dies ist eine Gruppe für die Mitgliedschaft. Es wird ein Dienstkonto mit diesem Namen erstellt, das die erforderlichen Berechtigungen hat.

Domainbasierte Daten-Ersteller

Gruppe	Beschreibung	Rollen
`gcp-dm-{data_domain_name}-admins@example.com`	Administratoren einer bestimmten Datendomäne	`roles/owner` für das Projekt der Datendomäne
`gcp-dm-{data_domain_name}-developers@example.com`	Entwickler, die Datenprodukte in einer Datendomäne erstellen und verwalten	Mehrere Rollen für das Projekt der Datendomäne, darunter `roles/viewer`, BigQuery-Rollen und Cloud Storage-Rollen
`gcp-dm-{data_domain_name}-data-readers@example.com`	Leser der Informationen zur Datendomain	`roles/viewer`
`gcp-dm-{data_domain_name}-metadata-editors@{var.domain}`	Bearbeiter von Data Catalog-Einträgen	Rollen zum Bearbeiten von Data Catalog-Einträgen
`gcp-dm-{data_domain_name}-data-stewards@example.com`	Data Stewards für die Datendomäne	Rollen zum Verwalten von Metadaten und Data Governance-Aspekten

Domainbasierte Datenkonsumenten

Gruppe	Beschreibung	Rollen
`gcp-dm-consumer-{project_name}-admins@example.com`	Administratoren eines bestimmten Nutzerprojekts	`roles/owner` für das Nutzerprojekt
`gcp-dm-consumer-{project_name}-developers@example.com`	Entwickler, die an einem Nutzerprojekt arbeiten	Mehrere Rollen im Kundenprojekt, einschließlich `roles/viewer` und BigQuery-Rollen
`gcp-dm-consumer-{project_name}-data-readers@example.com`	Leser der Nutzerprojektinformationen	`roles/viewer`

Organisationsstruktur

Um zwischen Produktionsvorgängen und Produktionsdaten zu unterscheiden, werden in der Architektur verschiedene Umgebungen zum Entwickeln und Freigeben von Arbeitsabläufen verwendet. Zu den Produktionsvorgängen gehören die Governance, die Nachvollziehbarkeit und die Wiederholbarkeit eines Workflows sowie die Prüfbarkeit der Ergebnisse des Workflows. Produktionsdaten sind möglicherweise sensible Daten, die Sie für die Führung Ihrer Organisation benötigen. Alle Umgebungen sind so konzipiert, dass Sie Ihre Daten mit Sicherheitskontrollen aufnehmen und verarbeiten können.

Um Data Scientists und Data Engineers zu unterstützen, umfasst die Architektur eine interaktive Umgebung, in der Entwickler direkt mit der Umgebung arbeiten und Dienste über einen kuratierten Katalog von Lösungen hinzufügen können. Betriebsumgebungen werden über Pipelines gesteuert, die eine codierte Architektur und Konfiguration haben.

Diese Architektur verwendet die Organisationsstruktur des Unternehmensgrundlagen-Blueprints als Grundlage für die Bereitstellung von Datenarbeitslasten. Das folgende Diagramm zeigt die Ordner und Projekte der obersten Ebene, die in der Enterprise Data Mesh-Architektur verwendet werden.

Organisationsstruktur des Data Mesh.

In der folgenden Tabelle werden die Ordner und Projekte der obersten Ebene beschrieben, die Teil der Architektur sind.

Ordner	Komponente	Beschreibung
`common`	`prj-c-artifact-pipeline`	Enthält die Bereitstellungspipeline, mit der die Code-Artefakte der Architektur erstellt werden.
	`prj-c-service-catalog`	Enthält die Infrastruktur, die vom Service Catalog zum Bereitstellen von Ressourcen in der interaktiven Umgebung verwendet wird.
	`prj-c-datagovernance`	Enthält alle Ressourcen, die von der Implementierung des CDMC-Frameworks durch Google Cloudverwendet werden.
`development`	`fldr-d-dataplatform`	Enthält die Projekte und Ressourcen der Datenplattform für die Entwicklung von Anwendungsfällen im interaktiven Modus.
`non-production`	`fldr-n-dataplatform`	Enthält die Projekte und Ressourcen der Datenplattform zum Testen von Anwendungsfällen, die Sie in einer Betriebsumgebung bereitstellen möchten.
`production`	`fldr-p-dataplatform`	Enthält die Projekte und Ressourcen der Datenplattform für die Bereitstellung in der Produktion.

Ordner für Datenplattform

Der Datenplattformordner enthält alle Komponenten der Datenebene und einige der CDMC-Ressourcen. Außerdem enthalten der Datenplattformordner und das Data-Governance-Projekt die CDMC-Ressourcen. Das folgende Diagramm zeigt die Ordner und Projekte, die im Ordner der Datenplattform bereitgestellt werden.

Der Ordner für die Datenplattform

Jeder Datenplattformordner enthält einen Umgebungsordner (Produktion, Nicht-Produktion und Entwicklung). In der folgenden Tabelle werden die Ordner in den einzelnen Datenplattformordnern beschrieben.

Ordner	Beschreibung
Produzenten	Enthält die Datenbereiche.
Nutzer	Enthält die Nutzerprojekte.
Datendomain	Enthält die Projekte, die mit einer bestimmten Domain verknüpft sind.

Ordner „Producers“

Jeder Ordner für Produzenten enthält eine oder mehrere Datendomänen. Eine Datendomäne bezieht sich auf eine logische Gruppierung von Datenelementen, die eine gemeinsame Bedeutung, einen gemeinsamen Zweck oder einen gemeinsamen geschäftlichen Kontext haben. Mit Datendomains können Sie Daten-Assets innerhalb einer Organisation kategorisieren und organisieren. Das folgende Diagramm zeigt die Struktur einer Datendomäne. Bei der Architektur werden Projekte für jede Umgebung im Ordner „data platform“ bereitgestellt.

Der Ordner „Produzenten“.

In der folgenden Tabelle werden die Projekte beschrieben, die für jede Umgebung im Ordner „Datenplattform“ bereitgestellt werden.

Projekt	Beschreibung
Aufnahme	Im Aufnahmeprojekt werden Daten in die Datendomäne aufgenommen. Die Architektur enthält Beispiele dafür, wie Sie Daten in BigQuery, Cloud Storage und Pub/Sub streamen können. Das Aufnahmeprojekt enthält auch Beispiele für Dataflow und Managed Service for Apache Airflow, mit denen Sie die Transformation und Übertragung aufgenommener Daten orchestrieren können.
Nicht vertraulich	Das nicht vertrauliche Projekt enthält anonymisierte Daten. Sie können Daten maskieren, in Containern speichern, verschlüsseln, tokenisieren oder verschleiern. Mit Richtlinientags können Sie festlegen, wie die Daten präsentiert werden.
Vertraulich	Das Projekt für vertrauliche Daten enthält Klartextdaten. Sie können den Zugriff über IAM-Berechtigungen steuern.

Verbraucherordner

Der Nutzerordner enthält Nutzerprojekte. Mit Verbraucherprojekten können Sie Datennutzer basierend auf ihrer erforderlichen Vertrauensgrenze segmentieren. Jedes Projekt wird einer separaten Nutzergruppe zugewiesen und der Gruppe wird projektbezogen Zugriff auf die erforderlichen Daten-Assets gewährt. Sie können das Verbraucherprojekt verwenden, um die Daten für die Gruppe zu erheben, zu analysieren und zu erweitern.

Allgemeiner Ordner

Der Ordner „common“ enthält die Dienste, die von verschiedenen Umgebungen und Projekten verwendet werden. In diesem Abschnitt werden die Funktionen beschrieben, die dem gemeinsamen Ordner hinzugefügt werden, um das Enterprise Data Mesh zu ermöglichen.

CDMC-Architektur

Die Architektur verwendet die CDMC-Architektur für Data Governance. Die Data Governance-Funktionen befinden sich im Data Governance-Projekt im Common-Ordner. Das folgende Diagramm zeigt die Komponenten der CDMC-Architektur. Die Zahlen im Diagramm stellen die Schlüsselkontrollen dar, die mit Google Cloud-Diensten behandelt werden.

Die CDMC-Architektur.

In der folgenden Tabelle werden die Komponenten der CDMC-Architektur beschrieben, die in der Enterprise Data Mesh-Architektur verwendet werden.

CDMC-Komponente	Google Cloud -Dienst	Beschreibung
Zugriffs- und Lebenszykluskomponenten
Schlüsselverwaltung	Cloud KMS	Ein Dienst, der Verschlüsselungsschlüssel zum Schutz sensibler Daten sicher verwaltet.
Record Manager	Cloud Run	Eine Anwendung, die umfassende Logs und Aufzeichnungen von Datenverarbeitungsaktivitäten führt, damit Organisationen die Datennutzung nachverfolgen und prüfen können.
Richtlinie zur Archivierung	BigQuery	Eine BigQuery-Tabelle, die die Speicherrichtlinie für Daten enthält.
Berechtigungen	BigQuery	Eine BigQuery-Tabelle, in der Informationen dazu gespeichert werden, wer auf vertrauliche Daten zugreifen kann. Diese Tabelle sorgt dafür, dass nur autorisierte Nutzer basierend auf ihren Rollen und Berechtigungen auf bestimmte Daten zugreifen können.
Komponenten scannen
Datenverlust	Sensitive Data Protection	Dienst, der zum Prüfen von Assets auf sensible Daten verwendet wird.
DLP-Ergebnisse	BigQuery	Eine BigQuery-Tabelle, in der Datenklassifizierungen innerhalb der Datenplattform katalogisiert werden.
Richtlinien	BigQuery	Eine BigQuery-Tabelle, die konsistente Data Governance-Praktiken enthält (z. B. Datenzugriffstypen).
Abrechnungsexport	BigQuery	Eine Tabelle, in der Kosteninformationen gespeichert werden, die aus Cloud Billing exportiert werden, um die Analyse von Kostenmesswerten zu ermöglichen, die mit Daten-Assets verknüpft sind.
Cloud Data Quality Engine	Cloud Run	Eine Anwendung, mit der Datenqualitätsprüfungen für Tabellen und Spalten ausgeführt werden.
Ergebnisse zur Datenqualität	BigQuery	Eine BigQuery-Tabelle, in der erkannte Abweichungen zwischen den definierten Datenqualitätsregeln und der tatsächlichen Qualität der Daten-Assets aufgezeichnet werden.
Berichtskomponenten
Planer	Cloud Scheduler	Ein Dienst, der steuert, wann die Cloud Data Quality Engine ausgeführt wird und wann die Prüfung durch Sensitive Data Protection erfolgt.
Report Engine	Cloud Run	Eine Anwendung, mit der Berichte erstellt werden, mit denen die Einhaltung der Steuerelemente des CDMC-Frameworks nachvollzogen und gemessen werden kann.
Ergebnisse und Assets	BigQuery und Pub/Sub	Ein BigQuery-Bericht zu Abweichungen oder Inkonsistenzen bei den Datenverwaltungsfunktionen, z. B. fehlende Tags, falsche Klassifizierungen oder nicht konforme Speicherorte.
Tags exportieren	BigQuery	Eine BigQuery-Tabelle, die aus Data Catalog extrahierte Tag-Informationen enthält.
Andere Komponenten
Richtlinienverwaltung	Organisationsrichtliniendienst	Ein Dienst, der Einschränkungen für den geografischen Speicherort von Daten definiert und erzwingt.
Attributbasierte Zugriffsrichtlinien	Access Context Manager	Ein Dienst, der detaillierte, attributbasierte Zugriffsrichtlinien definiert und erzwingt, damit nur autorisierte Nutzer von zulässigen Standorten und Geräten auf vertrauliche Informationen zugreifen können.
Metadaten	Data Catalog	Ein Dienst, in dem Metadaten zu den Tabellen gespeichert werden, die im Data Mesh verwendet werden.
Tag Engine	Cloud Run	Eine Anwendung, die Daten in BigQuery-Tabellen Tags hinzufügt.
CDMC-Berichte	Data Studio	Dashboards, mit denen Ihre Analysten Berichte ansehen können, die von den CDMC-Architektur-Engines generiert wurden.

CDMC-Implementierung

In der folgenden Tabelle wird beschrieben, wie die Architektur die Schlüsselkontrollen im CDMC-Framework implementiert.

CDMC-Kontrollanforderung	Implementierung
Compliance mit Datenkontrollen	Die Report Engine erkennt nicht konforme Datenassets und veröffentlicht Ergebnisse in einem Pub/Sub-Thema. Diese Ergebnisse werden auch in BigQuery geladen, um Berichte mit Data Studio zu erstellen.
Dateninhaberschaft wird sowohl für migrierte als auch für in der Cloud generierte Daten eingerichtet	Data Catalog erfasst automatisch technische Metadaten aus BigQuery. Tag Engine wendet Tags für Geschäftsmetadaten wie den Namen des Inhabers und die Vertraulichkeitsstufe aus einer Referenztabelle an. So wird sichergestellt, dass alle sensiblen Daten zur Einhaltung der Compliance-Vorschriften mit Inhaberinformationen getaggt werden. Dieser automatisierte Tagging-Prozess trägt zur Data Governance und Compliance bei, indem er sensible Daten identifiziert und mit den entsprechenden Eigentümerinformationen kennzeichnet.
Datenbeschaffung und -nutzung werden durch Automatisierung gesteuert und unterstützt	Data Catalog klassifiziert Datenassets, indem sie mit dem Flag `is_authoritative` getaggt werden, wenn sie eine autoritative Quelle sind. Data Catalog speichert die Informationen zusammen mit den technischen Metadaten automatisch in einem Datenregister. Die Report Engine und die Tag Engine können das Datenregister autoritativer Quellen mithilfe von Pub/Sub validieren und Berichte dazu erstellen.
Datenhoheit und grenzüberschreitende Datenübertragungen werden verwaltet	Der Organization Policy Service definiert zulässige Speicherregionen für Daten-Assets und Access Context Manager schränkt den Zugriff basierend auf dem Nutzerstandort ein. Data Catalog speichert die genehmigten Speicherorte als Metadaten-Tags. Die Report Engine vergleicht diese Tags mit dem tatsächlichen Speicherort der Daten-Assets in BigQuery und veröffentlicht alle Abweichungen als Ergebnisse über Pub/Sub. Security Command Center bietet eine zusätzliche Monitoring-Ebene, indem Sicherheitslückenergebnisse generiert werden, wenn Daten außerhalb der definierten Richtlinien gespeichert oder darauf zugegriffen wird.
Datenkataloge werden implementiert und verwendet und sind interoperabel	Data Catalog speichert und aktualisiert die technischen Metadaten für alle BigQuery-Daten-Assets und erstellt so einen kontinuierlich synchronisierten Data Catalog. Data Catalog sorgt dafür, dass alle neuen oder geänderten Tabellen und Ansichten sofort dem Katalog hinzugefügt werden. So wird ein aktuelles Inventar der Daten-Assets aufrechterhalten.
Datenklassifizierungen werden definiert und verwendet	Sensitive Data Protection untersucht BigQuery-Daten und identifiziert Typen sensibler Informationen. Diese Ergebnisse werden dann anhand einer Klassifizierungsreferenztabelle eingestuft und die höchste Vertraulichkeitsstufe wird als Tag in Data Catalog auf Spalten- und Tabellenebene zugewiesen. Tag Engine verwaltet diesen Prozess, indem der Data Catalog mit Vertraulichkeitstags aktualisiert wird, wenn neue Daten-Assets hinzugefügt oder vorhandene geändert werden. So wird eine ständig aktualisierte Klassifizierung von Daten nach Vertraulichkeit sichergestellt, die Sie mit Pub/Sub und integrierten Berichtstools überwachen und für die Sie Berichte erstellen können.
Datenberechtigungen werden verwaltet, erzwungen und nachverfolgt	Mit Richtlinien-Tags in BigQuery wird der Zugriff auf sensible Daten auf Spaltenebene gesteuert. So können nur autorisierte Nutzer auf bestimmte Daten zugreifen, die auf Grundlage des zugewiesenen Richtlinien-Tags festgelegt werden. IAM verwaltet den allgemeinen Zugriff auf das Data Warehouse, während in Data Catalog Vertraulichkeitseinstufungen gespeichert werden. Es werden regelmäßige Prüfungen durchgeführt, um sicherzustellen, dass alle vertraulichen Daten entsprechende Richtlinien-Tags haben. Alle Abweichungen werden über Pub/Sub zur Behebung gemeldet.
Zugriff, Verwendung und Ergebnisse von Daten nach ethischen Maßstäben werden verwaltet	Vereinbarungen zur Datenfreigabe für Anbieter und Nutzer werden in einem dedizierten BigQuery-Data-Warehouse gespeichert, um die Verwendungszwecke zu kontrollieren. Data Catalog kennzeichnet Daten-Assets mit den Informationen der Anbietervereinbarung, während Nutzervereinbarungen für die Zugriffssteuerung mit IAM-Bindungen verknüpft werden. Mit Abfragelabels werden Nutzungszwecke erzwungen. Nutzer müssen einen gültigen Zweck angeben, wenn sie vertrauliche Daten abfragen. Dieser wird anhand ihrer Berechtigungen in BigQuery validiert. Ein Audit-Trail in BigQuery erfasst alle Datenzugriffe und sorgt für die Einhaltung der Datenfreigabevereinbarungen.
Daten werden gesichert und Kontrollen werden nachgewiesen	Die Standardverschlüsselung ruhender Daten von Google schützt Daten, die auf der Festplatte gespeichert sind. Cloud KMS unterstützt kundenverwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK) für eine verbesserte Schlüsselverwaltung. BigQuery implementiert die dynamische Datenmaskierung auf Spaltenebene zur Anonymisierung und unterstützt die Anonymisierung auf Anwendungsebene während der Datenaufnahme. Data Catalog speichert Metadatentags für Verschlüsselungs- und De-Identifikationstechniken, die auf Datenassets angewendet werden. Automatisierte Prüfungen sorgen dafür, dass die Verschlüsselungs- und Anonymisierungsmethoden mit vordefinierten Sicherheitsrichtlinien übereinstimmen. Alle Abweichungen werden als Ergebnisse über Pub/Sub gemeldet.
Ein Datenschutz-Framework ist definiert und betriebsbereit	Data Catalog kennzeichnet vertrauliche Datenassets mit relevanten Informationen für die Folgenabschätzung, z. B. den Standort des Subjekts und Links zu Berichten zur Folgenabschätzung. Tag Engine wendet diese Tags basierend auf der Vertraulichkeit der Daten und einer Richtlinientabelle in BigQuery an, in der die Bewertungsanforderungen basierend auf dem Daten- und dem Personenstandort definiert sind. Dieser automatisierte Tagging-Prozess ermöglicht die kontinuierliche Überwachung und Berichterstellung zur Einhaltung der Anforderungen für Folgenabschätzungen. So wird sichergestellt, dass Datenschutz-Folgenabschätzungen (DSFAs) oder Folgenabschätzungen zum Schutz (Protection Impact Assessments, PIAs) durchgeführt werden, wenn dies erforderlich ist.
Der Datenlebenszyklus wird geplant und verwaltet	In Data Catalog werden Datenassets mit Aufbewahrungsrichtlinien versehen, in denen Aufbewahrungszeiträume und Ablaufaktionen (z. B. Archivieren oder Löschen) angegeben werden. Record Manager automatisiert die Durchsetzung dieser Richtlinien, indem BigQuery-Tabellen anhand der definierten Tags dauerhaft gelöscht oder archiviert werden. Durch diese Durchsetzung wird die Einhaltung der Datenlebenszyklus-Richtlinien sichergestellt und die Einhaltung der Anforderungen an die Datenaufbewahrung aufrechterhalten. Alle erkannten Abweichungen werden über Pub/Sub gemeldet.
Datenqualität wird verwaltet	Mit der Cloud Data Quality Engine werden Datenqualitätsregeln für angegebene Tabellenspalten definiert und ausgeführt. Die Datenqualität wird anhand von Messwerten wie Richtigkeit und Vollständigkeit gemessen. Die Ergebnisse dieser Prüfungen, einschließlich Erfolgsraten und ‑schwellenwerten, werden als Tags in Data Catalog gespeichert. Durch das Speichern dieser Ergebnisse können Sie die Datenqualität kontinuierlich überwachen und Berichte erstellen. Alle Probleme oder Abweichungen von akzeptablen Grenzwerten werden als Ergebnisse über Pub/Sub veröffentlicht.
Grundsätze des Kostenmanagements werden festgelegt und angewendet	Data Catalog speichert kostenbezogene Messwerte für Daten-Assets, z. B. Abfragekosten, Speicherkosten und Kosten für den Daten-Egress. Diese werden anhand von Abrechnungsinformationen berechnet, die aus Cloud Billing nach BigQuery exportiert werden. Durch das Speichern kostenbezogener Messwerte können Kosten umfassend nachverfolgt und analysiert werden. So wird die Einhaltung von Kostenrichtlinien und eine effiziente Ressourcennutzung gewährleistet. Alle Anomalien werden über Pub/Sub gemeldet.
Datenherkunft wird verstanden	Die integrierten Data Lineage-Funktionen von Data Catalog verfolgen die Herkunft und den Ursprung von Daten-Assets und stellen den Datenfluss visuell dar. Außerdem identifizieren und taggen Datenaufnahmeskripts die ursprüngliche Datenquelle in Data Catalog, wodurch die Rückverfolgbarkeit von Daten zu ihrem Ursprung verbessert wird.

Verwaltung des Datenzugriffs

Der Zugriff der Architektur auf Daten wird über einen unabhängigen Prozess gesteuert, der die Betriebssteuerung (z. B. das Ausführen von Dataflow-Jobs) von der Datenzugriffssteuerung trennt. Der Zugriff eines Nutzers auf einen Google Cloud Dienst wird durch eine Umwelt- oder Betriebsanforderung definiert und von einer Cloud-Engineering-Gruppe bereitgestellt und genehmigt. Der Zugriff eines Nutzers auf Google Cloud -Datenassets (z. B. eine BigQuery-Tabelle) ist ein Problem in Bezug auf Datenschutz, behördliche Auflagen oder Governance und unterliegt einer Zugriffsvereinbarung zwischen den erstellenden und nutzenden Parteien. Der Zugriff wird durch die folgenden Prozesse gesteuert. Das folgende Diagramm zeigt, wie der Datenzugriff durch die Interaktion verschiedener Softwarekomponenten bereitgestellt wird.

Verwaltung des Datenzugriffs

Wie im vorherigen Diagramm dargestellt, wird das Onboarding von Datenzugriffen durch die folgenden Prozesse abgewickelt:

Cloud-Datenassets werden von Data Catalog erfasst und inventarisiert.
Der Workflow-Manager ruft die Daten-Assets aus Data Catalog ab.
Dateninhaber werden in Workflow Manager eingebunden.

So funktioniert die Datenzugriffsverwaltung:

Ein Datenempfänger stellt eine Anfrage für ein bestimmtes Asset.
Der Dateninhaber des Assets wird über die Anfrage benachrichtigt.
Der Dateninhaber genehmigt die Anfrage oder lehnt sie ab.
Wenn die Anfrage genehmigt wird, übergibt der Workflow-Manager die Gruppe, das Asset und das zugehörige Tag an den IAM-Mapper.
Der IAM-Mapper übersetzt die Workflow Manager-Tags in IAM-Berechtigungen und weist der angegebenen Gruppe IAM-Berechtigungen für das Daten-Asset zu.
Wenn ein Nutzer auf das Daten-Asset zugreifen möchte, wird der Zugriff auf das Google Cloud -Asset anhand der Berechtigungen der Gruppe ausgewertet.
Wenn dies zulässig ist, greift der Nutzer auf das Daten-Asset zu.

Netzwerk

Der Prozess zur Datensicherheit beginnt bei der Quellanwendung, die sich möglicherweise lokal oder in einer anderen Umgebung außerhalb desGoogle Cloud -Zielprojekts befindet. Bevor eine Netzwerkübertragung erfolgt, authentifiziert sich diese Anwendung mit der Identitätsförderung von Arbeitslasten sicher bei Google Cloud APIs. Mithilfe dieser Anmeldedaten interagiert sie mit Cloud KMS, um die erforderlichen Schlüssel abzurufen oder zu umschließen. Anschließend wird die Tink-Bibliothek verwendet, um die erste Verschlüsselung und De-Identifikation der vertraulichen Daten-Payload gemäß vordefinierten Vorlagen durchzuführen.

Nachdem die Daten-Payload geschützt wurde, muss sie sicher in das Google Cloud -Aufnahmeprojekt übertragen werden. Für lokale Anwendungen können Sie Cloud Interconnect oder möglicherweise Cloud VPN verwenden. Verwenden Sie in diesemGoogle Cloud -Netzwerk Private Service Connect, um die Daten an den Erfassungs-Endpunkt im VPC-Netzwerk des Zielprojekts weiterzuleiten. Mit Private Service Connect kann die Quellanwendung über private IP-Adressen eine Verbindung zu Google APIs herstellen. So wird sichergestellt, dass der Traffic nicht über das Internet geleitet wird.

Der gesamte Netzwerkpfad und die Zielaufnahmedienste (Cloud Storage, BigQuery und Pub/Sub) im Aufnahmeprojekt sind durch einen VPC Service Controls-Perimeter gesichert. Dieser Perimeter erzwingt eine Sicherheitsgrenze und sorgt dafür, dass die geschützten Daten aus der Quelle nur in die autorisiertenGoogle Cloud -Dienste innerhalb dieses bestimmten Projekts aufgenommen werden können.

Logging

In dieser Architektur werden die Cloud Logging-Funktionen verwendet, die vom Unternehmensgrundlagen-Blueprint bereitgestellt werden.

Pipelines

Die Data-Mesh-Architektur für Unternehmen verwendet eine Reihe von Pipelines, um die Infrastruktur, Orchestrierung, Datasets, Datenpipelines und Anwendungskomponenten bereitzustellen. In den Pipelines für die Ressourcenbereitstellung der Architektur wird Terraform als Infrastruktur-als-Code-(IaC-)Tool und Cloud Build als CI/CD-Dienst verwendet, um die Terraform-Konfigurationen in der Architekturumgebung bereitzustellen. Das folgende Diagramm zeigt die Beziehung zwischen den Pipelines.

Pipelinebeziehungen

Die Grundlagenpipeline und die Infrastrukturpipeline sind Teil des Blueprints für Unternehmensgrundlagen. In der folgenden Tabelle wird der Zweck der Pipelines und der Ressourcen beschrieben, die sie bereitstellen.

Pipeline	Bereitgestellt von	Ressourcen
Fundament-Pipeline	Bootstrap	Ordner und Unterordner der Datenplattform Häufige Projekte Dienstkonto für Infrastrukturpipeline Cloud Build-Trigger für die Infrastrukturpipeline Freigegebene VPC VPC Service Control-Perimeter
Infrastrukturpipeline	Fundament-Pipeline	Nutzerprojekte Service Catalog-Dienstkonto Der Cloud Build-Trigger für die Service Catalog-Pipeline Dienstkonto für Artifact-Pipeline Der Cloud Build-Trigger für die Artefakt-Pipeline
Service Catalog-Pipeline	Infrastrukturpipeline	Ressourcen, die im Service Catalog-Bucket bereitgestellt werden
Artefakt-Pipelines	Infrastrukturpipeline	In Artefakt-Pipelines werden die verschiedenen Container und anderen Komponenten der Codebasis erstellt, die vom Data Mesh verwendet werden.

Jede Pipeline hat eigene Repositories, aus denen Code und Konfigurationsdateien abgerufen werden. In jedem Repository gibt es eine Aufgabentrennung, bei der die Einreichung und Genehmigung von Bereitstellungen von Betriebscode in der Verantwortung verschiedener Gruppen liegt.

Interaktive Bereitstellung über Service Catalog

Interaktive Umgebungen sind die Entwicklungsumgebung innerhalb der Architektur und befinden sich im Entwicklungsordner. Die Hauptschnittstelle für die interaktive Umgebung ist der Service Catalog, in dem Entwickler vorkonfigurierte Vorlagen zum Instanziieren von Google-Diensten verwenden können. Diese vorkonfigurierten Vorlagen werden als Dienstvorlagen bezeichnet. Mit Dienstvorlagen können Sie Ihre Sicherheitsrichtlinien durchsetzen, z. B. die CMEK-Verschlüsselung vorschreiben. Außerdem wird verhindert, dass Ihre Nutzer direkten Zugriff auf Google-APIs haben.

Das folgende Diagramm zeigt die Komponenten der interaktiven Umgebung und wie Data Scientists Ressourcen bereitstellen.

Interaktive Umgebung mit Service Catalog.

So stellen Sie Ressourcen über den Service Catalog bereit:

Der MLOps-Entwickler legt eine Terraform-Ressourcenvorlage für Google Cloudin ein Git-Repository.
Der Git-Commit-Befehl löst eine Cloud Build-Pipeline aus.
Cloud Build kopiert die Vorlage und alle zugehörigen Konfigurationsdateien in Cloud Storage.
Der MLOps-Engineer richtet die Service Catalog-Lösungen und Service Catalog manuell ein. Der Engineer gibt den Service Catalog dann für ein Dienstprojekt in der interaktiven Umgebung frei.
Der Data Scientist wählt eine Ressource aus dem Service Catalog aus.
Service Catalog stellt die Vorlage in der interaktiven Umgebung bereit.
Die Ressource ruft alle erforderlichen Konfigurationsskripts ab.
Der Data Scientist interagiert mit den Ressourcen.

Artefakt-Pipelines

Beim Prozess zur Datenaufnahme werden Managed Airflow und Dataflow verwendet, um die Übertragung und Transformation von Daten innerhalb der Datendomäne zu orchestrieren. In der Artefaktpipeline werden alle erforderlichen Ressourcen für die Datenaufnahme erstellt und an den entsprechenden Speicherort verschoben, damit die Dienste darauf zugreifen können. In der Artefakt-Pipeline werden die Containerartefakte erstellt, die vom Orchestrator verwendet werden.

Sicherheitskontrollen

Die Enterprise Data Mesh-Architektur verwendet ein mehrschichtiges Defense-in-Depth-Sicherheitsmodell, das Standardfunktionen, Google Cloud Google CloudDienste und Sicherheitsfunktionen umfasst, die über den Enterprise Foundations-Blueprint konfiguriert werden. Das folgende Diagramm zeigt die verschiedenen Sicherheitsebenen für die Architektur.

Sicherheitskontrollen in der Data Mesh-Architektur.

In der folgenden Tabelle werden die Sicherheitskontrollen beschrieben, die mit den Ressourcen in den einzelnen Ebenen verknüpft sind.

Ebene	Ressource	Sicherheitskontrollen
CDMC-Framework	Google Cloud CDMC-Implementierung	Bietet ein Governance-Framework, mit dem Sie Ihre Daten-Assets schützen, verwalten und kontrollieren können. Weitere Informationen finden Sie im CDMC Key Controls Framework.
Bereitstellung	Infrastrukturpipeline	Bietet eine Reihe von Pipelines, mit denen Infrastruktur bereitgestellt, Container erstellt und Datenpipelines erstellt werden. Die Verwendung von Pipelines ermöglicht Prüfbarkeit, Rückverfolgbarkeit und Wiederholbarkeit.
	Artefakt-Pipeline	Stellt verschiedene Komponenten bereit, die nicht von der Infrastrukturpipeline bereitgestellt werden.
	Terraform-Vorlagen	Baut die Systeminfrastruktur aus.
	Open Policy Agent	So wird sichergestellt, dass die Plattform den ausgewählten Richtlinien entspricht.
Netzwerk	Private Service Connect	Bietet Schutz vor Daten-Exfiltration für die Architekturressourcen auf der API-Ebene und der IP-Ebene. Ermöglicht die Kommunikation mit Google Cloud APIs über private IP-Adressen, sodass Sie keinen Traffic gegenüber dem Internet exponieren.
	VPC-Netzwerk mit privaten IP-Adressen	Sie hilft, die Gefährdung durch Bedrohungen im Internet zu verringern.
	VPC Service Controls	Schützt sensible Ressourcen vor Daten-Exfiltration.
	Firewall	Schützt das VPC-Netzwerk vor unbefugtem Zugriff.
Zugriffsverwaltung	Access Context Manager	Steuert, wer auf welche Ressourcen zugreifen kann, und verhindert den nicht autorisierten Zugriff auf Ihre Ressourcen.
	Workload Identity-Föderation	Es sind keine externen Anmeldedaten mehr erforderlich, um Daten aus lokalen Umgebungen auf die Plattform zu übertragen.
	Data Catalog	Bietet einen Index der für Nutzer verfügbaren Assets.
	IAM	Ermöglicht präzisen Zugriff.
Verschlüsselung	Cloud KMS	Sie können Ihre Verschlüsselungsschlüssel und ‑geheimnisse verwalten und Ihre Daten durch Verschlüsselung inaktiver Daten und Verschlüsselung während der Übertragung schützen.
	Secret Manager	Bietet einen Secret-Speicher für Pipelines, die von IAM gesteuert werden.
	Verschlüsselung inaktiver Daten	Standardmäßig verschlüsselt Google Cloud ruhende Daten.
	Verschlüsselung während der Übertragung	Standardmäßig verschlüsselt Google Cloud Daten während der Übertragung.
Erkennung	Security Command Center	Unterstützt Sie bei der Erkennung von Fehlkonfigurationen und schädlichen Aktivitäten in Ihrer Google Cloud-Organisation.
	Kontinuierliche Architektur	Prüft Ihre Google Cloud -Organisation kontinuierlich anhand einer Reihe von OPA-Richtlinien (Open Policy Agent), die Sie definiert haben.
	IAM Recommender	Analysiert Nutzerberechtigungen und gibt Vorschläge zur Reduzierung von Berechtigungen, um das Prinzip der geringsten Berechtigung durchzusetzen.
	Firewall Insights	Analysiert Firewallregeln, identifiziert übermäßig freizügige Firewallregeln und schlägt restriktivere Firewalls vor, um Ihre allgemeine Sicherheitslage zu verbessern.
	Cloud Logging	Bietet Einblick in die Systemaktivität und trägt zur Erkennung von Anomalien und schädlichen Aktivitäten bei.
	Cloud Monitoring	Erfasst wichtige Signale und Ereignisse, die dabei helfen können, verdächtige Aktivitäten zu erkennen.
Prävention	Unternehmensrichtlinien	Damit können Sie Aktionen in Ihrer Google Cloud-Organisation steuern und einschränken.

Workflows

In den folgenden Abschnitten werden der Workflow für Datenproduzenten und der Workflow für Datennutzer beschrieben. So werden angemessene Zugriffssteuerungen basierend auf der Datensensibilität und den Nutzerrollen sichergestellt.

Workflow für Datenproduzenten

Das folgende Diagramm zeigt, wie Daten beim Übertragen zu BigQuery geschützt werden.

Workflow für Datenproduzenten

Der Workflow für die Datenübertragung sieht so aus:

Eine Anwendung, die in die Identitätsföderation von Arbeitslasten eingebunden ist, verwendet Cloud KMS, um einen verpackten Verschlüsselungsschlüssel zu entschlüsseln.
Die Anwendung verwendet die Tink-Bibliothek, um die Daten mithilfe einer Vorlage zu anonymisieren oder zu verschlüsseln.
Die Anwendung überträgt Daten in das Aufnahmeprojekt in Google Cloud.
Die Daten werden in Cloud Storage, BigQuery oder Pub/Sub bereitgestellt.
Im Aufnahmeprojekt werden die Daten mithilfe einer Vorlage entschlüsselt oder re-identifiziert.
Die entschlüsselten Daten werden anhand einer anderen Vorlage zur De-Identifizierung verschlüsselt oder maskiert und dann in das nicht vertrauliche Projekt eingefügt. Tags werden von der Tagging-Engine nach Bedarf angewendet.
Daten aus dem nicht vertraulichen Projekt werden in das vertrauliche Projekt übertragen und re-identifiziert.

Der folgende Datenzugriff ist zulässig:

Nutzer, die Zugriff auf das vertrauliche Projekt haben, können auf alle unverschlüsselten Rohdaten zugreifen.
Nutzer mit Zugriff auf das nicht vertrauliche Projekt können auf maskierte, tokenisierte oder verschlüsselte Daten zugreifen, je nach den mit den Daten verknüpften Tags und ihren Berechtigungen.

Workflow des Datenkonsumenten

In den folgenden Schritten wird beschrieben, wie ein Nutzer auf Daten zugreifen kann, die in BigQuery gespeichert sind.

Der Datenkonsument sucht mit Data Catalog nach Daten-Assets.
Nachdem der Nutzer die gewünschten Assets gefunden hat, fordert er Zugriff auf die Datenassets an.
Der Dateninhaber entscheidet, ob er Zugriff auf die Assets gewährt.
Wenn der Kunde Zugriff erhält, kann er ein Notebook und den Lösungskatalog verwenden, um eine Umgebung zu erstellen, in der er die Datenassets analysieren und transformieren kann.

Zusammenfassung

Das GitHub-Repository enthält eine detaillierte Anleitung zum Bereitstellen des Data Mesh inGoogle Cloud , nachdem Sie die Unternehmensgrundlage bereitgestellt haben. Für die Bereitstellung der Architektur müssen Sie Ihre vorhandenen Infrastruktur-Repositories ändern und neue datenmesh-spezifische Komponenten bereitstellen.

Führen Sie Folgendes aus:

Erfüllen Sie alle Voraussetzungen, einschließlich der folgenden:
1. Installieren Sie die Google Cloud CLI, Terraform, Tink, Java und Go.
2. Stellen Sie den Blueprint für Unternehmensgrundlagen (Version 4.1) bereit.
3. Verwalten Sie die folgenden lokalen Repositories:
  - gcp-data-mesh-foundations
  - gcp-bootstrap
  - gcp-environments
  - gcp-networks
  - gcp-org
  - gcp-projects
Ändern Sie den vorhandenen Foundation-Blueprint und stellen Sie dann die Data Mesh-Anwendungen bereit. Führen Sie für jedes Element die folgenden Schritte aus:
1. Rufen Sie in Ihrem Ziel-Repository den Branch Plan auf.
2. Wenn Sie Data Mesh-Komponenten hinzufügen möchten, kopieren Sie die entsprechenden Dateien und Verzeichnisse aus gcp-data-mesh-foundations in das entsprechende Fundamentverzeichnis. Überschreiben Sie Dateien bei Bedarf.
3. Aktualisieren Sie die Variablen, Rollen und Einstellungen für das Data Mesh in den Terraform-Dateien (z. B. *.tfvars und *.tf). Legen Sie die GitHub-Tokens als Umgebungsvariablen fest.
4. Führen Sie die Terraform-Vorgänge „initialize“, „plan“ und „apply“ für jedes Repository aus.
5. Führen Sie einen Commit für Ihre Änderungen durch, übertragen Sie den Code per Push in Ihr Remote-Repository, erstellen Sie Pull-Anfragen und führen Sie die Änderungen in Ihren Entwicklungs-, Nichtproduktions- und Produktionsumgebungen zusammen.

Datenverwaltungs- und Analyseplattform für Unternehmen bereitstellen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Architektur

Wichtige Architekturentscheidungen

Identität: Rollen Gruppen zuordnen

Infrastruktur

Data Governance

Domainbasierte Daten-Ersteller

Domainbasierte Datenkonsumenten

Organisationsstruktur

Ordner für Datenplattform

Ordner „Producers“

Verbraucherordner

Allgemeiner Ordner

CDMC-Architektur

CDMC-Implementierung

Verwaltung des Datenzugriffs

Netzwerk

Logging

Pipelines

Interaktive Bereitstellung über Service Catalog

Artefakt-Pipelines

Sicherheitskontrollen

Workflows

Workflow für Datenproduzenten

Workflow des Datenkonsumenten

Zusammenfassung

Nächste Schritte

Datenverwaltungs- und Analyseplattform für Unternehmen bereitstellen