Implementa una plataforma de administración y análisis de datos empresariales

Last reviewed 2025-04-04 UTC

Una plataforma de administración y análisis de datos empresariales proporciona un enclave en el que puedes almacenar, analizar y manipular información sensible, a la vez que mantienes los controles de seguridad. Puedes usar la arquitectura de malla de datos empresariales para implementar una plataforma en Google Cloud para la administración y el análisis de datos. La arquitectura está diseñada para funcionar en un entorno híbrido, en el que los componentes de Google Cloud interactúan con tus componentes locales y procesos operativos existentes.

La arquitectura de malla de datos empresariales incluye lo siguiente:

  • Un repositorio de GitHub que contiene un conjunto de parámetros de configuración, secuencias de comandos y código de Terraform para compilar lo siguiente:
    • Un proyecto de administración que te permite usar la implementación de Google del framework de controles clave de Cloud Data Management Capabilities (CDMC).
    • Un ejemplo de plataforma de datos que admite flujos de trabajo interactivos y de producción.
    • Un entorno de producción dentro de la plataforma de datos que admite varios dominios de datos Los dominios de datos son agrupaciones lógicas de elementos de datos.
    • Es un entorno de consumidor dentro de la plataforma de datos que admite varios proyectos de consumidores.
    • Un servicio de transferencia de datos que usa federación de identidades para cargas de trabajo y la biblioteca de encriptación Tink para ayudarte a transferir datos a Google Cloud de forma segura.
    • Ejemplo de un dominio de datos que contiene proyectos de transferencia, no confidenciales y confidenciales.
    • Un ejemplo de un sistema de acceso a datos que permite a los consumidores de datos solicitar acceso a conjuntos de datos y a los propietarios de datos otorgar acceso a esos conjuntos de datos. El ejemplo también incluye un administrador de flujo de trabajo que cambia los permisos de IAM de esos conjuntos de datos según corresponda.
  • Una guía sobre la arquitectura, el diseño, los controles de seguridad y los procesos operativos que usas con esta arquitectura para implementar (este documento).

La arquitectura de malla de datos empresarial está diseñada para ser compatible con el plano de bases empresariales. El plano de bases empresariales proporciona una serie de servicios de nivel base en los que se basa esta arquitectura, como las redes de VPC y el registro. Puedes implementar esta arquitectura sin implementar el plano de bases empresariales si tuGoogle Cloud entorno proporciona la funcionalidad necesaria.

Este documento está dirigido a arquitectos de la nube, científicos de datos, ingenieros de datos y arquitectos de seguridad que pueden usar la arquitectura para compilar e implementar servicios de datos integrales en Google Cloud. En este documento,se supone que conoces los conceptos de mallas de datos, Google Cloudlos servicios de datos y la Google Cloud implementación del marco de trabajo de CDMC.

Arquitectura

La arquitectura de malla de datos empresarial adopta un enfoque en capas para proporcionar las capacidades que permiten la ingesta, el procesamiento y la administración de datos. La arquitectura está diseñada para implementarse y controlarse a través de un flujo de trabajo de CI/CD. En el siguiente diagrama, se muestra cómo la capa de datos que implementa esta arquitectura se relaciona con otras capas de tu entorno.

Arquitectura de malla de datos

En este diagrama, se incluye lo siguiente:

  • La Google Cloud infraestructura proporciona funciones de seguridad, como la encriptación en reposo y la encriptación en tránsito, así como componentes básicos, como el procesamiento y el almacenamiento.
  • La base empresarial proporciona un modelo de referencia de recursos, como los sistemas de identidad, herramientas de redes, registro, implementación y supervisión que te permiten adoptar Google Cloud para tus cargas de trabajo de datos.
  • La capa de datos proporciona varias capacidades, como la transferencia de datos, el almacenamiento de datos, el control de acceso a los datos y la administración de datos, la supervisión y el uso compartido de datos.
  • La capa de aplicación representa varias aplicaciones diferentes que usan los recursos de la capa de datos.
  • La CI/CD proporciona las herramientas para automatizar el aprovisionamiento, la configuración, la administración y la implementación de infraestructura, flujos de trabajo y componentes de software. Estos componentes te ayudan a garantizar implementaciones coherentes, confiables y auditables, a minimizar los errores manuales y a acelerar el ciclo de desarrollo general.

Para mostrar cómo se usa el entorno de datos, la arquitectura incluye un flujo de trabajo de datos de muestra. El flujo de trabajo de datos de muestra te guía por los siguientes procesos: administración de datos, transferencia de datos, procesamiento de datos, uso compartido de datos y consumo de datos.

Decisiones arquitectónicas clave

En la siguiente tabla, se resumen las decisiones de alto nivel de la arquitectura.

Área de decisión Decisión
Google Cloud arquitectura

Jerarquía de recursos

La arquitectura usa la jerarquía de recursos del plano de bases empresariales.

Redes

La arquitectura incluye un servicio de transferencia de datos de ejemplo que usa la federación de identidades para cargas de trabajo y una biblioteca de Tink.

Roles y permisos de IAM

La arquitectura incluye roles segmentados de productor de datos, roles de consumidor de datos, roles de administración de datos y roles de plataforma de datos.

Servicios de datos comunes

Metadatos

La arquitectura usa Data Catalog para administrar los metadatos de los datos.

Administración central de políticas

Para administrar las políticas, la arquitectura usa la implementación de Google Clouddel framework de CDMC.

Administración de acceso a los datos

Para controlar el acceso a los datos, la arquitectura incluye un proceso independiente que requiere que los consumidores de datos soliciten acceso a los recursos de datos del propietario de los datos.

Calidad de los datos

La arquitectura usa Cloud Data Quality Engine para definir y ejecutar reglas de calidad de los datos en las columnas de tablas especificadas, y mide la calidad de los datos según métricas como la precisión y la integridad.

Seguridad de los datos

La arquitectura usa etiquetado, encriptación, enmascaramiento, tokenización y controles de IAM para brindar seguridad de los datos.

Dominio de datos

Entornos de datos

La arquitectura incluye tres entornos. Dos entornos (de no producción y de producción) son entornos operativos controlados por canalizaciones. Un entorno (desarrollo) es un entorno interactivo.

Propietarios de datos

Los propietarios de los datos transfieren, procesan, exponen y otorgan acceso a los activos de datos.

Consumidores de datos

Los consumidores de datos solicitan acceso a los recursos de datos.

Incorporación y operaciones

Canalizaciones

La arquitectura usa las siguientes canalizaciones para implementar recursos:

  • Canalización base
  • Canalización de infraestructura
  • Canalizaciones de artefactos
  • Canalización del catálogo de servicios

Repositorios

Cada canalización usa un repositorio independiente para permitir la segregación de responsabilidades.

Flujo del proceso

El proceso requiere que los cambios en el entorno de producción incluyan un solicitante y un aprobador.

Operaciones de Cloud

Cuadros de evaluación de productos de datos

El Motor de informes genera cuadros de mando de productos de datos.

Cloud Logging

La arquitectura usa la infraestructura de registro del plano de bases empresariales.

Cloud Monitoring

La arquitectura usa la infraestructura de supervisión del plano de bases empresariales.

Identidad: Asigna roles a grupos

La malla de datos aprovecha la arquitectura existente de administración del ciclo de vida de la identidad, autorización y autenticación del esquema de bases empresariales. A los usuarios no se les asignan roles directamente. En su lugar, los grupos son el método principal de asignación de roles y permisos en IAM. Los roles y permisos de IAM se asignan durante la creación del proyecto a través de la canalización de la base.

La malla de datos asocia los grupos con una de las cuatro áreas clave: infraestructura, gobernanza de datos, productores de datos basados en dominios y consumidores basados en dominios.

Los alcances de permisos para estos grupos son los siguientes:

  • El alcance de permisos del grupo de infraestructura es la malla de datos en su totalidad.
  • El alcance de permisos de los grupos de administración de datos es el proyecto de administración de datos.
  • Los permisos de los productores y consumidores basados en dominios se limitan a su dominio de datos.

En las siguientes tablas, se muestran los distintos roles que se usan en esta implementación de malla de datos y sus permisos asociados.

Infraestructura

Grupo Descripción Funciones

data-mesh-ops@example.com

Administradores generales de la malla de datos

roles/owner (plataforma de datos)

Administración de datos

Grupo Descripción Funciones

gcp-dm-governance-admins@example.com

Administradores del proyecto de administración de datos

roles/owner en el proyecto de administración de datos

gcp-dm-governance-developers@example.com

Desarrolladores que compilan y mantienen los componentes de administración de datos

Varios roles en el proyecto de administración de datos, incluidos roles/viewer, roles de BigQuery y roles de Data Catalog

gcp-dm-governance-data-readers@example.com

Lectores de la información sobre administración de datos

roles/viewer

gcp-dm-governance-security-administrator@example.com

Administradores de seguridad del proyecto de administración

roles/orgpolicy.policyAdmin y roles/iam.securityReviewer

gcp-dm-governance-tag-template-users@example.com

Grupo con permiso para usar plantillas de etiquetas

roles/datacatalog.tagTemplateUser

gcp-dm-governance-tag-users@example.com

Grupo con permiso para usar plantillas de etiquetas y agregar etiquetas

roles/datacatalog.tagTemplateUser y roles/datacatalog.tagEditor

gcp-dm-governance-scc-notifications@example.com

Grupo de cuentas de servicio para las notificaciones de Security Command Center

Ninguno Este es un grupo para la membresía, y se crea una cuenta de servicio con este nombre, que tiene los permisos necesarios.

Productores de datos basados en dominios

Grupo Descripción Funciones

gcp-dm-{data_domain_name}-admins@example.com

Administradores de un dominio de datos específico

roles/owner en el proyecto del dominio de datos

gcp-dm-{data_domain_name}-developers@example.com

Desarrolladores que compilan y mantienen productos de datos dentro de un dominio de datos

Varios roles en el proyecto del dominio de datos, incluidos roles/viewer, roles de BigQuery y roles de Cloud Storage

gcp-dm-{data_domain_name}-data-readers@example.com

Lectores de la información del dominio de datos

roles/viewer

gcp-dm-{data_domain_name}-metadata-editors@{var.domain}

Editores de entradas de Data Catalog

Roles para editar entradas de Data Catalog

gcp-dm-{data_domain_name}-data-stewards@example.com

Administradores de datos del dominio de datos

Roles para administrar aspectos de metadatos y administración de datos

Consumidores de datos basados en el dominio

Grupo Descripción Funciones

gcp-dm-consumer-{project_name}-admins@example.com

Administradores de un proyecto de consumidor específico

roles/owner en el proyecto del consumidor

gcp-dm-consumer-{project_name}-developers@example.com

Desarrolladores que trabajan en un proyecto de consumidor

Varios roles en el proyecto del consumidor, incluidos los roles de roles/viewer y BigQuery

gcp-dm-consumer-{project_name}-data-readers@example.com

Lectores de la información del proyecto de consumidor

roles/viewer

Estructura organizativa

Para diferenciar entre las operaciones de producción y los datos de producción, la arquitectura usa diferentes entornos para desarrollar y lanzar flujos de trabajo. Las operaciones de producción incluyen la gobernanza, la trazabilidad y la repetibilidad de un flujo de trabajo, así como la capacidad de auditar los resultados del flujo de trabajo. Los datos de producción hacen referencia a los datos posiblemente sensibles que necesitas para administrar tu organización. Todos los entornos están diseñados para tener controles de seguridad que te permitan transferir y operar tus datos.

Para ayudar a los ingenieros y científicos de datos, la arquitectura incluye un entorno interactivo, en el que los desarrolladores pueden trabajar directamente con el entorno y agregar servicios a través de un catálogo seleccionado de soluciones. Los entornos operativos se controlan a través de canalizaciones que tienen una arquitectura y una configuración codificadas.

Esta arquitectura usa la estructura organizativa del plano de bases empresariales como base para implementar cargas de trabajo de datos. En el siguiente diagrama, se muestran las carpetas y los proyectos de nivel superior que se usan en la arquitectura de malla de datos empresarial.

Estructura de organización de la malla de datos.

En la siguiente tabla, se describen las carpetas y los proyectos de nivel superior que forman parte de la arquitectura.

Carpeta Componente Descripción

common

prj-c-artifact-pipeline

Contiene la canalización de implementación que se usa para compilar los artefactos de código de la arquitectura.

prj-c-service-catalog

Contiene la infraestructura que usa el catálogo de servicios para implementar recursos en el entorno interactivo.

prj-c-datagovernance

Contiene todos los recursos que usa la implementación de Google Clouddel framework de CDMC.

development

fldr-d-dataplatform

Contiene los proyectos y recursos de la plataforma de datos para desarrollar casos de uso en modo interactivo.

non-production

fldr-n-dataplatform

Contiene los proyectos y recursos de la plataforma de datos para probar los casos de uso que deseas implementar en un entorno operativo.

production

fldr-p-dataplatform

Contiene los proyectos y recursos de la plataforma de datos para la implementación en producción.

Carpeta de la plataforma de datos

La carpeta de la plataforma de datos contiene todos los componentes del plano de datos y algunos de los recursos del CDMC. Además, la carpeta de la plataforma de datos y el proyecto de administración de datos contienen los recursos de CDMC. En el siguiente diagrama, se muestran las carpetas y los proyectos que se implementan en la carpeta de la plataforma de datos.

La carpeta de la plataforma de datos

Cada carpeta de la plataforma de datos incluye una carpeta de entorno (producción, no producción y desarrollo). En la siguiente tabla, se describen las carpetas dentro de cada carpeta de la plataforma de datos.

Carpetas Descripción

Productores

Contiene los dominios de datos.

Consumidores

Contiene los proyectos de consumidor.

Dominio de datos

Contiene los proyectos asociados a un dominio en particular.

Carpeta de productores

Cada carpeta de productores incluye uno o más dominios de datos. Un dominio de datos hace referencia a una agrupación lógica de elementos de datos que comparten un significado, un propósito o un contexto comercial comunes. Los dominios de datos te permiten categorizar y organizar los recursos de datos dentro de una organización. En el siguiente diagrama, se muestra la estructura de un dominio de datos. La arquitectura implementa proyectos en la carpeta de la plataforma de datos para cada entorno.

Es la carpeta de productores.

En la siguiente tabla, se describen los proyectos que se implementan en la carpeta de la plataforma de datos para cada entorno.

Proyecto Descripción

Transferencia

El proyecto de transferencia transfiere datos al dominio de datos. La arquitectura proporciona ejemplos de cómo puedes transmitir datos a BigQuery, Cloud Storage y Pub/Sub. El proyecto de transferencia también contiene ejemplos de Dataflow y Managed Service para Apache Airflow que puedes usar para coordinar la transformación y el movimiento de los datos transferidos.

No confidencial

El proyecto no confidencial contiene datos que se anonimizaron. Puedes enmascarar, contener, encriptar, asignar tokens u ofuscar datos. Usa etiquetas de política para controlar cómo se presentan los datos.

Confidencial

El proyecto confidencial contiene datos de texto sin formato. Puedes controlar el acceso a través de los permisos de IAM.

Carpeta del consumidor

La carpeta del consumidor contiene proyectos de consumidor. Los proyectos de consumidor proporcionan un mecanismo para segmentar a los usuarios de datos según el límite de confianza requerido. Cada proyecto se asigna a un grupo de usuarios independiente, y a cada grupo se le asigna acceso a los recursos de datos necesarios para cada proyecto. Puedes usar el proyecto del consumidor para recopilar, analizar y aumentar los datos del grupo.

Carpeta común

La carpeta común contiene los servicios que utilizan diferentes entornos y proyectos. En esta sección, se describen las capacidades que se agregan a la carpeta común para habilitar la malla de datos empresariales.

Arquitectura de CDMC

La arquitectura usa la arquitectura de CDMC para la administración de datos. Las funciones de administración de datos residen en el proyecto de administración de datos en la carpeta común. En el siguiente diagrama, se muestran los componentes de la arquitectura del CDMC. Los números en el diagrama representan los controles clave que se abordan con los servicios de Google Cloud.

La arquitectura de CDMC.

En la siguiente tabla, se describen los componentes de la arquitectura de CDMC que usa la arquitectura de malla de datos empresarial.

Componente de CDMC Servicio deGoogle Cloud Descripción
Componentes de acceso y ciclo de vida

Administración de claves

Cloud KMS

Es un servicio que administra de forma segura las claves de encriptación que protegen los datos sensibles.

Administrador de registros

Cloud Run

Una aplicación que mantiene registros integrales de las actividades de procesamiento de datos, lo que garantiza que las organizaciones puedan hacer un seguimiento del uso de los datos y auditarlo.

Política de archivo

BigQuery

Tabla de BigQuery que contiene la política de almacenamiento de los datos.

Autorizaciones

BigQuery

Tabla de BigQuery que almacena información sobre quién puede acceder a los datos sensibles. Esta tabla garantiza que solo los usuarios autorizados puedan acceder a datos específicos según sus roles y privilegios.

Componentes de análisis

Pérdida de datos

Protección de datos sensibles

Servicio que se usa para inspeccionar recursos en busca de datos sensibles.

Hallazgos de DLP

BigQuery

Es una tabla de BigQuery que cataloga las clasificaciones de datos dentro de la plataforma de datos.

Políticas

BigQuery

Una tabla de BigQuery que contiene prácticas coherentes de administración de datos (por ejemplo, tipos de acceso a los datos)

Exportación de la facturación

BigQuery

Es una tabla que almacena la información de costos que se exporta desde la Facturación de Cloud para permitir el análisis de las métricas de costos asociadas con los activos de datos.

Cloud Data Quality Engine

Cloud Run

Es una aplicación que ejecuta verificaciones de calidad de los datos para tablas y columnas.

Hallazgos de calidad de los datos

BigQuery

Es una tabla de BigQuery que registra las discrepancias identificadas entre las reglas de calidad de los datos definidas y la calidad real de los activos de datos.

Componentes de informes

Programador

Cloud Scheduler

Es un servicio que controla cuándo se ejecuta Cloud Data Quality Engine y cuándo se realiza la inspección de Sensitive Data Protection.

Motor de informes

Cloud Run

Una aplicación que genera informes que ayudan a hacer un seguimiento y medir el cumplimiento de los controles del marco de CDMC.

Hallazgos y recursos

BigQuery y Pub/Sub

Un informe de BigQuery sobre discrepancias o incoherencias en los controles de administración de datos, como etiquetas faltantes, clasificaciones incorrectas o ubicaciones de almacenamiento que no cumplen con los requisitos.

Exportaciones de etiquetas

BigQuery

Tabla de BigQuery que contiene la información de etiquetas extraída de Data Catalog.

Otros componentes

Administración de políticas

Servicio de políticas de la organización

Es un servicio que define y aplica restricciones sobre dónde se pueden almacenar los datos geográficamente.

Políticas de acceso basadas en atributos

Access Context Manager

Es un servicio que define y aplica políticas de acceso detalladas basadas en atributos para que solo los usuarios autorizados de ubicaciones y dispositivos permitidos puedan acceder a la información sensible.

Metadatos

Data Catalog

Es un servicio que almacena información de metadatos sobre las tablas que se usan en la malla de datos.

Tag Engine

Cloud Run

Una aplicación que agrega etiquetas a los datos en las tablas de BigQuery

Informes de CDMC

Data Studio

Paneles que permiten a tus analistas ver los informes que generaron los motores de arquitectura del CDMC.

Implementación del CDMC

En la siguiente tabla, se describe cómo la arquitectura implementa los controles clave en el framework de CDMC.

Requisito del control de CDMC Implementación

Cumplimiento de los controles de datos

El motor de informes detecta los recursos de datos que no cumplen con los requisitos y publica los resultados en un tema de Pub/Sub. Estos resultados también se cargan en BigQuery para generar informes con Data Studio.

Se establece la propiedad de los datos migrados y generados por la nube

Data Catalog captura automáticamente los metadatos técnicos de BigQuery. Tag Engine aplica etiquetas de metadatos comerciales, como el nombre del propietario y el nivel de sensibilidad, desde una tabla de referencia, lo que ayuda a garantizar que todos los datos sensibles se etiqueten con la información del propietario para cumplir con los requisitos. Este proceso de etiquetado automatizado ayuda a garantizar la administración de datos y el cumplimiento, ya que identifica y etiqueta los datos sensibles con la información del propietario correspondiente.

La automatización rige y respalda la obtención y el consumo de datos

Data Catalog clasifica los activos de datos etiquetándolos con una marca is_authoritative cuando son una fuente autorizada. Data Catalog almacena automáticamente la información, junto con los metadatos técnicos, en un registro de datos. Report Engine y Tag Engine pueden validar y registrar los datos de fuentes autorizadas con Pub/Sub.

Se administra la soberanía de los datos y el movimiento de datos entre límites

El Servicio de políticas de la organización define las regiones de almacenamiento permitidas para los recursos de datos, y Access Context Manager restringe el acceso según la ubicación del usuario. Data Catalog almacena las ubicaciones de almacenamiento aprobadas como etiquetas de metadatos. El motor de informes compara estas etiquetas con la ubicación real de los recursos de datos en BigQuery y publica las discrepancias como hallazgos a través de Pub/Sub. Security Command Center proporciona una capa adicional de supervisión, ya que genera resultados de vulnerabilidades si los datos se almacenan o se accede a ellos fuera de las políticas definidas.

Se implementan, usan e interoperan los catálogos de datos

Data Catalog almacena y actualiza los metadatos técnicos de todos los recursos de datos de BigQuery, lo que crea de manera eficaz un Data Catalog sincronizado de forma continua. Data Catalog garantiza que las tablas y las vistas nuevas o modificadas se agreguen de inmediato al catálogo, lo que mantiene un inventario actualizado de los activos de datos.

Las clasificaciones de datos están definidas y se usan

La protección de datos sensibles inspecciona los datos de BigQuery y, luego, identifica los tipos de información sensible. Luego, estos resultados se clasifican según una tabla de referencia de clasificación, y el nivel de sensibilidad más alto se asigna como etiqueta en Data Catalog a nivel de columna y tabla. Tag Engine administra este proceso actualizando el Data Catalog con etiquetas de sensibilidad cada vez que se agregan recursos de datos nuevos o se modifican los existentes. Este proceso garantiza una clasificación de datos actualizada constantemente según la sensibilidad, que puedes supervisar y sobre la que puedes generar informes con Pub/Sub y herramientas de informes integradas.

Los derechos de datos se administran y se aplican, y se hace un seguimiento de ellos

Las etiquetas de política de BigQuery controlan el acceso a los datos sensibles a nivel de la columna, lo que garantiza que solo los usuarios autorizados puedan acceder a datos específicos según la etiqueta de política que se les asigne. IAM administra el acceso general al almacén de datos, mientras que Data Catalog almacena las clasificaciones de sensibilidad. Se realizan verificaciones periódicas para garantizar que todos los datos sensibles tengan etiquetas de política correspondientes y, si se detectan discrepancias, se informan a través de Pub/Sub para su corrección.

Se administra el acceso, el uso y los resultados éticos de los datos

Los acuerdos de uso compartido de datos tanto para proveedores como para consumidores se almacenan en un almacén de datos de BigQuery dedicado para controlar los fines de consumo. Data Catalog etiqueta los recursos de datos con la información del acuerdo del proveedor, mientras que los acuerdos del consumidor se vinculan a las vinculaciones de IAM para el control de acceso. Las etiquetas de consulta aplican propósitos de consumo, lo que requiere que los consumidores especifiquen un propósito válido cuando consultan datos sensibles, que se validan en función de sus derechos en BigQuery. Un registro de auditoría en BigQuery hace un seguimiento de todo el acceso a los datos y garantiza el cumplimiento de los acuerdos de uso compartido de datos.

Se protegen los datos y se verifican los controles

La encriptación en reposo predeterminada de Google ayuda a proteger los datos almacenados en el disco. Cloud KMS admite claves de encriptación administradas por el cliente (CMEK) para mejorar la administración de claves. BigQuery implementa el enmascaramiento dinámico de datos a nivel de columna para la seudoanonimización y admite la seudoanonimización a nivel de la aplicación durante la transferencia de datos. Data Catalog almacena etiquetas de metadatos para las técnicas de encriptación y desidentificación que se aplican a los recursos de datos. Las verificaciones automatizadas garantizan que los métodos de encriptación y anonimización se alineen con las políticas de seguridad predefinidas, y las discrepancias se informan como hallazgos a través de Pub/Sub.

Hay un marco de trabajo de privacidad de datos definido y operativo

Data Catalog etiqueta los recursos de datos sensibles con información pertinente para la evaluación del impacto, como la ubicación del sujeto y los vínculos a los informes de evaluación. Tag Engine aplica estas etiquetas según la sensibilidad de los datos y una tabla de políticas en BigQuery, que define los requisitos de evaluación según la residencia de los datos y el sujeto. Este proceso de etiquetado automatizado permite la supervisión y la generación de informes continuos sobre el cumplimiento de los requisitos de evaluación de impacto, lo que garantiza que se realicen evaluaciones del impacto de la protección de datos (DPIA) o evaluaciones del impacto de la protección (PIA) cuando sea necesario.

El ciclo de vida de los datos está planificado y administrado

Data Catalog etiqueta los recursos de datos con políticas de retención, especificando períodos de retención y acciones de vencimiento (como archivar o purgar). El Administrador de registros automatiza la aplicación de estas políticas, ya que borra definitivamente o archiva las tablas de BigQuery según las etiquetas definidas. Esta aplicación garantiza el cumplimiento de las políticas del ciclo de vida de los datos y mantiene el cumplimiento de los requisitos de retención de datos. Las discrepancias se detectan y se informan a través de Pub/Sub.

Se administra la calidad de los datos

Cloud Data Quality Engine define y ejecuta reglas de calidad de los datos en las columnas de la tabla especificadas, y mide la calidad de los datos según métricas como la corrección y la integridad. Los resultados de estas verificaciones, incluidos los porcentajes de éxito y los umbrales, se almacenan como etiquetas en Data Catalog. El almacenamiento de estos resultados permite la supervisión y la generación de informes continuos sobre la calidad de los datos, y cualquier problema o desviación de los umbrales aceptables se publica como hallazgo a través de Pub/Sub.

Se establecen y aplican principios de administración de costos

Data Catalog almacena métricas relacionadas con los costos de los activos de datos, como los costos de las consultas, los costos de almacenamiento y los costos de salida de datos, que se calculan con los datos de facturación que se exportan desde la Facturación de Cloud a BigQuery. El almacenamiento de métricas relacionadas con los costos permite un seguimiento y un análisis integrales de los costos, lo que garantiza el cumplimiento de las políticas de costos y el uso eficiente de los recursos. Las anomalías se informan a través de Pub/Sub.

Se comprende el linaje y la procedencia de los datos

Las funciones integradas de linaje de datos de Data Catalog hacen un seguimiento de la procedencia y el linaje de los recursos de datos, y representan visualmente el flujo de datos. Además, las secuencias de comandos de transferencia de datos identifican y etiquetan la fuente original de los datos en Data Catalog, lo que mejora la trazabilidad de los datos hasta su origen.

Administración de acceso a los datos

El acceso de la arquitectura a los datos se controla a través de un proceso independiente que separa el control operativo (por ejemplo, la ejecución de trabajos de Dataflow) del control de acceso a los datos. El acceso de un usuario a un servicio de Google Cloud se define según una preocupación operativa o ambiental, y lo aprovisiona y aprueba un grupo de ingeniería en la nube. El acceso de un usuario a los recursos de datos Google Cloud (por ejemplo, una tabla de BigQuery) es un problema de privacidad, reglamentación o gobernanza, y está sujeto a un acuerdo de acceso entre las partes productoras y consumidoras, y se controla a través de los siguientes procesos. En el siguiente diagrama, se muestra cómo se aprovisiona el acceso a los datos a través de la interacción de diferentes componentes de software.

Administración de acceso a los datos

Como se muestra en el diagrama anterior, la incorporación de accesos a los datos se controla con los siguientes procesos:

  • Data Catalog recopila y registra los recursos de datos de la nube.
  • El administrador de flujos de trabajo recupera los recursos de datos de Data Catalog.
  • Se incorporan los propietarios de los datos al administrador de flujos de trabajo.

El funcionamiento de la administración de acceso a los datos es el siguiente:

  1. Un consumidor de datos realiza una solicitud para un activo específico.
  2. Se alerta al propietario de los datos del activo sobre la solicitud.
  3. El propietario de los datos aprueba o rechaza la solicitud.
  4. Si se aprueba la solicitud, el administrador de flujos de trabajo pasa el grupo, el activo y la etiqueta asociada al asignador de IAM.
  5. El asignador de IAM traduce las etiquetas del administrador de flujos de trabajo en permisos de IAM y otorga al grupo especificado permisos de IAM para el activo de datos.
  6. Cuando un usuario quiere acceder al activo de datos, IAM evalúa el acceso al activo Google Cloud en función de los permisos del grupo.
  7. Si se permite, el usuario accede al activo de datos.

Redes

El proceso de seguridad de los datos se inicia en la aplicación de origen, que puede residir en las instalaciones o en otro entorno externo al proyecto deGoogle Cloud destino. Antes de que se produzca cualquier transferencia de red, esta aplicación usa la federación de identidades para cargas de trabajo para autenticarse de forma segura en las APIs de Google Cloud. Con estas credenciales, interactúa con Cloud KMS para obtener o unir las claves necesarias y, luego, emplea la biblioteca de Tink para realizar la encriptación y la seudoanonimización iniciales en la carga útil de datos sensibles según las plantillas predefinidas.

Después de proteger la carga útil de datos, esta se debe transferir de forma segura al proyecto de transferencia de datos de Google Cloud . En el caso de las aplicaciones locales, puedes usar Cloud Interconnect o, posiblemente, Cloud VPN. Dentro de la redGoogle Cloud , usa Private Service Connect para enrutar los datos hacia el extremo de transferencia dentro de la red de VPC del proyecto de destino. Private Service Connect permite que la aplicación de origen se conecte a las APIs de Google con direcciones IP privadas, lo que garantiza que el tráfico no se exponga a Internet.

Todo el segmento de red y los servicios de transferencia de destino (Cloud Storage, BigQuery y Pub/Sub) dentro del proyecto de transferencia están protegidos por un perímetro de Controles del servicio de VPC. Este perímetro aplica un límite de seguridad, lo que garantiza que los datos protegidos que se originan en la fuente solo se puedan transferir a los serviciosGoogle Cloud autorizados dentro de ese proyecto específico.

Logging

Esta arquitectura usa las capacidades de Cloud Logging que proporciona el plano de bases empresariales.

Canalizaciones

La arquitectura de malla de datos empresarial usa una serie de canalizaciones para aprovisionar la infraestructura, la organización, los conjuntos de datos, las canalizaciones de datos y los componentes de la aplicación. Las canalizaciones de implementación de recursos de la arquitectura usan Terraform como herramienta de infraestructura como código (IaC) y Cloud Build como servicio de CI/CD para implementar las configuraciones de Terraform en el entorno de la arquitectura. En el siguiente diagrama, se muestra la relación entre las canalizaciones.

Relaciones de canalización

La canalización de base y la canalización de infraestructura forman parte del plano de bases empresariales. En la siguiente tabla, se describe el propósito de las canalizaciones y los recursos que aprovisionan.

Canalización Aprovisionado por Recursos

Canalización base

Arranque

  • Carpeta y subcarpetas de la plataforma de datos
  • Proyectos comunes
  • Cuenta de servicio de la canalización de infraestructura
  • Activador de compilación de Cloud Build para la canalización de infraestructura
  • VPC compartida
  • Perímetro de control del servicio de VPC

Canalización de infraestructura

Canalización base

  • Proyectos de consumidor
  • Cuenta de servicio del Catálogo de servicios
  • El activador de compilación de Cloud Build para la canalización del catálogo de servicios
  • Cuenta de servicio de la canalización de artefactos
  • Activador de compilación de Cloud Build para la canalización de artefactos

Canalización del catálogo de servicios

Canalización de infraestructura

  • Recursos implementados en el bucket del catálogo de servicios

Canalizaciones de artefactos

Canalización de infraestructura

Las canalizaciones de artefactos producen los diversos contenedores y otros componentes de la base de código que utiliza la malla de datos.

Cada canalización tiene su propio conjunto de repositorios desde los que extrae código y archivos de configuración. Cada repositorio tiene una separación de tareas en la que los envíos y las aprobaciones de las implementaciones de código operativo son responsabilidad de diferentes grupos.

Implementación interactiva a través del catálogo de servicios

Los entornos interactivos son el entorno de desarrollo dentro de la arquitectura y existen en la carpeta de desarrollo. La interfaz principal del entorno interactivo es el catálogo de servicios, que permite a los desarrolladores usar plantillas preconfiguradas para crear instancias de los servicios de Google. Estas plantillas preconfiguradas se conocen como plantillas de servicio. Las plantillas de servicio te ayudan a aplicar tu postura de seguridad, como hacer que la encriptación con CMEK sea obligatoria, y también evitan que tus usuarios tengan acceso directo a las APIs de Google.

En el siguiente diagrama, se muestran los componentes del entorno interactivo y cómo los científicos de datos implementan recursos.

Entorno interactivo con el catálogo de servicios.

Para implementar recursos con el catálogo de servicios, se realizan los siguientes pasos:

  1. El ingeniero de MLOps coloca una plantilla de recursos de Terraform para Google Clouden un repositorio de Git.
  2. El comando Git Commit activa una canalización de Cloud Build.
  3. Cloud Build copia la plantilla y los archivos de configuración asociados en Cloud Storage.
  4. El ingeniero de MLOps configura manualmente las soluciones y el catálogo de servicios. Luego, el ingeniero comparte el catálogo de servicios con un proyecto de servicio en el entorno interactivo.
  5. El científico de datos selecciona un recurso del catálogo de servicios.
  6. El catálogo de servicios implementa la plantilla en el entorno interactivo.
  7. El recurso extrae todas las secuencias de comandos de configuración necesarias.
  8. El científico de datos interactúa con los recursos.

Canalizaciones de artefactos

El proceso de transferencia de datos usa Airflow administrado y Dataflow para coordinar el movimiento y la transformación de los datos dentro del dominio de datos. La canalización de artefactos compila todos los recursos necesarios para la transferencia de datos y los mueve a la ubicación adecuada para que los servicios puedan acceder a ellos. La canalización de artefactos crea los artefactos de contenedor que usa el orquestador.

Controles de seguridad

La arquitectura de malla de datos empresarial usa un modelo de seguridad de defensa en profundidad en capas que incluye capacidades Google Cloud , servicios Google Cloudy capacidades de seguridad predeterminados que se configuran a través del plano de base empresarial. En el siguiente diagrama, se muestran las capas de los diversos controles de seguridad de la arquitectura.

Controles de seguridad en la arquitectura de la malla de datos

En la siguiente tabla, se describen los controles de seguridad asociados con los recursos de cada capa.

Capa Recurso Control de seguridad

Marco de trabajo de CDMC

Google Cloud Implementación del CDMC

Proporciona un marco de trabajo de administración que ayuda a proteger, administrar y controlar tus recursos de datos. Consulta el framework de controles clave de CDMC para obtener más información.

Implementación

Canalización de infraestructura

Proporciona una serie de canalizaciones que implementan infraestructura, compilan contenedores y crean canalizaciones de datos. El uso de canalizaciones permite la auditabilidad, la trazabilidad y la repetibilidad.

Canalización de artefactos

Implementa varios componentes que no implementa la canalización de infraestructura.

Plantillas de Terraform

Crea la infraestructura del sistema.

Open Policy Agent

Ayuda a garantizar que la plataforma cumpla con las políticas seleccionadas.

Red

Private Service Connect

Proporciona protecciones contra el robo de datos en torno a los recursos de arquitectura en la capa de la API y la capa de IP. Te permite comunicarte con las APIs de Google Cloud a través de direcciones IP privadas para que puedas evitar exponer el tráfico a Internet.

Red de VPC con direcciones IP privadas

Ayuda a eliminar la exposición a amenazas externas.

Controles del servicio de VPC

Ayuda a proteger los recursos sensibles contra el robo de datos.

Firewall

Ayuda a proteger la red de VPC contra el acceso no autorizado.

Administración de acceso

Access Context Manager

Controla quién puede acceder a qué recursos y ayuda a evitar el uso no autorizado de tus recursos.

Federación de identidades para cargas de trabajo

Elimina la necesidad de usar credenciales externas para transferir datos a la plataforma desde entornos locales.

Data Catalog

Proporciona un índice de los recursos disponibles para los usuarios.

IAM

Proporciona acceso detallado.

Encriptación

Cloud KMS

Te permite administrar tus claves de encriptación y Secrets, y ayudar a proteger tus datos a través de la encriptación en reposo y en tránsito.

Secret Manager

Proporciona un almacén de secretos para las canalizaciones que controla IAM.

Encriptación en reposo

De forma predeterminada, Google Cloud encripta los datos en reposo.

Encriptación en tránsito

De forma predeterminada, Google Cloud encripta los datos en tránsito.

De detección

Security Command Center

Te ayuda a detectar parámetros de configuración incorrectos y actividad maliciosa en tu organización de Google Cloud.

Arquitectura continua

Verifica continuamente tu organización de Google Cloud en función de una serie de políticas de OPA que hayas definido.

Recomendador de IAM

Analiza los permisos del usuario y proporciona sugerencias sobre la reducción de permisos para ayudar a aplicar el principio de privilegio mínimo.

Estadísticas de firewall

Analiza las reglas de firewall, identifica las reglas de firewall demasiado permisivas y sugiere firewalls más restrictivos para ayudarte a fortalecer tu postura de seguridad general.

Cloud Logging

Proporciona visibilidad de la actividad del sistema y ayuda a habilitar la detección de anomalías y actividad maliciosa.

Cloud Monitoring

Realiza un seguimiento de los indicadores y eventos clave que pueden ayudar a identificar actividad sospechosa.

Preventivo

Política de la organización

Te permite controlar y restringir acciones dentro de tu organización de Google Cloud.

Workflows

En las siguientes secciones, se describen el flujo de trabajo del productor de datos y el flujo de trabajo del consumidor de datos, lo que garantiza controles de acceso adecuados según la sensibilidad de los datos y los roles de los usuarios.

Flujo de trabajo del productor de datos

En el siguiente diagrama, se muestra cómo se protegen los datos a medida que se transfieren a BigQuery.

Flujo de trabajo del productor de datos

El flujo de trabajo para la transferencia de datos es el siguiente:

  1. Una aplicación integrada en la federación de identidades para cargas de trabajo usa Cloud KMS para desencriptar una clave de encriptación separada.
  2. La aplicación usa la biblioteca de Tink para desidentificar o encriptar los datos con una plantilla.
  3. La aplicación transfiere datos al proyecto de transferencia en Google Cloud.
  4. Los datos llegan a Cloud Storage, BigQuery o Pub/Sub.
  5. En el proyecto de transferencia, los datos se desencriptan o se vuelven a identificar con una plantilla.
  6. Los datos desencriptados se encriptan o se enmascaran según otra plantilla de seudoanonimización y, luego, se colocan en el proyecto no confidencial. El motor de etiquetado aplica las etiquetas según corresponda.
  7. Los datos del proyecto no confidencial se transfieren al proyecto confidencial y se reidentifican.

Se permite el acceso a los siguientes datos:

  • Los usuarios que tienen acceso al proyecto confidencial pueden acceder a todos los datos sin formato de texto simple.
  • Los usuarios que tienen acceso al proyecto no confidencial pueden acceder a los datos enmascarados, tokenizados o encriptados según las etiquetas asociadas a los datos y sus permisos.

Flujo de trabajo del consumidor de datos

En los siguientes pasos, se describe cómo un consumidor puede acceder a los datos almacenados en BigQuery.

  1. El consumidor de datos busca recursos de datos con Data Catalog.
  2. Después de que el consumidor encuentra los recursos que busca, solicita acceso a ellos.
  3. El propietario de los datos decide si proporciona acceso a los recursos.
  4. Si el consumidor obtiene acceso, puede usar un notebook y el Catálogo de soluciones para crear un entorno en el que pueda analizar y transformar los recursos de datos.

reunir todo en un solo lugar

El repositorio de GitHub te proporciona instrucciones detalladas para implementar la malla de datos enGoogle Cloud después de implementar la base empresarial. El proceso para implementar la arquitectura implica modificar tus repositorios de infraestructura existentes y, luego, implementar nuevos componentes específicos de la malla de datos.

Completa la siguiente información:

  1. Completa todos los requisitos previos, incluidos los siguientes:
    1. Instala Google Cloud CLI, Terraform, Tink, Java y Go.
    2. Implementa el plano de bases empresarial (v4.1).
    3. Mantén los siguientes repositorios locales:
      • gcp-data-mesh-foundations
      • gcp-bootstrap
      • gcp-environments
      • gcp-networks
      • gcp-org
      • gcp-projects
  2. Modifica el blueprint de la base existente y, luego, implementa las aplicaciones de la malla de datos. Para cada elemento, completa lo siguiente:
    1. En tu repositorio de destino, verifica la rama Plan.
    2. Para agregar componentes de la malla de datos, copia los archivos y directorios pertinentes de gcp-data-mesh-foundations en el directorio de la base correspondiente. Reemplaza los archivos cuando sea necesario.
    3. Actualiza las variables, los roles y la configuración de la malla de datos en los archivos de Terraform (por ejemplo, *.tfvars y *.tf). Establece los tokens de GitHub como variables de entorno.
    4. Realiza las operaciones de inicialización, planificación y aplicación de Terraform en cada repositorio.
    5. Confirma tus cambios, envía el código a tu repositorio remoto, crea solicitudes de extracción y combínalas con tus entornos de desarrollo, no producción y producción.

¿Qué sigue?