En este tutorial se explica cómo usar el complemento de Cloud Data Fusion para Cloud DLP para ocultar datos sensibles.
Situación
Veamos la siguiente situación, en la que se debe ocultar información confidencial de un cliente:
El equipo de Asistencia documenta los detalles de cada caso en una incidencia. Toda la información de la incidencia se incluye en un archivo CSV. Los técnicos del equipo de Asistencia no deben documentar ninguna información de los clientes que se considere sensible, pero a veces lo hacen por error. En el archivo CSV, aparecen los números de teléfono de algunos clientes.
Quieres revisar el archivo CSV y ocultar todos los números de teléfono. Crea una pipeline de Cloud Data Fusion que oculte los datos sensibles de los clientes mediante el complemento Cloud DLP.
En este tutorial, crearás una canalización que haga lo siguiente:
- Oculta los números de teléfono de los clientes sustituyéndolos por el carácter
#
. - Almacena los datos sensibles enmascarados y los datos no sensibles en un segmento de Cloud Storage.
Crear el flujo de procesamiento
Crea una canalización que oculte los datos sensibles de los clientes. El flujo de procesamiento que crees hará lo siguiente:
- Lee los datos de entrada mediante el complemento de origen de Cloud Storage.
- Despliega el complemento de Cloud DLP desde el centro.
- Escribe los datos de salida mediante un complemento de receptor de Cloud Storage.
Cargar los datos de clientes
En este tutorial se usa el conjunto de datos de entrada CallCenterRecords.csv
, que se proporciona en un segmento de Cloud Storage disponible públicamente.
Abre tu instancia de Cloud Data Fusion y haz clic en menu Menú > Studio.
En el menú Fuente, haz clic en el complemento Cloud Storage.
En el nodo Cloud Storage, haga clic en Propiedades.
En el campo Nombre de referencia, introduce un nombre.
En el campo Ruta, introduce
gs://datafusion-sample-datasets/CallCenterRecords.csv
.En el campo Formato, selecciona
CSV
.En Output Schema (Esquema de salida), elimina los campos offset y body. Haz clic en
Añadir e introduce los siguientes campos:- Fecha
- Banco
- Estado
- Código postal
- Notas
Haz clic en Validar para comprobar si hay errores.
Haz clic en
Cerrar.
Ocultar datos sensibles
El complemento Redact de Cloud DLP identifica los registros sensibles en tu flujo de entrada de datos y aplica las transformaciones que definas a esos registros. Un registro de datos se considera sensible si coincide con los filtros predefinidos de Cloud DLP que elijas o con una plantilla personalizada que definas.
En este tutorial, quieres ocultar los números de teléfono de los clientes que algunos técnicos de asistencia de tu equipo han anotado por error. Introdujeron la información sensible en la sección Notas de las incidencias, que aparece como la columna Notas en el archivo CSV. Crea una plantilla de DLP de Cloud personalizada y, a continuación, proporciona el ID de la plantilla en el menú de propiedades del complemento.
Implementar el complemento de Cloud DLP
En tu instancia de Cloud Data Fusion, haz clic en Hub.
Haz clic en el complemento DLP de Cloud.
Haz clic en Desplegar.
Haz clic en Finalizar.
Haz clic en
Cerrar para salir del cuadro de diálogo de Cloud DLP.Haz clic en
Cerrar para salir del centro.
Crear una plantilla personalizada
En la Google Cloud consola, ve a la página Cloud DLP.
En el menú Crear, elige Plantilla.
En el campo ID de plantilla, introduce un ID para tu plantilla.
Haz clic en Continuar.
En el campo Configurar detección, haga clic en Gestionar infotipos.
En la pestaña Integrado, usa el filtro para buscar "número de teléfono".
Selecciona PHONE_NUMBER.
Haz clic en Hecho > Crear.
Más información sobre cómo crear plantillas de Cloud DLP
Aplicar la transformación Ocultar datos de Cloud DLP
Ve a la página Studio de Cloud Data Fusion y haz clic para desplegar el menú Transform (Transformar).
Haz clic en el complemento Redact de Cloud DLP.
Arrastra una flecha de conexión desde el nodo Cloud Storage hasta el nodo Redact.
Coloca el puntero sobre el nodo Redactar y haz clic en Propiedades.
Asigna el valor
Yes
a Plantilla personalizada.En el campo ID de plantilla, introduce el ID de la plantilla personalizada que has creado.
En el campo Coincidencia , aplica Máscara en Plantilla personalizada dentro de Notas.
En el campo Carácter de enmascaramiento, introduce
#
.Haz clic en Validar para comprobar si hay errores.
Haz clic en
Cerrar.
Almacenar los datos de salida
Almacena los resultados de tu canalización en un archivo de Cloud Storage.
En la página Studio, haz clic para desplegar el menú Sink.
Haga clic en Cloud Storage.
Arrastra una flecha de conexión desde el nodo Redact hasta el nodo Cloud Storage2.
Coloque el puntero sobre el nodo Cloud Storage2 y haga clic en Propiedades.
En el campo Nombre de referencia, introduce un nombre.
En el campo Ruta, introduce la ruta de un segmento de Cloud Storage en el que quieras almacenar los resultados de la canalización. Cloud Data Fusion crea el segmento por ti. Asegúrate de seguir las directrices para asignar nombres a los contenedores.
En el campo Formato, seleccione CSV.
Haga clic en Validar para asegurarse de que no haya errores.
Haz clic en
Cerrar.
Ejecutar la canalización en modo de vista previa
Ejecuta la canalización en modo de vista previa antes de implementarla.
Haz clic en Vista previa y, a continuación, en Ejecutar.
Al hacer clic en Ejecutar, se muestra el estado de la canalización, que empieza con Iniciando, luego cambia a Detener y, por último, a Ejecutar.
Cuando se complete la ejecución de la vista previa, en el nodo Redactar, haz clic en Vista previa de datos para ver una comparación de los datos de entrada y salida. Comprueba que los números de teléfono se hayan ocultado con el carácter
#
.
Ocultar otro tipo de datos
Al examinar los resultados de la prueba de vista previa, te das cuenta de que sigue habiendo información sensible en la columna Notas: direcciones de correo electrónico. Vuelves a editar la plantilla de Cloud DLP para ocultar también las direcciones de correo.
En la Google Cloud consola, ve a la página Cloud DLP.
En la pestaña Configuración, selecciona tu plantilla.
Haz clic en Editar.
Haz clic en Gestionar infotipos.
En la pestaña Integrado, usa el filtro para buscar "OR" "dirección de correo".
Selecciona todos los elementos y haz clic en Hecho.
Haz clic en Guardar.
Una vez más, ejecuta tu canalización en el modo de vista previa. Cloud Data Fusion usará automáticamente la plantilla de Cloud DLP actualizada.
Comprueba que tanto los números de teléfono como las direcciones de correo electrónico se hayan ocultado con el carácter
#
.
Implementar y ejecutar el flujo de procesamiento
Asegúrate de que el modo Vista previa no esté marcado.
Haz clic en Guardar. Al hacer clic en Guardar, se te pedirá que le pongas un nombre a tu flujo de trabajo. A continuación, haz clic en Aceptar.
Haz clic en Desplegar.
Cuando se complete la implementación, haz clic en Ejecutar. Ejecutar tu canalización puede tardar unos minutos. Mientras esperas, puedes observar el estado de la transición de la canalización de Provisioning a Starting, Running, Deprovisioning y Succeeded.
Ver los resultados
En la Google Cloud consola, ve a la página Cloud Storage.
En el explorador de almacenamiento, ve al segmento de Cloud Storage de receptor que especificaste en las propiedades del complemento de Cloud Storage de receptor.
En URL del enlace, haga clic en el enlace para descargar el archivo CSV con los resultados. Comprueba que los números de teléfono y las direcciones de correo electrónico se han ocultado con el carácter
#
.