Ocultar datos confidenciales

En este tutorial se explica cómo usar el complemento de Cloud Data Fusion para Cloud DLP para ocultar datos sensibles.

Situación

Veamos la siguiente situación, en la que se debe ocultar información confidencial de un cliente:

El equipo de Asistencia documenta los detalles de cada caso en una incidencia. Toda la información de la incidencia se incluye en un archivo CSV. Los técnicos del equipo de Asistencia no deben documentar ninguna información de los clientes que se considere sensible, pero a veces lo hacen por error. En el archivo CSV, aparecen los números de teléfono de algunos clientes.

Quieres revisar el archivo CSV y ocultar todos los números de teléfono. Crea una pipeline de Cloud Data Fusion que oculte los datos sensibles de los clientes mediante el complemento Cloud DLP.

En este tutorial, crearás una canalización que haga lo siguiente:

  • Oculta los números de teléfono de los clientes sustituyéndolos por el carácter #.
  • Almacena los datos sensibles enmascarados y los datos no sensibles en un segmento de Cloud Storage.

Crear el flujo de procesamiento

Crea una canalización que oculte los datos sensibles de los clientes. El flujo de procesamiento que crees hará lo siguiente:

  • Lee los datos de entrada mediante el complemento de origen de Cloud Storage.
  • Despliega el complemento de Cloud DLP desde el centro.
  • Escribe los datos de salida mediante un complemento de receptor de Cloud Storage.

Cargar los datos de clientes

En este tutorial se usa el conjunto de datos de entrada CallCenterRecords.csv, que se proporciona en un segmento de Cloud Storage disponible públicamente.

  1. Abre tu instancia de Cloud Data Fusion y haz clic en Menú > Studio.

  2. En el menú Fuente, haz clic en el complemento Cloud Storage.

    Selecciona el complemento.

  3. En el nodo Cloud Storage, haga clic en Propiedades.

  4. En el campo Nombre de referencia, introduce un nombre.

  5. En el campo Ruta, introduce gs://datafusion-sample-datasets/CallCenterRecords.csv.

  6. En el campo Formato, selecciona CSV.

  7. En Output Schema (Esquema de salida), elimina los campos offset y body. Haz clic en Añadir e introduce los siguientes campos:

    • Fecha
    • Banco
    • Estado
    • Código postal
    • Notas

    Introduce las propiedades de origen.

  8. Haz clic en Validar para comprobar si hay errores.

  9. Haz clic en Cerrar.

Ocultar datos sensibles

El complemento Redact de Cloud DLP identifica los registros sensibles en tu flujo de entrada de datos y aplica las transformaciones que definas a esos registros. Un registro de datos se considera sensible si coincide con los filtros predefinidos de Cloud DLP que elijas o con una plantilla personalizada que definas.

En este tutorial, quieres ocultar los números de teléfono de los clientes que algunos técnicos de asistencia de tu equipo han anotado por error. Introdujeron la información sensible en la sección Notas de las incidencias, que aparece como la columna Notas en el archivo CSV. Crea una plantilla de DLP de Cloud personalizada y, a continuación, proporciona el ID de la plantilla en el menú de propiedades del complemento.

Implementar el complemento de Cloud DLP

  1. En tu instancia de Cloud Data Fusion, haz clic en Hub.

  2. Haz clic en el complemento DLP de Cloud.

  3. Haz clic en Desplegar.

  4. Haz clic en Finalizar.

  5. Haz clic en Cerrar para salir del cuadro de diálogo de Cloud DLP.

  6. Haz clic en Cerrar para salir del centro.

Crear una plantilla personalizada

  1. En la Google Cloud consola, ve a la página Cloud DLP.

    Ir a Cloud DLP

  2. En el menú Crear, elige Plantilla. imagen

  3. En el campo ID de plantilla, introduce un ID para tu plantilla.

  4. Haz clic en Continuar.

  5. En el campo Configurar detección, haga clic en Gestionar infotipos.

  6. En la pestaña Integrado, usa el filtro para buscar "número de teléfono".

    Filtro.

  7. Selecciona PHONE_NUMBER.

  8. Haz clic en Hecho > Crear.

Más información sobre cómo crear plantillas de Cloud DLP

Aplicar la transformación Ocultar datos de Cloud DLP

  1. Ve a la página Studio de Cloud Data Fusion y haz clic para desplegar el menú Transform (Transformar).

  2. Haz clic en el complemento Redact de Cloud DLP.

    Haz clic en el complemento para añadirlo a tu flujo de trabajo.

  3. Arrastra una flecha de conexión desde el nodo Cloud Storage hasta el nodo Redact.

    Conecta los dos nodos.

  4. Coloca el puntero sobre el nodo Redactar y haz clic en Propiedades.

    1. Asigna el valor Yes a Plantilla personalizada.

    2. En el campo ID de plantilla, introduce el ID de la plantilla personalizada que has creado.

    3. En el campo Coincidencia , aplica Máscara en Plantilla personalizada dentro de Notas.

    4. En el campo Carácter de enmascaramiento, introduce #.

      Máscara.

    5. Haz clic en Validar para comprobar si hay errores.

    6. Haz clic en Cerrar.

Almacenar los datos de salida

Almacena los resultados de tu canalización en un archivo de Cloud Storage.

  1. En la página Studio, haz clic para desplegar el menú Sink.

  2. Haga clic en Cloud Storage.

  3. Arrastra una flecha de conexión desde el nodo Redact hasta el nodo Cloud Storage2.

    Conecta el nodo Redact al segundo nodo Cloud Storage.

  4. Coloque el puntero sobre el nodo Cloud Storage2 y haga clic en Propiedades.

    1. En el campo Nombre de referencia, introduce un nombre.

    2. En el campo Ruta, introduce la ruta de un segmento de Cloud Storage en el que quieras almacenar los resultados de la canalización. Cloud Data Fusion crea el segmento por ti. Asegúrate de seguir las directrices para asignar nombres a los contenedores.

    3. En el campo Formato, seleccione CSV.

    4. Haga clic en Validar para asegurarse de que no haya errores.

    5. Haz clic en Cerrar.

Ejecutar la canalización en modo de vista previa

Ejecuta la canalización en modo de vista previa antes de implementarla.

  1. Haz clic en Vista previa y, a continuación, en Ejecutar.

    Ejecuta el flujo de procesamiento.

    Al hacer clic en Ejecutar, se muestra el estado de la canalización, que empieza con Iniciando, luego cambia a Detener y, por último, a Ejecutar.

  2. Cuando se complete la ejecución de la vista previa, en el nodo Redactar, haz clic en Vista previa de datos para ver una comparación de los datos de entrada y salida. Comprueba que los números de teléfono se hayan ocultado con el carácter #.

    Comprueba que los números de teléfono estén ocultos.

Ocultar otro tipo de datos

Al examinar los resultados de la prueba de vista previa, te das cuenta de que sigue habiendo información sensible en la columna Notas: direcciones de correo electrónico. Vuelves a editar la plantilla de Cloud DLP para ocultar también las direcciones de correo.

  1. En la Google Cloud consola, ve a la página Cloud DLP.

    Abre la página de Cloud DLP.

  2. En la pestaña Configuración, selecciona tu plantilla.

  3. Haz clic en Editar.

  4. Haz clic en Gestionar infotipos.

  5. En la pestaña Integrado, usa el filtro para buscar "OR" "dirección de correo".

    Filtro.

  6. Selecciona todos los elementos y haz clic en Hecho.

  7. Haz clic en Guardar.

  8. Una vez más, ejecuta tu canalización en el modo de vista previa. Cloud Data Fusion usará automáticamente la plantilla de Cloud DLP actualizada.

  9. Comprueba que tanto los números de teléfono como las direcciones de correo electrónico se hayan ocultado con el carácter #.

    Comprueba que los datos estén enmascarados.

Implementar y ejecutar el flujo de procesamiento

  1. Asegúrate de que el modo Vista previa no esté marcado.

  2. Haz clic en Guardar. Al hacer clic en Guardar, se te pedirá que le pongas un nombre a tu flujo de trabajo. A continuación, haz clic en Aceptar.

  3. Haz clic en Desplegar.

  4. Cuando se complete la implementación, haz clic en Ejecutar. Ejecutar tu canalización puede tardar unos minutos. Mientras esperas, puedes observar el estado de la transición de la canalización de Provisioning a Starting, Running, Deprovisioning y Succeeded.

Ver los resultados

  1. En la Google Cloud consola, ve a la página Cloud Storage.

    Ir a Cloud Storage

  2. En el explorador de almacenamiento, ve al segmento de Cloud Storage de receptor que especificaste en las propiedades del complemento de Cloud Storage de receptor.

  3. En URL del enlace, haga clic en el enlace para descargar el archivo CSV con los resultados. Comprueba que los números de teléfono y las direcciones de correo electrónico se han ocultado con el carácter #.

    Comprueba que los datos estén enmascarados.