Introducción al framework de resolución de entidades de BigQuery

En este documento, se describe la arquitectura del framework de resolución de entidades de BigQuery. La resolución de entidades hace coincidir registros en datos compartidos cuando no existe un identificador común o aumenta los datos compartidos con un servicio de identidad de un Google Cloud socio.

Este documento está dirigido a los usuarios finales de la resolución de entidades y a los proveedores de identidad. Para obtener detalles sobre la implementación, consulta Configura y usa la resolución de entidades en BigQuery.

Puedes usar la resolución de entidades de BigQuery para los datos que se preparan antes de que los envíes a una sala limpia de datos. La resolución de entidades está disponible en los modelos de precios según demanda y basados en la capacidad, y en todas las ediciones de BigQuery.

Beneficios

Los usuarios finales obtienen los siguientes beneficios de la resolución de entidades:

  • Resuelve entidades sin incurrir en tarifas de transferencia de datos. Un suscriptor o unGoogle Cloud socio hace coincidir tus datos con su tabla de identidad y escribe los resultados de la coincidencia en un conjunto de datos de tu proyecto Google Cloud .
  • Evitar la administración de trabajos de extracción, transformación y carga (ETL)

Los proveedores de identidad obtienen los siguientes beneficios de la resolución de entidades:

  • Ofrece la resolución de entidades como una oferta de software como servicio (SaaS) administrado en Google Cloud Marketplace.
  • Usar gráficos de identidad y lógica de coincidencias sin revelarlos a los usuarios

Arquitectura

BigQuery implementa la resolución de entidades con llamadas a funciones remotas que activan procesos de resolución de entidades en el entorno de un proveedor de identidad. Tus datos no se copian ni se mueven durante este proceso. En el siguiente diagrama y explicación, se describe el flujo de trabajo de resolución de entidades:

Un diagrama que muestra dos secciones principales: un proyecto de usuario final y un proyecto de proveedor de identidad.

  1. El usuario final otorga a la cuenta de servicio del proveedor de identidad acceso de lectura a su conjunto de datos de entrada y acceso de escritura a su conjunto de datos de salida.
  2. El usuario llama a la función remota que coincide con sus datos de entrada con los datos del gráfico de identidad del proveedor. La función remota pasa los parámetros de coincidencia al proveedor.
  3. La cuenta de servicio del proveedor lee y procesa el conjunto de datos de entrada.
  4. La cuenta de servicio del proveedor escribe los resultados de la resolución de entidades en el conjunto de datos de salida del usuario.

En las siguientes secciones, se describen los componentes del usuario final y los proyectos del proveedor.

Componentes del usuario final

Entre los componentes del usuario final, se incluyen los siguientes:

  • Llamada a función remota: Es una llamada que ejecuta un procedimiento definido y implementado por el proveedor de identidad. Esta llamada inicia el proceso de resolución de entidades.
  • Conjunto de datos de entrada: Es el conjunto de datos de origen que contiene los datos que se deben hacer coincidir. De manera opcional, el conjunto de datos puede contener una tabla de metadatos con parámetros adicionales. Los proveedores especifican los requisitos de esquema para los conjuntos de datos de entrada.
  • Conjunto de datos de salida: Es el conjunto de datos de destino en el que el proveedor almacena los resultados coincidentes como una tabla de salida. De manera opcional, el proveedor puede escribir una tabla de estado del trabajo que contenga detalles del trabajo de resolución de entidades en este conjunto de datos. El conjunto de datos de salida puede ser el mismo que el de entrada.

Componentes del proveedor de identidad

Los componentes del proveedor de identidad incluyen lo siguiente:

  • Plano de control: Contiene una función remota de BigQuery que organiza el proceso de coincidencia. Esta función se puede implementar como un trabajo de Cloud Run o una función de Cloud Run. El plano de control también puede contener otros servicios, como la autenticación y la autorización.
  • Plano de datos: Contiene el conjunto de datos del gráfico de identidad y el procedimiento almacenado que implementa la lógica de coincidencia de proveedores. El procedimiento almacenado se puede implementar como un procedimiento almacenado en SQL o un procedimiento almacenado de Apache Spark. El conjunto de datos del gráfico de identidad contiene las tablas con las que se comparan los datos del usuario final.

¿Qué sigue?