Introducción al framework de resolución de entidades de BigQuery

En este documento se describe la arquitectura del marco de trabajo de resolución de entidades de BigQuery. La resolución de entidades empareja registros de datos compartidos en los que no existe ningún identificador común o aumenta los datos compartidos mediante un servicio de identidad de un partner de Google Cloud .

Este documento está dirigido a los usuarios finales de la resolución de entidades y a los proveedores de identidades. Para obtener información sobre la implementación, consulta Configurar y usar la resolución de entidades en BigQuery.

Puedes usar la resolución de entidades de BigQuery para los datos preparados antes de enviarlos a una sala blanca de datos. La resolución de entidades está disponible en los modelos de precios bajo demanda y por capacidad, así como en todas las ediciones de BigQuery.

Ventajas

Los usuarios finales obtienen las siguientes ventajas de la resolución de entidades:

  • Resuelve entidades in situ sin tarifas de transferencia de datos. Un suscriptor o unGoogle Cloud partner asocia tus datos a su tabla de identidades Google Cloud y escribe los resultados de la asociación en un conjunto de datos de tu proyecto.
  • Evita gestionar tareas de extracción, transformación y carga (ETL).

Los proveedores de identidades obtienen las siguientes ventajas de la resolución de entidades:

  • Ofrecer la resolución de entidades como una oferta de software como servicio (SaaS) gestionada en Google Cloud Marketplace.
  • Usa gráficos de identidad y lógica de coincidencia propios sin revelarlos a los usuarios.

Arquitectura

BigQuery implementa la resolución de entidades mediante llamadas a funciones remotas que activan procesos de resolución de entidades en el entorno de un proveedor de identidades. Tus datos no se copiarán ni se moverán durante este proceso. En el siguiente diagrama y explicación se describe el flujo de trabajo de resolución de entidades:

Diagrama que muestra dos secciones principales: un proyecto de usuario final y un proyecto de proveedor de identidades.

  1. El usuario final concede a la cuenta de servicio del proveedor de identidades acceso de lectura a su conjunto de datos de entrada y acceso de escritura a su conjunto de datos de salida.
  2. El usuario llama a la función remota que hace coincidir sus datos de entrada con los datos del gráfico de identidades del proveedor. La función remota transfiere los parámetros correspondientes al proveedor.
  3. La cuenta de servicio del proveedor lee y procesa el conjunto de datos de entrada.
  4. La cuenta de servicio del proveedor escribe los resultados de la resolución de entidades en el conjunto de datos de salida del usuario.

En las siguientes secciones se describen los componentes del usuario final y los proyectos del proveedor.

Componentes de usuario final

Los componentes para usuarios finales incluyen los siguientes:

  • Llamada a función remota: una llamada que ejecuta un procedimiento definido e implementado por el proveedor de identidades. Esta llamada inicia el proceso de resolución de entidades.
  • Conjunto de datos de entrada: el conjunto de datos de origen que contiene los datos que se van a asociar. De forma opcional, el conjunto de datos puede contener una tabla de metadatos con parámetros adicionales. Los proveedores especifican los requisitos del esquema de los conjuntos de datos de entrada.
  • Conjunto de datos de salida: el conjunto de datos de destino en el que el proveedor almacena los resultados coincidentes como una tabla de salida. De forma opcional, el proveedor puede escribir en este conjunto de datos una tabla de estado de los trabajos que contenga detalles sobre el trabajo de resolución de entidades. El conjunto de datos de salida puede ser el mismo que el de entrada.

Componentes del proveedor de identidades

Los componentes del proveedor de identidades incluyen lo siguiente:

  • Plano de control: contiene una función remota de BigQuery que coordina el proceso de match. Esta función se puede implementar como un trabajo de Cloud Run o como una función de Cloud Run. El plano de control también puede contener otros servicios, como la autenticación y la autorización.
  • Plano de datos: contiene el conjunto de datos del gráfico de identidades y el procedimiento almacenado que implementa la lógica de coincidencia de proveedores. El procedimiento almacenado se puede implementar como un procedimiento almacenado de SQL o un procedimiento almacenado de Apache Spark. El conjunto de datos de grafos de identidades contiene las tablas con las que se comparan los datos del usuario final.

Siguientes pasos