Introducción al uso compartido de BigQuery
El uso compartido de BigQuery (anteriormente Analytics Hub) es una plataforma de intercambio de datos que te permite compartir datos y estadísticas a gran escala más allá de los límites de la organización con un framework de seguridad y privacidad sólido. BigQuery sharing te permite descubrir y acceder a una biblioteca de datos seleccionada por varios proveedores de datos. Esta biblioteca de datos también incluye conjuntos de datos proporcionados por Google.
Por ejemplo, puedes usar el uso compartido para aumentar tus iniciativas de estadísticas y AA con conjuntos de datos de terceros y de Google.
Los roles de Identity and Access Management (IAM) de Analytics Hub te permiten realizar las siguientes tareas de uso compartido:
Como publicador de Analytics Hub, puedes compartir datos con tu red de socios o dentro de tu propia organización en tiempo real. Las fichas te permiten compartir datos sin replicarlos y se pueden monetizar en Google Cloud Marketplace o a través de tus propios canales. Puedes compilar un catálogo de fuentes de datos listas para el análisis con permisos detallados que te permitan entregar datos a los públicos correctos. También puedes administrar las suscripciones y ver las métricas de uso de tus fichas.
Como suscriptor de Analytics Hub, puedes descubrir los datos que buscas, combinar datos compartidos con tus datos existentes y usar las funciones integradas de BigQuery. Cuando te suscribes a una ficha, se crea un conjunto de datos vinculado o una suscripción a Pub/Sub vinculada en tu proyecto Google Cloud . Puedes administrar tus suscripciones con el recurso de suscripción, que almacena información relevante sobre el suscriptor y representa la conexión entre el publicador y el suscriptor.
Como visualizador de Analytics Hub, puedes explorar los recursos compartidos a los que tienes acceso en el uso compartido de BigQuery y solicitar al publicador que acceda a los datos compartidos. Puedes descubrir las fichas comerciales integradas en Cloud Marketplace tanto en el uso compartido de BigQuery como en Cloud Marketplace.
Como administrador de Analytics Hub, puedes crear intercambios de datos que habiliten el uso compartido de datos y, luego, otorgar permisos a los publicadores y suscriptores de datos para acceder a estos intercambios.
Para obtener más información, consulta Configura los roles de Analytics Hub.
Arquitectura
El uso compartido de BigQuery se basa en un modelo de publicación y suscripción de recursos de datos deGoogle Cloud , lo que permite compartir sin copias. El uso compartido de BigQuery admite los siguientes recursos de Google Cloud :
- Conjuntos de datos de BigQuery
- Temas de Pub/Sub
Flujo de trabajo del publicador
En el siguiente diagrama, se describe cómo un publicador comparte recursos:
En las siguientes secciones, se describen las funciones de este flujo de trabajo.
Recursos compartidos
Los recursos compartidos son la unidad de uso compartido que realiza un publicador en el uso compartido de BigQuery.
Conjuntos de datos compartidos
Un conjunto de datos compartidos es un conjunto de datos de BigQuery que es la unidad de uso compartido de datos en el uso compartido de BigQuery. La separación del procesamiento y el almacenamiento en la arquitectura de BigQuery permite que los publicadores de datos compartan conjuntos de datos con tantos suscriptores como deseen, sin tener que hacer varias copias de los datos. Como publicador, debes crear o usar un conjunto de datos de BigQuery existente en tu proyecto con los siguientes objetos compatibles que deseas entregar a tus suscriptores:
- Vistas autorizadas
- Conjuntos de datos autorizados
- Modelos de BigQuery ML.
- Tablas externas
- Vistas materializadas
- Rutinas
- Tablas
- Instantáneas de tablas
- Vistas
Los conjuntos de datos compartidos admiten la seguridad a nivel de columna y la seguridad a nivel de fila.
Ten en cuenta las siguientes limitaciones para los Controles del servicio de VPC y el uso compartido:
No publiques datos compartidos en proyectos dentro de perímetros de Controles del servicio de VPC. Si los conjuntos de datos compartidos en un proyecto se encuentran dentro de un perímetro de Controles del servicio de VPC, necesitas reglas de entrada y salida adecuadas tanto para el proyecto de intercambio (fichas alojadas) como para todos los proyectos de suscriptor para suscribirte correctamente a las fichas del publicador.
No coloques tu proyecto de intercambio en un perímetro de Controles del servicio de VPC, ya que podría interrumpir los flujos de trabajo de publicación, lo que requeriría reglas de entrada y salida para el proyecto del publicador y todos los proyectos de suscriptores para que se suscriban correctamente a sus fichas.
Temas compartidos
Un tema compartido es un tema de Pub/Sub, que es la unidad de uso compartido de datos de transmisión en BigQuery. Como publicador, debes crear o usar un tema de Pub/Sub existente en tu proyecto y distribuirlo a tus suscriptores.
Intercambios de datos
Un intercambio de datos es un contenedor que te permite compartir datos a través del autoservicio. Contiene fichas que hacen referencia a recursos compartidos. Los publicadores y administradores pueden otorgar acceso a los suscriptores a nivel de intercambio y de ficha. Esto te ayuda a evitar otorgar acceso a los recursos compartidos subyacentes de manera explícita. Puedes explorar intercambios de datos, descubrir datos a los que puedes acceder y suscribirte a recursos compartidos. Cuando creas un intercambio de datos, puedes asignar una dirección de correo electrónico de contacto principal. Esta dirección de correo electrónico permite que los usuarios se comuniquen con el propietario del intercambio de datos si tienen preguntas o inquietudes.
Un intercambio de datos puede ser de uno de los siguientes tipos:
- Intercambio de datos privado. De forma predeterminada, un intercambio de datos es privado y solo los usuarios o grupos que tienen acceso a ese intercambio pueden ver sus fichas o suscribirse a ellas.
- Intercambio de datos público. De forma predeterminada, un intercambio de datos es privado y solo los usuarios o grupos que tienen acceso a ese intercambio pueden ver sus fichas o suscribirse a ellas. Sin embargo, puedes optar por hacer público un intercambio de datos. Los usuarios deGoogle Cloud (
allAuthenticatedUsers) pueden descubrir las fichas en los intercambios de datos públicos y suscribirse a ellas. Para obtener más información sobre los intercambios de datos públicos, consulta Haz público un intercambio de datos.
El rol de administrador de Analytics Hub te permite crear varios intercambios de datos y administrar a otros usuarios que realizan tareas de uso compartido.
Fichas
Una ficha es una referencia a un recurso compartido que un publicador anuncia en un intercambio de datos. Como publicador, puedes crear una ficha y especificar la descripción del recurso, las consultas de muestra que se ejecutarán o los datos de mensajes de muestra, los vínculos a cualquier documentación relevante y cualquier información adicional que ayude a los suscriptores a usar tu recurso compartido. Cuando creas una ficha, puedes asignar una dirección de correo electrónico de contacto principal, un nombre y un contacto del proveedor, y un nombre y un contacto del editor.
La dirección de correo electrónico del contacto principal permite a los usuarios comunicarse con el propietario de la ficha si tienen preguntas o inquietudes sobre el intercambio de datos. El nombre y el contacto del proveedor son los de la agencia que proporcionó originalmente los datos de la ficha. Esta información es opcional. El nombre y el contacto del publicador son los de la agencia que publica los datos para su uso en el uso compartido de BigQuery. Esta información es opcional. Para obtener más información, consulta Administra las fichas.
Una ficha puede ser de uno de los siguientes dos tipos, según la política de IAM establecida para la ficha y el tipo de intercambio de datos que contiene la ficha:
- Ficha pública. Las fichas públicas se comparten con todos los Google Cloud usuarios (
allAuthenticatedUsers). Las fichas en un intercambio de datos públicos son públicas. Estas fichas pueden ser referencias a un recurso público gratuito o a un recurso comercial. Si la ficha es de un recurso comercial, los suscriptores pueden solicitar acceso a la ficha directamente desde el proveedor de datos o pueden explorar y comprar fichas comerciales integradas en Google Cloud Marketplace. - Ficha privada. Las fichas privadas se comparten directamente con personas o grupos. Por ejemplo, una ficha privada puede hacer referencia a un conjunto de datos de métricas de marketing que compartes con otros equipos internos dentro de tu organización.
Flujo de trabajo del suscriptor
En el siguiente diagrama, se describe cómo interactúan los suscriptores de Analytics Hub con los recursos compartidos:
En las siguientes secciones, se describen las funciones del flujo de trabajo de suscriptores.
Recursos vinculados
Los recursos vinculados se crean cuando te suscribes a una ficha de uso compartido de BigQuery, lo que conecta a un suscriptor con el recurso compartido subyacente.
Conjuntos de datos vinculados
Un conjunto de datos vinculado es un conjunto de datos de BigQuery de solo lectura que funciona como un puntero o una referencia a un conjunto de datos compartido. Suscribirse a una ficha crea un conjunto de datos vinculado en tu proyecto y no una copia del conjunto de datos, de modo que los suscriptores pueden leer los datos, pero no pueden agregar ni actualizar objetos dentro de él. Cuando consultas objetos como tablas y vistas a través de un conjunto de datos vinculado, se devuelven los datos del conjunto de datos compartido. Para obtener más información sobre los conjuntos de datos vinculados, consulta Visualiza y suscríbete a fichas y a intercambios de datos.
Los conjuntos de datos vinculados están autorizados para acceder a las tablas y vistas de un conjunto de datos compartidos. Los suscriptores con conjuntos de datos vinculados acceden a las tablas y vistas de un conjunto de datos compartidos sin ninguna autorización adicional de Identity and Access Management.
Los conjuntos de datos vinculados admiten los siguientes objetos:
Suscripciones vinculadas a Pub/Sub
Cuando te suscribes a una ficha con un tema compartido, se crea una suscripción a Pub/Sub vinculada en el proyecto del suscriptor. No se crean copias de los datos de los temas o mensajes compartidos. Los suscriptores de la suscripción a Pub/Sub vinculada pueden acceder a los mensajes publicados en el tema compartido. Los suscriptores acceden a los datos de los mensajes de un tema compartido sin ninguna autorización adicional de IAM. Los publicadores pueden administrar las suscripciones directamente en Pub/Sub o a través de la administración de suscripciones de BigQuery sharing. Para obtener más información sobre las suscripciones vinculadas de Pub/Sub, consulta Cómo compartir transmisiones con Pub/Sub.
Opciones de salida de datos (solo para conjuntos de datos compartidos de BigQuery)
Las opciones de salida de datos permiten que los publicadores restrinjan la exportación de datos de los suscriptores fuera de los conjuntos de datos vinculados de BigQuery.
Los publicadores pueden habilitar la restricción de salida de datos en una ficha, los resultados de una búsqueda o ambos. Cuando se restringe la salida de datos, se aplican las siguientes restricciones:
Las APIs de copia, clonación, exportación e instantáneas no están disponibles.
Las opciones de copia, clonación, exportación y captura de instantáneas no están disponibles en la consola de Google Cloud .
No está disponible la conexión del conjunto de datos restringido al explorador de tablas.
El Servicio de transferencia de datos de BigQuery no está disponible en el conjunto de datos restringido.
Las sentencias
CREATE TABLE AS SELECTy la escritura en una tabla de destino no están disponibles.Las sentencias
CREATE VIEW AS SELECTy la escritura en una vista de destino no están disponibles.
Cuando creas una ficha, puedes configurar las opciones de salida de datos adecuadas.
Limitaciones
El uso compartido de BigQuery tiene las siguientes limitaciones:
Un conjunto de datos compartidos puede tener un máximo de 1,000 conjuntos de datos vinculados.
Un tema compartido puede tener un máximo de 10,000 suscripciones a Pub/Sub. Este límite incluye las suscripciones de Pub/Sub vinculadas y las suscripciones de Pub/Sub creadas fuera del uso compartido de BigQuery (por ejemplo, directamente desde Pub/Sub).
Un conjunto de datos con recursos no compatibles no se puede seleccionar como un conjunto de datos compartido cuando creas una ficha. Para obtener más información sobre los objetos de BigQuery que admite el uso compartido de BigQuery, consulta Conjuntos de datos compartidos.
No puedes establecer roles de IAM ni políticas de IAM en tablas individuales dentro de un conjunto de datos vinculado. En su lugar, aplícalos a nivel del conjunto de datos vinculado.
No puedes adjuntar etiquetas de IAM a las tablas dentro de un conjunto de datos vinculado. En su lugar, aplícalos a nivel del conjunto de datos vinculado.
El recurso de suscripción no reabastece los conjuntos de datos vinculados creados antes del 25 de julio de 2023. Solo las suscripciones creadas después del 25 de julio de 2023 funcionan con los métodos de la API.
Si eres publicador, se aplican las siguientes limitaciones de interoperabilidad de BigQuery:
Debes otorgar a los suscriptores permisos explícitos para leer el conjunto de datos de origen y consultar vistas dentro de los conjuntos de datos vinculados. Para otorgar acceso a las vistas, como práctica recomendada, crea vistas autorizadas. Las vistas autorizadas pueden otorgar a los suscriptores acceso a los datos de vista sin darles acceso a los datos de origen subyacentes.
El plan de consultas revela la consulta de vista compartida y la consulta de rutina, incluidos los IDs de proyecto y otros conjuntos de datos involucrados en las vistas autorizadas. Nunca incluyas nada, como las claves de encriptación, que consideres sensible en la vista compartida o la consulta de rutina.
Los conjuntos de datos compartidos se indexan en Data Catalog (obsoleto) y Dataplex Universal Catalog. Las actualizaciones en un conjunto de datos compartido, como la adición de tablas o vistas, están disponibles para los suscriptores sin demora. Sin embargo, en determinadas situaciones, por ejemplo, cuando hay más de 100 suscriptores o tablas en un conjunto de datos compartido, las actualizaciones pueden tardar hasta 18 horas en indexarse en estos servicios. Debido a la demora en la indexación, los suscriptores no pueden buscar inmediatamente estos recursos actualizados en la consola de Google Cloud .
Los temas compartidos se indexan en Data Catalog (obsoleto) y Dataplex Universal Catalog, pero no puedes filtrar específicamente por su tipo de recurso.
Si configuraste las políticas de seguridad a nivel de fila o enmascaramiento de datos en las tablas que se enumeran, los suscriptores deben ser clientes de Enterprise o Enterprise Plus para ejecutar el trabajo de consulta en un conjunto de datos vinculado. Para obtener más información sobre las ediciones, consulta Introducción a las ediciones de BigQuery.
Si eres suscriptor, se aplican las siguientes limitaciones de interoperabilidad de BigQuery:
No se admiten las vistas materializadas que hagan referencia a tablas en el conjunto de datos vinculado.
No se admite la captura de instantáneas de tablas de conjuntos de datos vinculados.
Es posible que fallen las consultas con conjuntos de datos vinculados y declaraciones
JOINde más de 1 TB (almacenamiento físico). Puedes comunicarte con el equipo de asistencia para resolver este problema.No puedes usar calificadores de región con vistas
INFORMATION_SCHEMApara ver los metadatos de tu conjunto de datos vinculado.Se aplican las siguientes limitaciones a las fichas en varias regiones:
Las fichas para varias regiones solo se admiten para los conjuntos de datos compartidos y las réplicas de conjuntos de datos vinculados. Las fichas para varias regiones no son compatibles con los temas y las suscripciones compartidos de Pub/Sub.
Las fichas de varias regiones no se admiten en las salas limpias de datos.
Las fichas para varias regiones no se admiten en las regiones de BigQuery Omni.
Se aplican las siguientes limitaciones a las métricas de uso:
No puedes obtener las métricas de uso de las fichas que se suscribieron antes del 20 de julio de 2023.
Es posible que las métricas de uso de la tabla externa para los campos
num_rows_processedytotal_bytes_processedcontengan datos inexactos.Las métricas de uso para el consumo solo son compatibles con el uso a través de trabajos de BigQuery. Los siguientes recursos no admiten el consumo:
Las métricas de uso de las vistas solo se propagan para las consultas posteriores al 22 de abril de 2024.
No se capturan las métricas de uso de las suscripciones de Pub/Sub vinculadas en BigQuery. Puedes seguir viendo el uso directamente en Pub/Sub.
Los procedimientos almacenados de SQL no están disponibles en el panel de métricas de uso compartido de BigQuery. Puedes ver los detalles en la vista
INFORMATION_SCHEMA.ROUTINES, pero no en la vistaINFORMATION_SCHEMA.SHARED_DATASET_USAGE. Para obtener más información, consulta Cómo usar la vistaINFORMATION_SCHEMA.
Las siguientes limitaciones se aplican cuando te suscribes a datos de Salesforce Data Cloud:
- Los datos de Data Cloud se comparten como vistas. Como suscriptor, no puedes acceder a las tablas subyacentes a las que hacen referencia las vistas.
Regiones admitidas
El uso compartido de BigQuery es compatible con las siguientes regiones y multirregiones.
Regiones
En la siguiente tabla, se enumeran las regiones de América en las que está disponible el uso compartido.| Descripción de la región | Nombre de la región | Detalles |
|---|---|---|
| Columbus, Ohio | us-east5 |
|
| Dallas | us-south1 |
|
| Iowa | us-central1 |
|
| Las Vegas | us-west4 |
|
| Los Ángeles | us-west2 |
|
| México | northamerica-south1 |
|
| Montreal | northamerica-northeast1 |
|
| Virginia del Norte | us-east4 |
|
| Oklahoma | us-central2 |
|
| Oregón | us-west1 |
|
| Salt Lake City | us-west3 |
|
| São Paulo | southamerica-east1 |
|
| Santiago | southamerica-west1 |
|
| Carolina del Sur | us-east1 |
|
| Toronto | northamerica-northeast2 |
|
| Descripción de la región | Nombre de la región | Detalles |
|---|---|---|
| Delhi | asia-south2 |
|
| Hong Kong | asia-east2 |
|
| Yakarta | asia-southeast2 |
|
| Melbourne | australia-southeast2 |
|
| Bombay | asia-south1 |
|
| Osaka | asia-northeast2 |
|
| Seúl | asia-northeast3 |
|
| Singapur | asia-southeast1 |
|
| Sídney | australia-southeast1 |
|
| Taiwán | asia-east1 |
|
| Tokio | asia-northeast1 |
| Descripción de la región | Nombre de la región | Detalles |
|---|---|---|
| Bélgica | europe-west1 |
|
| Berlín | europe-west10 |
|
| Finlandia | europe-north1 |
|
| Fráncfort | europe-west3 |
|
| Londres | europe-west2 |
|
| Madrid | europe-southwest1 |
|
| Milán | europe-west8 |
|
| Países Bajos | europe-west4 |
|
| París | europe-west9 |
|
| Turín | europe-west12 |
|
| Varsovia | europe-central2 |
|
| Zúrich | europe-west6 |
|
| Descripción de la región | Nombre de la región | Detalles |
|---|---|---|
| Dammam | me-central2 |
|
| Doha | me-central1 |
|
| Tel Aviv | me-west1 |
| Descripción de la región | Nombre de la región | Detalles |
|---|---|---|
| Johannesburgo | africa-south1 |
Multirregiones
En la siguiente tabla, se enumeran las multirregiones en las que está disponible el uso compartido.| Descripción de la multirregión | Nombre de la multirregión |
|---|---|
| Centros de datos dentro de los estados miembros de la Unión Europea1 | EU |
| Centros de datos en Estados Unidos | US |
1 Los datos ubicados en la multirregión EU no se almacenan en los centros de datos de europe-west2 (Londres) ni deeurope-west6 (Zúrich).
Regiones de varios canales
En la siguiente tabla, se enumeran los Omnis en los que está disponible el uso compartido.| Descripción de la región de varios canales | Nombre de la región de varios canales | |
|---|---|---|
| AWS | ||
| AWS - US East (N. Norte) | aws-us-east-1 |
|
| AWS: Oeste de EE.UU. (Oregón) | aws-us-west-2 |
|
| AWS: Asia-Pacífico (Seúl) | aws-ap-northeast-2 |
|
| AWS - Asia-Pacífico (Sídney) | aws-ap-southeast-2 |
|
| AWS: Europa (Irlanda) | aws-eu-west-1 |
|
| AWS - Europa (Fráncfort) | aws-eu-central-1 |
|
| Azure | ||
| Azure - East US 2 | azure-eastus2 |
|
Ejemplo de caso de uso
En esta sección, se proporciona un ejemplo de cómo usar el uso compartido en BigQuery.
Supongamos que eres un minorista y que tu organización tiene datos de previsión de la demanda en tiempo real en un proyecto Google Cloud llamado Forecasting. Quieres compartir estos datos de previsión de la demanda con cientos de proveedores en el sistema de la cadena de suministro. En las siguientes secciones, se describe cómo puedes compartir tus datos con proveedores a través del uso compartido de BigQuery.
Administradores
Como propietario del proyecto Forecasting, primero debes habilitar la API y, luego, asignar el rol Analytics Hub Admin (roles/analyticshub.admin) a un usuario que administre el intercambio de datos en el proyecto. Los usuarios con el rol Analytics Hub Admin se denominan administradores de uso compartido de BigQuery.
Un administrador de uso compartido de BigQuery puede realizar las siguientes tareas:
Crear, actualizar, borrar y compartir el intercambio de datos en el proyecto Previsión de tu organización
Administrar a otros administradores de BigQuery sharing con el rol de administrador de Analytics Hub
Administra los publicadores de BigQuery sharing otorgando el rol de publicador de Analytics Hub (
roles/analyticshub.publisher) a los empleados de tu organización. Si deseas que los empleados solo actualicen, borren y compartan fichas, pero no las creen, otórgales el rol de administrador de fichas de Analytics Hub (roles/analyticshub.listingAdmin).Administra los suscriptores de BigQuery sharing otorgando el rol de suscriptor de Analytics Hub (
roles/analyticshub.subscriber) a un grupo de Google que incluya a todos los proveedores. Si deseas que los proveedores solo vean los intercambios y las fichas disponibles, otórgales el rol Analytics Hub Viewer (roles/analyticshub.viewer). Estos proveedores no pueden suscribirse a las fichas.
Para obtener más información, consulta Roles de IAM para compartir en BigQuery y Administra intercambios de datos.
Publicadores
Los publicadores crean las siguientes fichas para sus conjuntos de datos en el proyecto Forecasting o en un proyecto diferente:
- Ficha A: Conjunto de datos de previsión de la demanda 1
- Ficha B: Conjunto de datos de previsión de la demanda 2
- Ficha C: Conjunto de datos de previsión de la demanda 3
Como proveedor de datos, puedes realizar un seguimiento de las métricas de uso de tu conjunto de datos compartido. Las métricas de uso incluyen los siguientes detalles:
- Trabajos que se ejecutan en tu conjunto de datos compartido.
- Son los detalles de consumo de tu conjunto de datos compartido por los proyectos y las organizaciones de los suscriptores.
- Es la cantidad de filas y bytes que procesa el trabajo.
Para obtener más información, consulta Administra las fichas.
Suscriptores
Los suscriptores pueden explorar fichas a las que tienen acceso en los intercambios de datos. También pueden suscribirse a estas fichas y agregar estos conjuntos de datos a sus proyectos mediante la creación de un conjunto de datos vinculado. Luego, los proveedores pueden ejecutar consultas sobre estos conjuntos de datos vinculados y recuperar resultados en tiempo real.
Para obtener más información, consulta Visualiza y suscríbete a fichas e intercambios de datos.
Precios
No se aplican costos adicionales por administrar intercambios de datos o fichas.
En el caso de los conjuntos de datos de BigQuery, los publicadores pagan por el almacenamiento de datos, mientras que los suscriptores pagan por las consultas que se ejecutan en los datos compartidos de acuerdo con los modelos de precios según demanda o basados en la capacidad. Para obtener información sobre los precios, consulta Precios de BigQuery.
En Pub/Sub, los publicadores de temas pagan por la cantidad total de bytes escritos (capacidad de procesamiento de publicación) en el tema compartido y la salida de red (si corresponde). Los suscriptores pagan por la cantidad total de bytes leídos (capacidad de procesamiento de suscripción) de la suscripción vinculada y la salida de red (si corresponde). Para obtener más información, consulta Precios de Pub/Sub.
Cuotas
Para obtener información sobre las cuotas de uso compartido de BigQuery, consulta Cuotas y límites.
Cumplimiento
El uso compartido de BigQuery, como parte de BigQuery, cumple con los siguientes programas de cumplimiento:
Controles del servicio de VPC
Puedes configurar las reglas de entrada y salida necesarias para permitir que los publicadores y suscriptores accedan a los datos de los proyectos que tienen perímetros de Controles del servicio de VPC. Para obtener más información, consulta Cómo compartir reglas de los Controles del servicio de VPC.
¿Qué sigue?
- Obtén información para ver fichas y suscripciones a intercambios de datos.
- Obtén más información para otorgar roles de Analytics Hub.