Introdução ao compartilhamento do BigQuery

O compartilhamento do BigQuery (antigo Analytics Hub) é uma plataforma de troca de dados que permite compartilhar dados e insights em escala entre limites organizacionais com uma estrutura robusta de segurança e privacidade. Com o BigQuery Sharing, é possível descobrir e acessar uma biblioteca de dados selecionada por vários provedores de dados. Essa biblioteca também inclui conjuntos de dados fornecidos pelo Google.

Por exemplo, é possível usar o compartilhamento para expandir suas iniciativas de análise e ML com conjuntos de dados de terceiros e do Google.

Com os papéis do Identity and Access Management (IAM) do Analytics Hub, você pode realizar as seguintes tarefas de compartilhamento:

  • Como editor do Analytics Hub, você pode compartilhar dados com sua rede de parceiros ou dentro da sua organização em tempo real. As listagens permitem compartilhar dados sem replicar os dados compartilhados, e podem ser monetizadas no Google Cloud Marketplace ou pelos seus próprios canais. É possível criar um catálogo de fontes de dados prontas para análise com permissões granulares que permitem entregar dados aos públicos-alvo certos. Você também pode gerenciar assinaturas e conferir as métricas de uso das suas listagens.

  • Como assinante do Analytics Hub, você pode descobrir os dados que procura, combinar dados compartilhados com os que já tem e usar os recursos integrados do BigQuery. Quando você se inscreve em uma listagem, um conjunto de dados vinculado ou uma assinatura do Pub/Sub vinculada é criada no seu projeto do Google Cloud . É possível gerenciar suas assinaturas usando o recurso de assinatura, que armazena informações relevantes sobre o assinante e representa a conexão entre o editor e o assinante.

  • Como visualizador do Analytics Hub, você pode navegar pelos recursos compartilhados a que tem acesso no compartilhamento do BigQuery e fazer uma solicitação ao editor para acessar os dados compartilhados. É possível descobrir listagens comerciais integradas ao Cloud Marketplace no compartilhamento do BigQuery e no Cloud Marketplace.

  • Como administrador do Analytics Hub, você pode criar trocas de dados que permitem o compartilhamento de dados e, em seguida, conceder permissões aos editores de dados e assinantes para acessar essas trocas de dados.

Para mais informações, consulte Configurar papéis do Analytics Hub.

Arquitetura

O compartilhamento do BigQuery é criado com base em um modelo de publicação e assinatura de Google Cloud recursos de dados, permitindo o compartilhamento sem cópia. O compartilhamento do BigQuery é compatível com os seguintes recursos Google Cloud :

  • Conjuntos de dados do BigQuery
  • Tópicos do Pub/Sub

Fluxo de trabalho do editor

O diagrama a seguir descreve como um editor compartilha recursos:

O fluxo de trabalho da função de publisher do Analytics Hub, que inclui recursos compartilhados, trocas de dados e listagens.

As seções a seguir descrevem os recursos desse fluxo de trabalho.

Recursos compartilhados

Os recursos compartilhados são a unidade que um editor compartilha no BigQuery.

Conjuntos de dados compartilhados

Um conjunto de dados compartilhado é um conjunto de dados do BigQuery que é a unidade de compartilhamento de dados no BigQuery. A separação de computação e armazenamento na arquitetura do BigQuery permite que os editores de dados compartilhem conjuntos de dados com quantos assinantes quiserem, sem ter que fazer várias cópias dos dados. Como editor, você cria ou usa um conjunto de dados do BigQuery no seu projeto com os seguintes objetos compatíveis que você quer enviar aos assinantes:

Os conjuntos de dados compartilhados são compatíveis com a segurança no nível da coluna e a segurança no nível da linha.

Considere as seguintes limitações para o VPC Service Controls e o compartilhamento:

  • Não publique dados compartilhados em projetos dentro de perímetros do VPC Service Controls. Se os conjuntos de dados compartilhados em um projeto estiverem dentro de um perímetro do VPC Service Controls, você precisará das regras de entrada e saída adequadas para o projeto de troca (listagens hospedadas) e todos os projetos de assinante para que a assinatura das listagens do editor seja bem-sucedida.

  • Não coloque seu projeto de troca em um perímetro do VPC Service Controls, porque isso pode interromper fluxos de trabalho de publicação, exigindo regras de entrada e saída para o projeto do editor e todos os projetos do assinante se inscreverem nas listas.

Tópicos compartilhados

Um tópico compartilhado é um tópico do Pub/Sub, que é a unidade de compartilhamento de dados de streaming no BigQuery. Como editor, você cria ou usa um tópico do Pub/Sub no projeto e o distribui para os assinantes.

Trocas de dados

Uma troca de dados é um contêiner que permite compartilhar dados por autoatendimento. Ela contém listagens que referenciam conjuntos de dados compartilhados. Os editores e administradores podem conceder acesso aos assinantes nos níveis da troca e da listagem. Isso ajuda você a evitar a concessão explícita de acesso aos recursos compartilhados. Você pode navegar pelas trocas de dados, descobrir dados que pode acessar e se inscrever em recursos compartilhados. Ao criar uma troca de dados, você pode atribuir um endereço de e-mail de contato principal. Com esse endereço de e-mail, os usuários podem entrar em contato com o proprietário da troca de dados para tirar dúvidas ou fazer comentários.

Uma troca de dados pode ser de um dos seguintes tipos:

  • Troca de dados particulares. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a essa troca podem visualizar ou se inscrever nas listagens.
  • Troca de dados públicos. Por padrão, uma troca de dados é particular e somente usuários ou grupos que têm acesso a essa troca podem visualizar ou se inscrever nas listagens. No entanto, você pode optar por tornar a troca de dados pública. As listagens em trocas de dados públicos podem ser descobertas e assinadas por usuários doGoogle Cloud (allAuthenticatedUsers). Para mais informações sobre trocas de dados públicos, consulte Tornar uma troca de dados pública.

Com a função de administrador do Analytics Hub, você pode criar várias trocas de dados e gerenciar outros usuários que realizam tarefas de compartilhamento.

Listagens

Uma listagem é uma referência a um recurso compartilhado que um editor lista em uma troca de dados. Como editor, você pode criar uma listagem e especificar a descrição do recurso, exemplos de consultas para executar ou exemplos de dados de mensagens, links para qualquer documentação relevante e informações adicionais que ajudem os assinantes a usar seu recurso compartilhado. Ao criar uma página de detalhes, você pode atribuir um endereço de e-mail de contato principal, um nome e contato do provedor e um nome e contato do editor.

O endereço de e-mail do contato principal permite que os usuários entrem em contato com o proprietário da página com dúvidas ou problemas sobre a troca de dados. O nome e o contato do provedor são da agência que forneceu os dados para a ficha. Essa informação é opcional. O nome e o contato do editor são da agência que publica os dados para uso no compartilhamento do BigQuery. Essa informação é opcional. Para mais informações, consulte Gerenciar listagens.

Uma listagem pode ser de um de dois tipos, com base na política do IAM definida para a listagem e no tipo de troca de dados que contém a listagem:

  • Listagem pública. Uma listagem pública é compartilhada com todos os usuários doGoogle Cloud (allAuthenticatedUsers). As listagens em uma troca de dados públicos são públicas. Essas listagens podem ser referências de um recurso público sem custo financeiro ou um recurso comercial. Se a listagem for de um recurso comercial, os assinantes poderão solicitar acesso a ela diretamente do provedor de dados ou navegar e comprar listagens comerciais integradas ao Google Cloud Marketplace.
  • Listagem particular. Uma página de detalhes privada é compartilhada diretamente com indivíduos ou grupos. Por exemplo, uma listagem particular pode fazer referência a um conjunto de dados de métricas de marketing que você compartilha com outras equipes internas da organização.

Fluxo de trabalho dos assinantes

O diagrama a seguir descreve como os assinantes do Analytics Hub interagem com recursos compartilhados:

O fluxo de trabalho da função de assinante do Analytics Hub, que inclui recursos compartilhados, trocas de dados, listagens e recursos vinculados.

As seções a seguir descrevem os recursos no fluxo de trabalho do assinante.

Recursos vinculados

Os recursos vinculados são criados ao se inscrever em uma listagem de compartilhamento do BigQuery, conectando um assinante ao recurso compartilhado.

Conjuntos de dados vinculados

Um conjunto de dados vinculado é um conjunto de dados somente leitura do BigQuery que serve como um ponteiro ou referência a um conjunto de dados compartilhado. A assinatura de uma listagem cria um conjunto de dados vinculado no seu projeto, e não uma cópia do conjunto de dados. Assim, os assinantes podem ler os dados, mas não podem adicionar ou atualizar objetos nele. Quando você consulta objetos, como tabelas e visualizações, em um conjunto de dados vinculado, os dados do conjunto de dados compartilhado são retornados. Para mais informações sobre conjuntos de dados vinculados, consulte Ver e assinar listagens e trocas de dados.

Os conjuntos de dados vinculados estão autorizados a acessar tabelas e visualizações de um conjunto de dados compartilhado. Os assinantes com conjuntos de dados vinculados acessam tabelas e visualizações de um conjunto de dados compartilhado sem nenhuma outra autorização do gerenciamento de identidade e acesso.

Os conjuntos de dados vinculados aceitam os seguintes objetos:

Assinaturas vinculadas do Pub/Sub

Inscrever-se em uma listagem com um tópico compartilhado cria uma assinatura do Pub/Sub vinculada no projeto do assinante. Nenhuma cópia do tópico ou dos dados da mensagem compartilhados é criada. Os assinantes da assinatura do Pub/Sub vinculada podem acessar as mensagens publicadas no tópico compartilhado. Os assinantes acessam os dados das mensagens de um tópico compartilhado sem qualquer autorização adicional do IAM. Os editores podem gerenciar assinaturas diretamente no Pub/Sub ou pelo gerenciamento de assinaturas do BigQuery Sharing. Para mais informações sobre assinaturas vinculadas do Pub/Sub, consulte Compartilhamento de stream com o Pub/Sub.

Opções de saída de dados (somente conjuntos de dados compartilhados do BigQuery)

As opções de saída de dados permitem que os publishers impeçam os assinantes de exportar dados de conjuntos de dados vinculados do BigQuery.

Os editores podem ativar a restrição de saída de dados em uma lista, nos resultados de uma consulta ou em ambos. Quando a saída de dados é restrita, as seguintes restrições são aplicadas:

  • As APIs de cópia, clonagem, exportação e snapshot ficam indisponíveis.

  • As opções de copiar, clonar, exportar e snapshot não estão disponíveis no console Google Cloud .

  • A conexão do conjunto de dados restrito ao explorador de tabelas não está disponível.

  • O serviço de transferência de dados do BigQuery não está disponível no conjunto de dados restrito.

  • As instruções CREATE TABLE AS SELECT e a gravação em uma tabela de destino não estão disponíveis.

  • As instruções CREATE VIEW AS SELECT e a gravação em uma visualização de destino não estão disponíveis.

Ao criar uma página de detalhes, é possível definir as opções de saída de dados adequadas.

Limitações

O compartilhamento do BigQuery tem as seguintes limitações:

  • Um conjunto de dados compartilhado pode ter no máximo 1.000 conjuntos de dados vinculados.

  • Um tópico compartilhado pode ter um máximo de 10 mil assinaturas do Pub/Sub. Esse limite inclui assinaturas vinculadas do Pub/Sub e assinaturas do Pub/Sub criadas fora do compartilhamento do BigQuery (por exemplo, diretamente do Pub/Sub).

  • Um conjunto de dados com recursos não compatíveis não pode ser selecionado como um conjunto de dados compartilhado quando você cria uma listagem. Para mais informações sobre os objetos do BigQuery compatíveis com o BigQuery Sharing, consulte Conjuntos de dados compartilhados.

  • Não é possível definir papéis do IAM ou políticas do IAM em tabelas individuais em um conjunto de dados vinculado. Em vez disso, aplique-as no nível do conjunto de dados vinculado.

  • Não é possível anexar tags do IAM em tabelas de um conjunto de dados vinculado. Em vez disso, aplique-as no nível do conjunto de dados vinculado.

  • Os conjuntos de dados vinculados criados antes de 25 de julho de 2023 não são preenchidos pelo recurso de assinatura. Apenas assinaturas criadas após 25 de julho de 2023 vão funcionar com os métodos da API.

  • Se você é publisher, as seguintes limitações de interoperabilidade do BigQuery são aplicáveis:

    • É preciso conceder aos assinantes permissões explícitas para ler o conjunto de dados de origem e consultar visualizações em conjuntos de dados vinculados. Para conceder acesso a visualizações, como prática recomendada, crie visualizações autorizadas. Com as visualizações autorizadas, os assinantes podem acessar os dados de visualização, mas não aos dados de origem.

    • O plano de consulta revela a consulta de visualização compartilhada e a consulta de rotina, incluindo IDs do projeto e outros conjuntos de dados envolvidos nas visualizações autorizadas. Nunca inclua itens como chaves de criptografia que considerem confidenciais na consulta de visualização compartilhada ou de rotina.

    • Os conjuntos de dados compartilhados são indexados no Data Catalog (descontinuado) e no Dataplex Universal Catalog. As atualizações em um conjunto de dados compartilhado, como a adição de tabelas ou visualizações, são disponibilizadas para os assinantes sem atrasos. No entanto, em algumas situações, por exemplo, quando há mais de 100 assinantes ou tabelas em um conjunto de dados compartilhado, as atualizações podem levar até 18 horas para serem indexadas nesses serviços. Devido ao atraso na indexação, os assinantes não podem pesquisar esses recursos atualizados no console do Google Cloud imediatamente.

    • Os tópicos compartilhados são indexados no Data Catalog (descontinuado) e no Dataplex Universal Catalog, mas não é possível filtrar especificamente pelo tipo de recurso.

    • Se você tiver configurado políticas de segurança na linha ou máscara de dados nas tabelas listadas, os assinantes precisarão ser clientes do Enterprise ou do Enterprise Plus para executar o job de consulta no conjunto de dados vinculado. Para informações sobre edições, consulte Introdução às edições do BigQuery.

  • Se você é assinante, as seguintes limitações de interoperabilidade do BigQuery são aplicáveis:

    • Não há compatibilidade com visualizações materializadas que se referem a tabelas no conjunto de dados vinculado.

    • Não é possível fazer snapshots de tabelas de conjuntos de dados vinculados.

    • Consultas com conjuntos de dados vinculados e instruções JOIN maiores que 1 TB (armazenamento físico) podem falhar. Você também pode entrar em contato com o suporte para resolver esse problema.

    • Não é possível usar qualificadores de região com visualizações INFORMATION_SCHEMA para conferir os metadados do conjunto de dados vinculado.

    • As seguintes limitações se aplicam às informações de produtos para várias regiões:

    • As listagens de várias regiões são compatíveis apenas com conjuntos de dados compartilhados e réplicas de conjuntos de dados vinculados. As listagens para várias regiões não são compatíveis com tópicos e assinaturas compartilhados do Pub/Sub.

    • As informações de várias regiões não são compatíveis com data clean rooms.

    • Não é possível usar várias regiões nas regiões do BigQuery Omni.

  • As seguintes limitações se aplicam às métricas de uso:

    • Não é possível conferir as métricas de uso de listas enviadas antes de 20 de julho de 2023.

    • As métricas de uso da tabela externa para os campos num_rows_processed e total_bytes_processed podem conter dados imprecisos.

    • As métricas de uso para consumo são compatíveis somente com jobs do BigQuery. Os seguintes recursos não são compatíveis com o consumo:

    • As métricas de uso para visualizações só são preenchidas para consultas após 22 de abril de 2024.

    • As métricas de uso não são capturadas para assinaturas vinculadas do Pub/Sub no BigQuery. É possível continuar vendo o uso diretamente no Pub/Sub.

    • Os procedimentos armazenados em SQL não estão disponíveis no painel de métricas de uso do compartilhamento do BigQuery. É possível conferir detalhes na visualização INFORMATION_SCHEMA.ROUTINES, mas não na INFORMATION_SCHEMA.SHARED_DATASET_USAGE. Para mais informações, consulte Usar a visualização INFORMATION_SCHEMA.

  • As seguintes limitações se aplicam ao assinar os dados do Salesforce Data Cloud:

    • Os dados da nuvem de dados são compartilhados como visualizações. Como assinante, não é possível acessar as tabelas subjacentes às quais as visualizações fazem referência.

Regiões compatíveis

O compartilhamento do BigQuery é compatível com as seguintes regiões e multirregiões.

Regiões

A tabela a seguir lista as regiões das Américas em que o compartilhamento está disponível.
Descrição da região Nome da região Detalhes
Columbus, Ohio us-east5
Dallas us-south1 Ícone de folha Baixo CO2
Iowa us-central1 Ícone de folha CO2 baixo
Las Vegas us-west4
Los Angeles us-west2
México northamerica-south1
Montreal northamerica-northeast1 Ícone de folha CO2 baixo
Norte da Virgínia us-east4
Oklahoma us-central2 ícone de folha Baixo CO2
Oregon us-west1 Ícone de folha CO2 baixo
Salt Lake City us-west3
São Paulo southamerica-east1 Ícone de folha Baixo CO2
Santiago southamerica-west1
Carolina do Sul us-east1
Toronto northamerica-northeast2
A tabela a seguir lista as regiões da Ásia-Pacífico em que o compartilhamento está disponível.
Descrição da região Nome da região Detalhes
Délhi asia-south2
Hong Kong asia-east2
Jacarta asia-southeast2
Melbourne australia-southeast2
Mumbai asia-south1
Osaka asia-northeast2
Seul asia-northeast3
Singapura asia-southeast1
Sydney australia-southeast1
Taiwan asia-east1
Tóquio asia-northeast1
A tabela a seguir lista as regiões da Europa em que o compartilhamento está disponível.
Descrição da região Nome da região Detalhes
Bélgica europe-west1 Ícone de folha Baixo CO2
Berlim europe-west10
Finlândia europe-north1 Ícone de folha CO2 baixo
Frankfurt europe-west3
Londres europe-west2 ícone de folha Baixo CO2
Madri europe-southwest1 Ícone de folha Baixo CO2
Milão europe-west8
Países Baixos europe-west4 Ícone de folha Baixo CO2
Paris europe-west9 Ícone de folha Baixo CO2
Turim europe-west12
Varsóvia europe-central2
Zurique europe-west6 Ícone de folha Baixo CO2
A tabela a seguir lista as regiões do Oriente Médio em que o compartilhamento está disponível.
Descrição da região Nome da região Detalhes
Damã me-central2
Doha me-central1
Tel Aviv me-west1
A tabela a seguir lista as regiões da África em que o compartilhamento está disponível.
Descrição da região Nome da região Detalhes
Johannesburgo africa-south1

Locais multirregionais

A tabela a seguir lista as multirregiões em que o compartilhamento está disponível.
Descrição multirregional Nome multirregional
Data centers dentro de estados membro da União Europeia1 EU
Data centers nos Estados Unidos US

1 Os dados localizados na multirregião EU não são armazenados nos data centers europe-west2 (Londres) ou europe-west6 (Zurique).

Regiões Omni

A tabela a seguir lista o Omni em que o compartilhamento está disponível.
Descrição da região Omni Nome da região Omni
AWS
AWS - US East (N. Virginia) aws-us-east-1
AWS - Oeste dos EUA (Oregon) aws-us-west-2
AWS – Ásia-Pacífico (Seul) aws-ap-northeast-2
AWS: Ásia-Pacífico (Sydney) aws-ap-southeast-2
AWS - Europa (Irlanda) aws-eu-west-1
AWS: Europa (Frankfurt) aws-eu-central-1
Azure
Azure - East US 2 azure-eastus2

Exemplo de caso de uso:

Esta seção mostra um exemplo de como usar o compartilhamento no BigQuery.

Suponha que você seja um varejista e sua organização tenha dados de previsão de demanda em tempo real em um projeto Google Cloud chamado "Previsão". Você quer compartilhar esses dados de previsão de demanda com centenas de fornecedores no sistema da cadeia de suprimentos. As seções a seguir descrevem como compartilhar seus dados com fornecedores usando o compartilhamento do BigQuery.

Administradores

Como proprietário do projeto "Previsão", primeiro você precisa ativar a API e, em seguida, atribuir o papel de administrador do Analytics Hub (roles/analyticshub.admin) a um usuário que administra a troca de dados no projeto. Os usuários com o papel de administrador do Analytics Hub são chamados de administradores de compartilhamento do BigQuery.

Um administrador do BigQuery Sharing pode realizar as seguintes tarefas:

  • Crie, atualize, exclua e compartilhe a troca de dados no projeto de previsão da sua organização.

  • Gerenciar outros administradores do BigQuery Sharing com a função de administrador do Analytics Hub.

  • Gerencie os editores do BigQuery Sharing concedendo a função de editor do Analytics Hub (roles/analyticshub.publisher) aos funcionários da sua organização. Se você quiser que os funcionários só possam atualizar, excluir e compartilhar listagens, mas não criá-las, conceda a eles o papel de Administrador de listagens do Analytics Hub (roles/analyticshub.listingAdmin).

  • Gerencie assinantes do BigQuery Sharing concedendo o papel de assinante do Analytics Hub (roles/analyticshub.subscriber) a um grupo do Google que consiste em todos os fornecedores. Se você quiser que os fornecedores apenas vejam as trocas e listagens disponíveis, conceda a eles o papel de leitor do Analytics Hub (roles/analyticshub.viewer). Esses fornecedores não podem se inscrever em listagens.

Para mais informações, consulte Papéis do IAM de compartilhamento do BigQuery e Gerenciar trocas de dados.

Editores

Os editores criam as seguintes listagens para os conjuntos de dados no projeto de previsão ou em um projeto diferente:

  • Listagem A: conjunto de dados 1 da previsão de demanda
  • Listagem B: conjunto de dados 2 da previsão de demanda
  • Listagem C: conjunto de dados 3 da previsão de demanda

Como provedor de dados, você pode rastrear as métricas de uso do seu conjunto de dados compartilhado. As métricas de uso incluem os seguintes detalhes:

  • Jobs que são executados no conjunto de dados compartilhado.
  • Detalhes de consumo do seu conjunto de dados compartilhado por projetos e organizações de assinantes.
  • O número de linhas e bytes que o job processa.

Para mais informações, consulte Gerenciar listagens.

Inscritos

Os assinantes podem navegar pelas listagens às quais têm acesso em trocas de dados. Eles também podem se inscrever nessas listagens e adicionar esses conjuntos de dados aos projetos criando um conjunto de dados vinculado. Os fornecedores podem executar consultas nesses conjuntos de dados vinculados e recuperar os resultados em tempo real.

Para mais informações, consulte Visualizar e assinar listagens e trocas de dados.

Preços

Não há custo adicional para gerenciar trocas ou listagens de dados.

Para conjuntos de dados do BigQuery, os editores pagam pelo armazenamento de dados, enquanto os assinantes pagam pelas consultas que são executadas nos dados compartilhados com base em modelos de preços sob demanda ou com base em capacidade. Para informações sobre preços, consulte Preços do BigQuery.

No Pub/Sub, os editores de tópicos pagam pelo número total de bytes gravados (capacidade de publicação) no tópico compartilhado e na saída da rede (se aplicável). Os assinantes pagam pelo número total de bytes lidos (capacidade de assinatura) da assinatura vinculada e da saída de rede (se aplicável). Para mais informações, consulte os preços do Pub/Sub.

Cotas

Para informações sobre cotas de compartilhamento do BigQuery, consulte Cotas e limites.

Compliance

O compartilhamento do BigQuery, como parte do BigQuery, está em conformidade com os seguintes programas:

VPC Service Controls

É possível definir as regras de entrada e saída necessárias para permitir que editores e assinantes acessem dados de projetos que têm perímetros do VPC Service Controls. Para mais informações, consulte Compartilhamento de regras do VPC Service Controls.

A seguir