Introdução à partilha do BigQuery
A partilha do BigQuery (anteriormente Analytics Hub) é uma plataforma de troca de dados que lhe permite partilhar dados e estatísticas em grande escala entre limites organizacionais com uma estrutura de segurança e privacidade robusta. A partilha do BigQuery permite-lhe descobrir e aceder a uma biblioteca de dados organizada por vários fornecedores de dados. Esta biblioteca de dados também inclui conjuntos de dados fornecidos pela Google.
Por exemplo, pode usar a partilha para aumentar as suas iniciativas de estatísticas e ML com conjuntos de dados de terceiros e da Google.
As funções da gestão de identidade e de acesso (IAM) do Analytics Hub permitem-lhe realizar as seguintes tarefas de partilha:
Como publicador do Analytics Hub, pode partilhar dados com a sua rede de parceiros ou na sua própria organização em tempo real. As fichas permitem-lhe partilhar dados sem replicar os dados partilhados e podem ser rentabilizadas no Google Cloud Marketplace ou através dos seus próprios canais. Pode criar um catálogo de origens de dados prontas para análise com autorizações detalhadas que lhe permitem fornecer dados aos públicos-alvo certos. Também pode gerir subscrições e ver as métricas de utilização das suas fichas.
Como subscritor do Analytics Hub, pode descobrir os dados que procura, combinar dados partilhados com os seus dados existentes e usar as funcionalidades incorporadas do BigQuery. Quando subscreve uma ficha, é criado um conjunto de dados associado ou uma subscrição do Pub/Sub associada no seu Google Cloud projeto. Pode gerir as suas subscrições através do recurso Subscription, que armazena informações relevantes sobre o subscritor e representa a associação entre o publicador e o subscritor.
Enquanto visualizador do Analytics Hub, pode procurar os recursos partilhados aos quais tem acesso na partilha do BigQuery e fazer um pedido ao publicador para aceder aos dados partilhados. Pode descobrir fichas comerciais integradas no Cloud Marketplace na partilha do BigQuery e no Cloud Marketplace.
Enquanto administrador do Analytics Hub, pode criar trocas de dados que permitem a partilha de dados e, em seguida, conceder autorizações aos publicadores e subscritores de dados para acederem a estas trocas de dados.
Para mais informações, consulte o artigo Configure funções do Analytics Hub.
Arquitetura
A partilha do BigQuery baseia-se num modelo de publicação e subscrição de Google Cloud recursos de dados, o que permite a partilha sem cópia no local. A partilha do BigQuery suporta os seguintes Google Cloud recursos:
- Conjuntos de dados do BigQuery
- Tópicos do Pub/Sub
Fluxo de trabalho do publicador
O diagrama seguinte descreve como um publicador partilha recursos:
As secções seguintes descrevem as funcionalidades neste fluxo de trabalho.
Recursos partilhados
Os recursos partilhados são a unidade de partilha de um publicador na partilha do BigQuery.
Conjuntos de dados partilhados
Um conjunto de dados partilhado é um conjunto de dados do BigQuery que é a unidade de partilha de dados na partilha do BigQuery. A separação do processamento e do armazenamento na arquitetura do BigQuery permite que os publicadores de dados partilhem conjuntos de dados com quantos subscritores quiserem, sem terem de fazer várias cópias dos dados. Enquanto publicador, cria ou usa um conjunto de dados do BigQuery existente no seu projeto com os seguintes objetos suportados que quer enviar para os seus subscritores:
- Vistas autorizadas
- Conjuntos de dados autorizados
- Modelos do BigQuery ML
- Tabelas externas
- Vistas materializadas
- Rotinas
- Tabelas
- Resumos de tabelas
- Visualizações
Os conjuntos de dados partilhados suportam a segurança ao nível da coluna e a segurança ao nível da linha.
Tenha em atenção as seguintes limitações para o VPC Service Controls e a partilha:
Não publique dados partilhados em projetos dentro dos perímetros do VPC Service Controls. Se os conjuntos de dados partilhados num projeto estiverem dentro de um perímetro dos VPC Service Controls, precisa de regras de entrada e saída adequadas para o projeto de troca (anúncios alojados) e todos os projetos subscritores para subscrever com êxito os anúncios do publicador.
Não coloque o projeto de troca num perímetro dos VPC Service Controls, uma vez que pode interromper os fluxos de trabalho de publicação, o que requer regras de entrada e saída para que o projeto do publicador e todos os projetos de subscritores subscrevam com êxito as respetivas fichas.
Tópicos partilhados
Um tópico partilhado é um tópico do Pub/Sub, que é a unidade de partilha de dados por streaming no BigQuery. Enquanto publicador, cria ou usa um tópico Pub/Sub existente no seu projeto e distribui-o pelos seus subscritores.
Intercâmbios de dados
Uma troca de dados é um contentor que lhe permite partilhar dados através do self-service. Contém fichas que fazem referência a recursos partilhados. Os publicadores e os administradores podem conceder acesso aos subscritores ao nível da bolsa de câmbio e da ficha. Isto ajuda a evitar conceder acesso explicitamente aos recursos partilhados subjacentes. Pode procurar trocas de dados, descobrir dados aos quais pode aceder e subscrever recursos partilhados. Quando cria uma troca de dados, pode atribuir um endereço de email de contacto principal. Este endereço de email permite que os utilizadores entrem em contacto com o proprietário da troca de dados se tiverem dúvidas ou preocupações.
Uma troca de dados pode ser de um dos seguintes tipos:
- Troca de dados privados. Por predefinição, uma troca de dados é privada e apenas os utilizadores ou os grupos que têm acesso a essa troca podem ver ou subscrever as respetivas fichas.
- Troca de dados públicos. Por predefinição, uma troca de dados é privada e apenas os utilizadores ou os grupos que têm acesso a essa troca podem ver ou subscrever as respetivas fichas. No entanto, pode optar por tornar uma troca de dados pública. As fichas nas
trocas de dados públicas podem ser
descobertas
e
subscritas
por
Google Cloud utilizadores (
allAuthenticatedUsers). Para mais informações sobre as trocas de dados públicas, consulte Torne uma troca de dados pública.
A função de administrador do Analytics Hub permite-lhe criar várias trocas de dados e gerir outros utilizadores que realizam tarefas de partilha.
Fichas
Uma ficha é uma referência a um recurso partilhado que um publicador lista numa troca de dados. Como publicador, pode criar uma ficha e especificar a descrição do recurso, exemplos de consultas a executar ou exemplos de dados de mensagens, links para qualquer documentação relevante e quaisquer informações adicionais que ajudem os subscritores a usar o seu recurso partilhado. Quando cria uma ficha, pode atribuir um endereço de email de contacto principal, um nome e um contacto do fornecedor, bem como um nome e um contacto do publicador.
O endereço de email do contacto principal permite que os utilizadores contactem o proprietário da ficha com perguntas ou preocupações acerca da troca de dados. O nome e o contacto do fornecedor são os da agência que forneceu originalmente os dados da ficha. Estas informações são opcionais. O nome e o contacto do publicador são da agência que publica os dados para utilização na partilha do BigQuery. Estas informações são opcionais. Para mais informações, consulte Faça a gestão das fichas.
Uma ficha pode ser de um de dois tipos, com base na política IAM definida para a ficha e no tipo de troca de dados que contém a ficha:
- Anúncio público. Uma ficha pública é partilhada com todos os
Google Cloud utilizadores (
allAuthenticatedUsers). As fichas numa troca de dados pública são fichas públicas. Estas fichas podem ser referências de um recurso público sem custo financeiro ou de um recurso comercial. Se a ficha for de um recurso comercial, os subscritores podem pedir acesso à ficha diretamente ao fornecedor de dados ou podem procurar e comprar fichas comerciais integradas no Google Cloud Marketplace. - Anúncio privado. Uma ficha privada é partilhada diretamente com indivíduos ou grupos. Por exemplo, uma ficha privada pode fazer referência a um conjunto de dados de métricas de marketing que partilha com outras equipas internas na sua organização.
Fluxo de trabalho de subscritores
O diagrama seguinte descreve como os subscritores do Analytics Hub interagem com os recursos partilhados:
As secções seguintes descrevem as funcionalidades no fluxo de trabalho do subscritor.
Recursos associados
Os recursos associados são criados quando subscreve uma ficha de partilha do BigQuery, o que associa um subscritor ao recurso partilhado subjacente.
Conjuntos de dados associados
Um conjunto de dados associado é um conjunto de dados do BigQuery de só de leitura que funciona como um ponteiro ou uma referência a um conjunto de dados partilhado. A subscrição de uma ficha cria um conjunto de dados associado no seu projeto e não uma cópia do conjunto de dados. Por isso, os subscritores podem ler os dados, mas não podem adicionar nem atualizar objetos no mesmo. Quando consulta objetos, como tabelas e vistas, através de um conjunto de dados associado, são devolvidos os dados do conjunto de dados partilhado. Para mais informações sobre conjuntos de dados associados, consulte Veja e subscreva fichas e trocas de dados.
Os conjuntos de dados associados estão autorizados a aceder a tabelas e vistas de um conjunto de dados partilhado. Os subscritores com conjuntos de dados associados acedem a tabelas e vistas de um conjunto de dados partilhado sem autorização adicional de gestão de identidade e acesso.
Os conjuntos de dados associados suportam os seguintes objetos:
Subscrições do Pub/Sub associadas
A subscrição de uma ficha com um tópico partilhado cria uma subscrição do Pub/Sub associada no projeto do subscritor. Não são criadas cópias dos dados do tópico ou da mensagem partilhados. Os subscritores da subscrição Pub/Sub associada podem aceder às mensagens publicadas no tópico partilhado. Os subscritores acedem aos dados das mensagens de um tópico partilhado sem autorização adicional do IAM. Os publicadores podem gerir as subscrições diretamente no Pub/Sub ou através da gestão de subscrições de partilha do BigQuery. Para mais informações sobre as subscrições do Pub/Sub associadas, consulte o artigo Partilha de streams com o Pub/Sub.
Opções de saída de dados (apenas conjuntos de dados partilhados do BigQuery)
As opções de saída de dados permitem que os publicadores restrinjam a exportação de dados dos subscritores dos conjuntos de dados associados ao BigQuery.
Os publicadores podem ativar a restrição de saída de dados numa ficha, nos resultados de uma consulta ou em ambos. Quando a saída de dados está restrita, aplicam-se as seguintes restrições:
As APIs de cópia, clonagem, exportação e instantâneo estão indisponíveis.
As opções de copiar, clonar, exportar e criar instantâneos não estão disponíveis na Google Cloud consola.
A associação do conjunto de dados restrito ao explorador de tabelas não está disponível.
O Serviço de transferência de dados do BigQuery não está disponível no conjunto de dados restrito.
As declarações
CREATE TABLE AS SELECTe a escrita numa tabela de destino não estão disponíveis.As declarações e a escrita numa vista de destino não estão disponíveis.
CREATE VIEW AS SELECT
Quando cria uma ficha, pode definir as opções de saída de dados adequadas.
Limitações
A partilha do BigQuery tem as seguintes limitações:
Um conjunto de dados partilhado pode ter um máximo de 1000 conjuntos de dados associados.
Um tópico partilhado pode ter um máximo de 10 000 subscrições do Pub/Sub. Este limite inclui subscrições do Pub/Sub associadas e subscrições do Pub/Sub criadas fora da partilha do BigQuery (por exemplo, diretamente a partir do Pub/Sub).
Não é possível selecionar um conjunto de dados com recursos não suportados como um conjunto de dados partilhado quando cria uma ficha. Para mais informações acerca dos objetos do BigQuery que a partilha do BigQuery suporta, consulte o artigo Conjuntos de dados partilhados.
Não pode definir funções da IAM ou políticas da IAM em tabelas individuais num conjunto de dados associado. Em alternativa, aplique-os ao nível do conjunto de dados associado.
Não é possível anexar etiquetas IAM em tabelas num conjunto de dados associado. Em alternativa, aplique-as ao nível do conjunto de dados associado.
Os conjuntos de dados associados criados antes de 25 de julho de 2023 não são preenchidos novamente pelo recurso de subscrição. Apenas as subscrições criadas após 25 de julho de 2023 funcionam com os métodos da API.
Se for um publicador, aplicam-se as seguintes limitações de interoperabilidade do BigQuery:
Tem de conceder aos subscritores autorizações explícitas para ler o conjunto de dados de origem para consultar vistas em conjuntos de dados associados. Para conceder acesso a visualizações, como prática recomendada, crie visualizações autorizadas. As vistas autorizadas podem conceder aos subscritores acesso aos dados da vista sem lhes dar acesso aos dados de origem subjacentes.
O plano de consulta revela a consulta de visualização partilhada e a consulta de rotina, incluindo IDs de projetos, e outros conjuntos de dados envolvidos em visualizações autorizadas. Nunca inclua nada, como chaves de encriptação, que considere sensível na vista partilhada ou na consulta de rotina.
Os conjuntos de dados partilhados são indexados no Data Catalog (descontinuado) e no Dataplex Universal Catalog. As atualizações num conjunto de dados partilhado, como a adição de tabelas ou vistas, ficam disponíveis para os subscritores sem demora. No entanto, em determinados cenários, por exemplo, quando existem mais de 100 subscritores ou tabelas num conjunto de dados partilhado, as atualizações podem demorar até 18 horas a serem indexadas nestes serviços. Devido ao atraso na indexação, os subscritores não podem pesquisar estes recursos atualizados na Google Cloud consola imediatamente.
Os tópicos partilhados são indexados no catálogo de dados (descontinuado) e no catálogo universal do Dataplex, mas não pode filtrar especificamente pelo respetivo tipo de recurso.
Se tiver configurado políticas de segurança ao nível da linha ou de ocultação de dados nas tabelas apresentadas, os subscritores têm de ser clientes do Enterprise ou Enterprise Plus para executar a tarefa de consulta no conjunto de dados associado. Para ver informações sobre as edições, consulte o artigo Introdução às edições do BigQuery.
Se for subscritor, aplicam-se as seguintes limitações de interoperabilidade do BigQuery:
As vistas materializadas que fazem referência a tabelas no conjunto de dados associado não são suportadas.
A criação de instantâneos de tabelas de conjuntos de dados associados não é suportada.
As consultas com conjuntos de dados associados e declarações
JOINcom mais de 1 TB (armazenamento físico) podem falhar. Pode contactar o apoio técnico para resolver este problema.Não pode usar qualificadores de região com visualizações
INFORMATION_SCHEMApara ver metadados do seu conjunto de dados associado.Aplicam-se as seguintes limitações às fichas de várias regiões:
As fichas para várias regiões só são suportadas para conjuntos de dados partilhados e réplicas de conjuntos de dados associados. As fichas para várias regiões não são suportadas para tópicos e subscrições do Pub/Sub partilhados.
As fichas para várias regiões não são suportadas em salas limpas de dados.
As fichas de várias regiões não são suportadas nas regiões do BigQuery Omni.
As seguintes limitações aplicam-se às métricas de utilização:
Não pode aceder às métricas de utilização de fichas que foram subscritas antes de 20 de julho de 2023.
As métricas de utilização da tabela externa para os campos
num_rows_processedetotal_bytes_processedpodem conter dados imprecisos.As métricas de utilização para o consumo só são suportadas para a utilização com tarefas do BigQuery. Os seguintes recursos não suportam o consumo:
As métricas de utilização para visualizações são preenchidas apenas para consultas após 22 de abril de 2024.
As métricas de utilização não são capturadas para subscrições do Pub/Sub associadas no BigQuery. Pode continuar a ver a utilização diretamente no Pub/Sub.
Os procedimentos armazenados de SQL não estão disponíveis no painel de controlo de métricas de utilização da partilha do BigQuery. Pode ver detalhes na vista
INFORMATION_SCHEMA.ROUTINES, mas não na vistaINFORMATION_SCHEMA.SHARED_DATASET_USAGE. Para mais informações, consulte o artigo Use a vistaINFORMATION_SCHEMA.
As seguintes limitações aplicam-se quando subscreve dados do Salesforce Data Cloud:
- Os dados do Data Cloud são partilhados como vistas. Como subscritor, não pode aceder às tabelas subjacentes a que as vistas fazem referência.
Regiões suportadas
A partilha do BigQuery é suportada nas seguintes regiões e multirregiões.
Regiões
A tabela seguinte lista as regiões nas Américas onde a partilha está disponível.| Descrição da região | Nome da região | Detalhes |
|---|---|---|
| Columbus, Ohio | us-east5 |
|
| Dallas | us-south1 |
|
| Iowa | us-central1 |
|
| Las Vegas | us-west4 |
|
| Los Angeles | us-west2 |
|
| México | northamerica-south1 |
|
| Montréal | northamerica-northeast1 |
|
| Virgínia do Norte | us-east4 |
|
| Oklahoma | us-central2 |
|
| Oregon | us-west1 |
|
| Salt Lake City | us-west3 |
|
| São Paulo | southamerica-east1 |
|
| Santiago | southamerica-west1 |
|
| Carolina do Sul | us-east1 |
|
| Toronto | northamerica-northeast2 |
|
| Descrição da região | Nome da região | Detalhes |
|---|---|---|
| Deli | asia-south2 |
|
| Hong Kong | asia-east2 |
|
| Jacarta | asia-southeast2 |
|
| Melbourne | australia-southeast2 |
|
| Mumbai | asia-south1 |
|
| Osaca | asia-northeast2 |
|
| Seul | asia-northeast3 |
|
| Singapura | asia-southeast1 |
|
| Sydney | australia-southeast1 |
|
| Taiwan | asia-east1 |
|
| Tóquio | asia-northeast1 |
| Descrição da região | Nome da região | Detalhes |
|---|---|---|
| Bélgica | europe-west1 |
|
| Berlim | europe-west10 |
|
| Finlândia | europe-north1 |
|
| Frankfurt | europe-west3 |
|
| Londres | europe-west2 |
|
| Madrid | europe-southwest1 |
|
| Milão | europe-west8 |
|
| Países Baixos | europe-west4 |
|
| Paris | europe-west9 |
|
| Turim | europe-west12 |
|
| Varsóvia | europe-central2 |
|
| Zurique | europe-west6 |
|
| Descrição da região | Nome da região | Detalhes |
|---|---|---|
| Damã | me-central2 |
|
| Doha | me-central1 |
|
| Telavive | me-west1 |
| Descrição da região | Nome da região | Detalhes |
|---|---|---|
| Joanesburgo | africa-south1 |
Multirregiões
A tabela seguinte apresenta as várias regiões onde a partilha está disponível.| Descrição de várias regiões | Nome da multirregião |
|---|---|
| Centros de dados nos Estados-Membros da União Europeia1 | EU |
| Centros de dados nos Estados Unidos | US |
1 Os dados localizados na multirregião EU não são armazenados nos centros de dados europe-west2 (Londres) nem europe-west6 (Zurique).
Regiões omnicanais
A tabela seguinte indica os locais onde a partilha está disponível.| Descrição da região omnicanal | Nome da região do Omni | |
|---|---|---|
| AWS | ||
| AWS – Leste dos EUA (Virgínia (Virgínia do Norte) | aws-us-east-1 |
|
| AWS – Oeste dos EUA (Oregon) | aws-us-west-2 |
|
| AWS - Ásia-Pacífico (Seul) | aws-ap-northeast-2 |
|
| AWS – Ásia-Pacífico (Sydney) | aws-ap-southeast-2 |
|
| AWS - Europe (Ireland) | aws-eu-west-1 |
|
| AWS – Europa (Frankfurt) | aws-eu-central-1 |
|
| Azure | ||
| Azure – Leste dos EUA 2 | azure-eastus2 |
|
Exemplo de utilização
Esta secção fornece um exemplo de como usar a partilha no BigQuery.
Suponhamos que é um retalhista e que a sua organização tem dados de previsão da procura em tempo real num Google Cloud projeto denominado Forecasting. Quer partilhar estes dados de previsão da procura com centenas de fornecedores no seu sistema de cadeia de fornecimento. As secções seguintes descrevem como pode partilhar os seus dados com fornecedores através da partilha do BigQuery.
Administradores
Enquanto proprietário do projeto de previsão, primeiro tem de ativar a API e, em seguida, atribuir a
função de administrador do Analytics Hub
(roles/analyticshub.admin) a um utilizador que administra a troca de dados no
projeto. Os utilizadores com a função de administrador do Analytics Hub são denominados
administradores de partilha do BigQuery.
Um administrador de partilha do BigQuery pode realizar as seguintes tarefas:
Criar, atualizar, eliminar e partilhar a troca de dados no projeto de previsão da sua organização.
Faça a gestão de outros administradores de partilha do BigQuery com a função de administrador do Analytics Hub.
Faça a gestão dos publicadores de partilha do BigQuery concedendo a função de publicador do Analytics Hub (
roles/analyticshub.publisher) aos funcionários da sua organização. Se quiser que os funcionários apenas atualizem, eliminem e partilhem fichas, mas não as criem, conceda-lhes a função de administrador de fichas do Analytics Hub (roles/analyticshub.listingAdmin).Faça a gestão dos subscritores da partilha do BigQuery concedendo a função de subscritor do Analytics Hub (
roles/analyticshub.subscriber) a um grupo Google composto por todos os fornecedores. Se quiser que os fornecedores vejam apenas as bolsas de troca e as fichas disponíveis, conceda-lhes a função de visualizador do Analytics Hub (roles/analyticshub.viewer). Estes fornecedores não podem subscrever fichas.
Para mais informações, consulte os artigos Funções de IAM de partilha do BigQuery e Gerir trocas de dados.
Publicadores
Os publicadores criam as seguintes fichas para os respetivos conjuntos de dados no projeto de previsão ou num projeto diferente:
- Ficha A: conjunto de dados de previsão da procura 1
- Ficha B: conjunto de dados de previsão da procura 2
- Listing C: Demand Forecast Dataset 3
Enquanto fornecedor de dados, pode monitorizar as métricas de utilização do seu conjunto de dados partilhado. As métricas de utilização incluem os seguintes detalhes:
- Tarefas executadas no seu conjunto de dados partilhado.
- Detalhes de consumo do seu conjunto de dados partilhado por projetos e organizações subscritores.
- O número de linhas e bytes processados pela tarefa.
Para mais informações, consulte o artigo Faça a gestão das fichas.
Subscritores
Os subscritores podem procurar fichas às quais têm acesso nas trocas de dados. Também podem subscrever estas fichas e adicionar estes conjuntos de dados aos respetivos projetos criando um conjunto de dados associado. Em seguida, os fornecedores podem executar consultas nestes conjuntos de dados associados e obter resultados em tempo real.
Para mais informações, consulte o artigo Veja e subscreva fichas e trocas de dados.
Preços
Não existe custo adicional para gerir as trocas de dados ou as fichas.
Para conjuntos de dados do BigQuery, os publicadores pagam pelo armazenamento de dados, enquanto os subscritores pagam pelas consultas executadas em relação aos dados partilhados com base em modelos de preços a pedido ou baseados na capacidade. Para informações sobre os preços, consulte os preços do BigQuery.
Para o Pub/Sub, os publicadores de tópicos pagam pelo número total de bytes escritos (débito de publicação) no tópico partilhado e na saída da rede (se aplicável). Os subscritores pagam o número total de bytes lidos (débito de subscrição) da subscrição associada e a saída da rede (se aplicável). Para mais informações, consulte os preços do Pub/Sub.
Quotas
Para informações acerca das quotas de partilha do BigQuery, consulte o artigo Quotas e limites.
Conformidade
A partilha do BigQuery, como parte do BigQuery, está em conformidade com os seguintes programas de conformidade:
VPC Service Controls
Pode definir as regras de entrada e saída necessárias para permitir que os publicadores e os subscritores acedam aos dados de projetos que têm perímetros dos VPC Service Controls. Para mais informações, consulte o artigo Partilhar regras do VPC Service Controls.
O que se segue?
- Saiba como ver e subscrever fichas e trocas de dados.
- Saiba como conceder funções do Analytics Hub.