Gere estatísticas de dados no BigQuery
As estatísticas de dados são uma forma automática de explorar, compreender e organizar os seus dados. Com as estatísticas de dados, o Gemini no BigQuery gera perguntas em linguagem natural e as consultas SQL para responder a essas perguntas, com base nos metadados das tabelas. Estas estatísticas ajudam a descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.
Também pode usar as estatísticas de dados para gerar descrições de tabelas e colunas com base nos metadados das tabelas e publicá-las no catálogo universal do Dataplex. Esta funcionalidade ajuda a documentar os seus dados para uma análise significativa e melhora a capacidade de descoberta do conjunto de dados.
Esta página descreve as principais funcionalidades das estatísticas de dados e o processo para automatizar a geração de consultas para uma análise detalhada dos dados.
Antes de começar
As estatísticas de dados são geradas através do Gemini no BigQuery. Para começar a gerar estatísticas, primeiro tem de configurar o Gemini no BigQuery.
Funções necessárias
Para criar, gerir e obter estatísticas de dados, peça ao administrador para lhe conceder as seguintes funções do IAM:
Editor de DataScan do Dataplex (
roles/dataplex.dataScanEditor) ou Administrador de DataScan do Dataplex (roles/dataplex.dataScanAdmin) no projeto onde quer gerar estatísticas.Visualizador de dados do BigQuery (
roles/bigquery.dataViewer) nas tabelas do BigQuery para as quais quer gerar estatísticas.Editor de dados do BigQuery (
roles/bigquery.dataEditor) nas tabelas do BigQuery para as quais quer gerar estatísticas.Utilizador do BigQuery (
roles/bigquery.user) ou Utilizador do BigQuery Studio (roles/bigquery.studioUser) no projeto onde quer gerar estatísticas.
Para ter acesso só de leitura às estatísticas geradas, peça ao seu administrador para lhe conceder a seguinte função de IAM:
- Visualizador de dados do Dataplex DataScan (
roles/dataplex.dataScanDataViewer) no projeto que contém as tabelas do BigQuery para as quais quer ver estatísticas.
Para publicar estatísticas de dados no catálogo universal do Dataplex, peça ao seu administrador para lhe conceder as seguintes funções da IAM no recurso:
Publicar descrições como aspetos: Editor do catálogo do Dataplex (
roles/dataplex.catalogEditor)Publicar consultas como aspetos: Dataplex Entry and EntryLink Owner (
roles/dataplex.entryOwner)
Para ativar as APIs, peça ao seu administrador que lhe conceda a seguinte função de IAM:
- Administrador de utilização de serviços
(
roles/serviceusage.serviceUsageAdmin) no projeto onde quer gerar estatísticas.
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas. Para ver as autorizações exatas necessárias para gerar estatísticas, expanda a secção Autorizações necessárias:
Autorizações necessárias
bigquery.jobs.createbigquery.tables.getbigquery.tables.getDatadataplex.datascans.createdataplex.datascans.getdataplex.datascans.getDatadataplex.datascans.run
Ativar APIs
Para usar as estatísticas de dados, ative as seguintes APIs no seu projeto: API Dataplex, API BigQuery e API Gemini para Google Cloud.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
Para mais informações sobre como ativar a API Gemini para o Google Cloud, consulte o artigo Ative a API Gemini para o Google Cloud num Google Cloud projeto.
Acerca das estatísticas de dados
Quando exploram uma tabela nova e desconhecida, os analistas de dados deparam-se frequentemente com o problema de arranque a frio. O problema envolve frequentemente incertezas sobre a estrutura de dados, os padrões de chaves e as estatísticas relevantes nos dados, o que dificulta o início da escrita de consultas.
As estatísticas de dados resolvem o problema de arranque a frio gerando automaticamente consultas de linguagem natural e os respetivos equivalentes SQL com base nos metadados de uma tabela. Em vez de começar com um editor de consultas vazio, pode iniciar rapidamente a exploração de dados com consultas significativas que oferecem estatísticas valiosas. Para investigar mais a fundo, pode fazer perguntas de seguimento na tela de dados.
Exemplo de uma execução de estatísticas
Considere uma tabela denominada telco_churn com os seguintes metadados:
| Nome do campo | Tipo |
|---|---|
| CustomerID | STRING |
| Género | STRING |
| Tenure | INT64 |
| InternetService | STRING |
| StreamingTV | STRING |
| OnlineBackup | STRING |
| Reduzir | STRING |
| TechSupport | STRING |
| PaymentMethod | STRING |
| MonthlyCharges | FLOAT |
| Abandono | BOOLEAN |
Seguem-se algumas das consultas de exemplo que as estatísticas de dados geram para esta tabela:
Identificar clientes que subscreveram todos os serviços premium e são clientes há mais de 50 meses.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;Identificar que serviço de Internet tem o maior número de clientes que cancelaram a subscrição.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;Identifique as taxas de abandono por segmento entre os clientes de elevado valor.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Modos de geração de estatísticas
O BigQuery oferece dois modos quando gera estatísticas:
| Modo | Descrição | Utilização |
|---|---|---|
| Gerar e publicar (Pré-visualizar) | Persiste as estatísticas geradas no catálogo universal do Dataplex como aspetos de metadados. Tem de ter as autorizações necessárias para publicar. Quando usa a opção Gerar e publicar, ocorrem as seguintes ações:
|
Use este modo para documentação de dados ao nível da empresa que precisa de persistir e ser reutilizada, ou quando criar fluxos de trabalho de governação orientados por catálogos. |
| Gerar sem publicar | Cria estatísticas (descrições, perguntas em linguagem natural e consultas SQL) a pedido. As estatísticas não são publicadas no Dataplex Universal Catalog. | Use este modo para uma exploração ad hoc rápida, de modo a evitar sobrecarregar o catálogo. |
Práticas recomendadas para melhorar as estatísticas geradas
Para melhorar a precisão das estatísticas geradas, siga estas práticas recomendadas:
Fundamente as informações nos resultados da criação de perfis de dados
Na IA generativa, a fundamentação é a capacidade de associar o resultado do modelo a fontes de informações verificáveis. Pode fundamentar as estatísticas geradas nos resultados da criação de perfis de dados. A análise do perfil de dados analisa as colunas nas suas tabelas do BigQuery e identifica características estatísticas comuns, como valores de dados típicos e distribuição de dados. Quando cria uma análise de criação de perfis de dados para uma tabela, pode optar por publicar os resultados da análise nas páginas do BigQuery e do Catálogo universal do Dataplex na Google Cloud consola. O BigQuery usa os resultados da análise do perfil de dados para criar consultas mais precisas e relevantes, fazendo o seguinte:
- Analisa os resultados da criação de perfis de dados para identificar padrões, tendências ou valores atípicos interessantes nos dados.
- Gera consultas focadas nestes padrões, tendências ou valores atípicos para descobrir estatísticas.
- Valida as consultas geradas com base nos resultados da criação de perfis de dados para garantir que as consultas devolvem resultados significativos.
Sem análises de criação de perfis de dados, ocorrem as seguintes situações:
- É mais provável que as consultas geradas incluam cláusulas incorretas ou produzam resultados sem sentido.
- As descrições das colunas geradas baseiam-se apenas no nome da coluna.
Certifique-se de que a análise de perfil de dados da sua tabela está atualizada e que os resultados são publicados no BigQuery.
Pode ajustar as definições da análise do perfil de dados para aumentar o tamanho da amostragem e filtrar linhas e colunas. Depois de executar uma nova análise de criação de perfis de dados, regenere as estatísticas.
Adicione uma descrição da tabela
As descrições detalhadas das tabelas que descrevem o que quer analisar na sua tabela podem ajudar o Gemini no BigQuery a produzir estatísticas mais relevantes. Depois de adicionar uma descrição da tabela, volte a gerar estatísticas.
Por exemplo, pode adicionar a seguinte descrição à
tabelatelco_churn: "Esta tabela acompanha os dados de abandono de clientes, incluindo detalhes da subscrição, antiguidade e utilização do serviço, para prever o comportamento de abandono de clientes."
Se guardar a descrição da tabela gerada pelo Gemini, essa descrição é usada para gerar estatísticas futuras.
Adicione descrições de colunas
As descrições das colunas que explicam o que é cada coluna ou como uma coluna se relaciona com outra podem melhorar a qualidade das suas estatísticas. Depois de atualizar as descrições das colunas na tabela, regenere as estatísticas.
Por exemplo, pode adicionar as seguintes descrições a colunas específicas da tabela telco_churn:
Tenure: "O número de meses em que o cliente usa o serviço."Churn: "Se o cliente deixou de usar o serviço. VERDADEIRO indica que o cliente já não usa o serviço. FALSO indica que o cliente está ativo."
Se guardar as descrições das colunas geradas pelo Gemini, estas descrições são usadas para gerar estatísticas futuras.
Gere estatísticas para uma tabela do BigQuery
Consola
Para gerar estatísticas para uma tabela do BigQuery, tem de aceder à entrada da tabela no BigQuery através do BigQuery Studio.
Na Google Cloud consola, aceda ao BigQuery Studio.
No painel esquerdo, clique em Explorador:

Se não vir o painel do lado esquerdo, clique em Expandir painel do lado esquerdo para o abrir.
No painel Explorador, clique em Conjuntos de dados e, de seguida, selecione o seu conjunto de dados.
Clique em Vista geral > Tabelas e, de seguida, selecione a tabela para a qual quer gerar estatísticas.
Clique no separador Estatísticas. Se o separador estiver vazio, significa que as estatísticas desta tabela ainda não foram geradas.
Para gerar estatísticas e publicá-las no Dataplex Universal Catalog, clique em Gerar e publicar (Pré-visualizar).
Para gerar estatísticas sem as publicar no catálogo universal do Dataplex, clique em Gerar sem publicar.
Para mais informações sobre as diferenças entre os modos Gerar e publicar e Gerar sem publicar, consulte Modos de geração de estatísticas.
Selecione uma região para gerar estatísticas e clique em Gerar.
Demora alguns minutos até que as estatísticas sejam preenchidas.
Se estiverem disponíveis resultados da análise do perfil de dados publicados para a tabela, estes são usados para gerar estatísticas. Caso contrário, as estatísticas são geradas com base nos nomes e nas descrições das colunas.
No separador Estatísticas, explore as perguntas de linguagem natural geradas.
Para ver a consulta SQL que responde a uma pergunta, clique na pergunta.
Para abrir uma consulta no BigQuery, clique em Copiar para consulta.
Para fazer perguntas de seguimento, faça o seguinte:
Clique em Fazer outra pergunta. A consulta é aberta numa nova tela de dados.
Clique em Executar e, de seguida, em Consultar estes resultados.
Para fazer uma pergunta de seguimento, introduza um comando no campo de comando de linguagem natural ou edite o SQL no editor de consultas.
Para gerar um novo conjunto de consultas, clique em Gerar estatísticas e acione novamente o pipeline.
Depois de gerar estatísticas para uma tabela, qualquer pessoa com a autorização dataplex.datascans.getData e acesso à tabela pode ver essas estatísticas.
REST
Para gerar estatísticas para tabelas do BigQuery, use o
DATA_DOCUMENTATION tipo de análise suportado pelo catálogo universal do Dataplex
API DataScans.
Estas análises geram metadados, incluindo
consultas SQL detalhadas para a exploração de dados, descrições de esquemas e
resumos ao nível da tabela.
Para gerar estatísticas de dados para uma tabela do BigQuery, siga estes passos:
Opcional: crie uma análise do perfil de dados para a tabela. A presença destas análises reduz as alucinações e as aproximações do Gemini, uma vez que fundamentam o resultado em valores reais presentes nos dados.
Crie uma análise de perfil de dados com o método
dataScans.create.Execute a análise do perfil de dados através do método
dataScans.run. Aguarde a conclusão da execução.Publique os resultados da análise na tabela do BigQuery anexando as seguintes etiquetas de criação de perfis de dados à tabela:
- dataplex-dp-published-scan:DATASCAN_ID
- dataplex-dp-published-project:PROJECT_ID
- dataplex-dp-published-location:LOCATION
Para mais informações, consulte o artigo Adicione etiquetas a tabelas e vistas.
Gere uma análise rápida de dados de documentação de dados para a tabela do BigQuery:
Crie uma análise de dados de documentação de dados com o método
dataScans.create.Por exemplo:
gcurl -X POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans?dataScanId=DATASCAN_ID -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID/tables/TABLE_ID" }, "executionSpec": { "trigger":{ "onDemand":{} } }, "type":"DATA_DOCUMENTATION", "dataDocumentationSpec":{}}'Substitua o seguinte:
- PROJECT_ID: o ID do seu Google Cloud projeto onde o conjunto de dados reside
- LOCATION: a região onde a análise de dados é executada
- DATASCAN_ID: um nome exclusivo que indica para esta análise
- DATASET_ID: o ID do conjunto de dados do BigQuery que está a ser analisado
- TABLE_ID: o ID da tabela do BigQuery que está a ser analisada
Inicie a tarefa de análise de documentação de dados através do método
dataScans.run.Por exemplo:
gcurl -X POST https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID:runEste pedido devolve um ID da tarefa único juntamente com o estado inicial.
Verifique a conclusão da tarefa de análise executada através do método
dataScans.get.Use o ID da tarefa para obter o estado da tarefa. Por exemplo:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_IDA tarefa é concluída quando o estado é
SUCCEEDEDouFAILURE.Publique os resultados da análise na tabela do BigQuery anexando as seguintes etiquetas de documentação de dados à tabela:
- dataplex-data-documentation-published-scan:DATASCAN_ID
- dataplex-data-documentation-published-project:PROJECT_ID
- dataplex-data-documentation-published-location:LOCATION
Gere estatísticas para uma tabela externa do BigQuery
As estatísticas de dados do BigQuery suportam a geração de estatísticas para
tabelas externas do BigQuery com dados no Cloud Storage.
A sua conta e a conta de serviço do Dataplex Universal Catalog para o projeto atual têm de ter a função Visualizador de objetos do Storage (roles/storage.objectViewer) no contentor do Cloud Storage que contém os dados. Para mais
informações, consulte o artigo
Adicione um principal a uma política ao nível do contentor.
Para gerar estatísticas para uma tabela externa do BigQuery, siga as instruções descritas na secção Gere estatísticas para uma tabela do BigQuery deste documento.
Gere estatísticas para uma tabela do BigLake
Para gerar estatísticas para uma tabela do BigLake, siga estes passos:
Ative a API BigQuery Connection no seu projeto.
Crie uma ligação do BigQuery. Para mais informações, consulte o artigo Faça a gestão das associações.
Conceda a função de IAM (
roles/storage.objectViewer) de visualizador de objetos de armazenamento à conta de serviço correspondente à ligação do BigQuery que criou.Pode obter o ID da conta de serviço nos detalhes da associação.
Para gerar estatísticas, siga as instruções descritas na secção Gere estatísticas para uma tabela do BigQuery deste documento.
Gere descrições de tabelas e colunas
O Gemini no BigQuery gera automaticamente descrições de tabelas e colunas quando gera estatísticas de dados. Pode editar estas descrições conforme necessário e, em seguida, guardá-las nos metadados da tabela. As descrições guardadas são usadas para gerar estatísticas futuras.
Controlar o idioma de geração
Pode orientar o Gemini para gerar descrições de tabelas e colunas num idioma específico. Para o fazer, adicione uma diretiva curta (por exemplo, "Gera descrições de tabelas e colunas usando o idioma francês") à descrição existente da tabela antes de gerar as estatísticas de dados.
Quando gera estatísticas, o Gemini interpreta esta diretiva e produz os metadados no idioma pedido. Este mecanismo funciona porque o Gemini usa as descrições de tabelas existentes como contexto quando gera novas descrições.
Para ver uma lista dos idiomas suportados, consulte o artigo Suporte de idiomas do Gemini.
Gere descrições
Para gerar descrições de tabelas e colunas, siga estes passos:
Gere estatísticas seguindo as instruções descritas na secção relevante deste documento:
Clique no separador Esquema.
Clique em Ver descrições das colunas.
São apresentadas a descrição da tabela e as descrições das colunas geradas.
Para editar e guardar a descrição da tabela gerada, faça o seguinte:
Na secção Descrição da tabela, clique em Guardar nos detalhes.
Para substituir a descrição atual pela descrição gerada, clique em Copiar descrição sugerida.
Edite a descrição da tabela conforme necessário e, de seguida, clique em Guardar nos detalhes.
A descrição da tabela é atualizada imediatamente.
Para editar e guardar as descrições de colunas geradas, faça o seguinte:
Na secção Descrições das colunas, clique em Guardar no esquema.
As descrições das colunas geradas são preenchidas no campo Nova descrição para cada coluna.
Edite as descrições das colunas conforme necessário e, de seguida, clique em Guardar.
As descrições das colunas são atualizadas imediatamente.
Para fechar o painel de pré-visualização, clique em Fechar.
Preços
Para ver detalhes sobre os preços desta funcionalidade, consulte o artigo Vista geral dos preços do Gemini no BigQuery.
Quotas e limites
Para informações sobre quotas e limites desta funcionalidade, consulte o artigo Quotas para o Gemini no BigQuery.
Limitações
- As estatísticas de dados estão disponíveis para tabelas do BigQuery, tabelas do BigLake, tabelas externas e vistas.
- Para clientes com várias nuvens, os dados de outras nuvens não estão disponíveis.
- As estatísticas de dados não suportam os tipos de colunas
GeonemJSON. - As execuções de estatísticas não garantem a apresentação de consultas sempre. Para aumentar a probabilidade de gerar consultas mais apelativas, reinicie o pipeline de estatísticas.
- Para tabelas com controlos de acesso ao nível da coluna (ACLs) e autorizações de utilizador restritas, pode gerar estatísticas se tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, tem de ter autorizações suficientes.
- As descrições das colunas são geradas para um máximo de 350 colunas numa tabela.
Localizações
Pode usar estatísticas de dados em todas as localizações do BigQuery. O Gemini no BigQuery opera a nível global, pelo que não pode restringir o processamento de dados a uma região específica. Para saber mais sobre as localizações onde o Gemini no BigQuery processa dados, consulte as localizações de publicação do Gemini.
O que se segue?
- Saiba mais sobre a análise de perfis de dados do Dataplex Universal Catalog.
- Saiba como escrever consultas com a ajuda do Gemini no BigQuery.
- Saiba mais acerca do Gemini no BigQuery.
- Saiba como iterar os resultados das consultas com perguntas em linguagem natural usando a tela de dados.