Visão geral dos insights de dados

Este documento oferece uma visão geral dos insights de dados, um recurso do Gemini no BigQuery que ajuda a acelerar a análise e a exploração inicial quando você trabalha com dados novos ou desconhecidos. Os insights de dados geram automaticamente descrições, gráficos de relacionamento e consultas SQL, além de sugestões de perguntas em linguagem natural, com base nos metadados da tabela e do conjunto de dados. Essas informações ajudam você a entender rapidamente a estrutura, o conteúdo e as relações dos dados sem uma configuração manual extensa.

Antes de começar

Os insights de dados são gerados usando o Gemini no BigQuery. Para começar a gerar insights, primeiro você precisa configurar o Gemini no BigQuery.

Tipos de insights de dados

É possível gerar insights de dados no nível da tabela ou do conjunto de dados:

  • Para tabelas:o Gemini gera perguntas em linguagem natural e seus equivalentes em SQL para ajudar você a entender os dados em uma única tabela. Com os insights de tabela, é possível detectar padrões, anomalias, outliers ou problemas de qualidade nos dados. O Gemini também gera descrições de tabelas e colunas.

  • Para conjuntos de dados: (Prévia) O Gemini gera um gráfico de relacionamento interativo mostrando relações e consultas SQL entre tabelas para ajudar você a entender como as tabelas estão relacionadas em um conjunto de dados. Com os gráficos de relacionamento, é possível descobrir como os dados são derivados, o que ajuda com problemas de qualidade, consistência ou redundância. Com as consultas entre tabelas, é possível encontrar relações mais amplas. Por exemplo, é possível calcular a receita por segmento de cliente usando dados de uma tabela de vendas e de clientes.

Para investigar mais, faça perguntas de acompanhamento na tela de dados.

Insights da tabela

Com os insights de tabela, você entende o conteúdo, a qualidade e os padrões de uma única tabela do BigQuery. Por exemplo, ao gerar consultas que realizam análises estatísticas, é possível usar insights de tabelas para detectar padrões, anomalias e outliers nos dados. Os insights da tabela também podem ajudar a detectar problemas de qualidade, especialmente quando verificações de perfil de dados estão disponíveis para uma tabela. Ao gerar insights para uma tabela, o Gemini fornece descrição da tabela, descrições de colunas e saída da verificação de perfil com base nos metadados da tabela. As seguintes opções estão disponíveis:

  • Gerar consultas:sugere perguntas em linguagem natural e fornece as consultas SQL correspondentes para respondê-las. Isso ajuda a descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas sem escrever SQL do zero.
  • Gerar descrições:gera descrições para a tabela e as colunas dela. O Gemini usa a saída da verificação de perfil (se disponível) para fundamentar as descrições geradas. É possível revisar, editar e publicar essas descrições no Dataplex Universal Catalog para melhorar a capacidade de descoberta e a documentação dos dados.

Insights do conjunto de dados

Com os insights do conjunto de dados, você entende as relações e os caminhos de junção em várias tabelas de um conjunto de dados do BigQuery, o que oferece uma visão geral do conteúdo do conjunto. Ao gerar insights para um conjunto de dados, o Gemini fornece o seguinte:

  • Descrição do conjunto de dados:fornece um resumo gerado por IA do conjunto de dados.
  • Relações:mostra um mapa visual e interativo com as relações entre as tabelas do conjunto de dados. Passe o cursor sobre as conexões para ver detalhes do relacionamento, como chaves de junção.
  • Tabela de relacionamento:apresenta uma visualização tabular das relações entre tabelas, incluindo chaves externas e junções inferidas. Os relacionamentos podem ser definidos pelo esquema (de restrições de chave primária e externa), com base no uso (de registros de consultas) ou inferidos pelo Gemini com base nos nomes e descrições de tabelas e colunas.
  • Recomendações de consultas:oferece exemplos de consultas SQL que mostram como unir dados de diferentes tabelas com base nas relações identificadas.

Exemplo de insights de dados de tabela

Considere uma tabela chamada telco_churn com colunas como CustomerID, Tenure, InternetService, Contract, MonthlyCharges e Churn. A tabela a seguir descreve os metadados da tabela.

Nome do campo Tipo
CustomerID STRING
Gender STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contract STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT64
Churn BOOL

Os insights de dados geram as seguintes consultas de exemplo para essa tabela:

  • Identifique os clientes que assinaram todos os serviços premium e são clientes há mais de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifique qual serviço de Internet tem mais clientes desistentes.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      customers DESC
    LIMIT 1;
    

Exemplo de insights de dados do conjunto de dados

Considere um conjunto de dados que contenha tabelas order_items e inventory_items. Os insights do conjunto de dados podem inferir que order_items.inventory_item_id está relacionado a inventory_items.id.

Com base nessas relações, o Gemini pode gerar a seguinte consulta entre tabelas:

Identifique as cinco principais categorias de produtos com o maior preço médio de venda e o custo médio correspondente.

SELECT
  ii.product_category,
  AVG(oi.sale_price) AS avg_sale_price,
  AVG(ii.cost) AS avg_cost
FROM
  `ecommerce_data.order_items` AS oi
JOIN
  `ecommerce_data.inventory_items` AS ii
ON oi.inventory_item_id = ii.id
GROUP BY
  ii.product_category
ORDER BY
  avg_sale_price DESC
LIMIT 5;

Fluxos de trabalho de insights de dados

Esta seção descreve os principais fluxos de trabalho que diferentes funções de usuário podem realizar usando o recurso de insights de dados no BigQuery.

Workflows para consumidores de dados

Esses fluxos de trabalho se concentram em tarefas para analistas de dados, analistas de negócios e outros usuários que precisam encontrar, entender e analisar dados.

  • Entenda uma tabela do BigQuery:compreenda rapidamente o esquema, o conteúdo e os possíveis usos de uma tabela específica. Depois de selecionar uma tabela no BigQuery Studio, você pode realizar as seguintes tarefas:

    • Revise as descrições de tabelas e colunas geradas automaticamente.

    • Analise as perguntas sugeridas em linguagem natural e as consultas SQL equivalentes para entender as nuances dos dados.

    • Adapte e execute as consultas sugeridas para iniciar a análise.

    Para mais informações sobre como gerar e conferir insights de tabelas, consulte Gerar insights de tabelas.

  • Analise um conjunto de dados inteiro:descubra as relações entre tabelas em um conjunto de dados e entenda a estrutura geral dele. Depois de selecionar um conjunto de dados no BigQuery Studio, você pode realizar as seguintes tarefas:

    • Gerar e conferir insights do conjunto de dados.

    • Use o gráfico de relacionamento interativo para visualizar as conexões de tabela.

    • Analise a tabela de relacionamento para chaves de junção e tipos de conexão (definidos pelo esquema, com base no uso, inferidos por LLM).

    • Use as consultas SQL entre tabelas sugeridas para consultar várias tabelas de maneira eficaz.

    Para mais informações sobre como gerar e visualizar insights de conjuntos de dados, consulte Gerar insights de conjuntos de dados.

Workflows para produtores de dados

Esses fluxos de trabalho são destinados a engenheiros de dados, engenheiros de análise e outras pessoas que criam e gerenciam recursos de dados.

  • Gerar documentação de dados de referência:crie e mantenha automaticamente descrições de metadados essenciais. É possível fazer as seguintes tarefas:

    • Depois da criação ou modificação da tabela, acione os insights de dados para gerar descrições de tabelas e colunas. Também é possível gerar essas descrições em grande escala usando a API de geração automatizada de metadados do Dataplex Universal Catalog.

    • Revise e refine o texto gerado com IA para garantir a precisão técnica e a relevância para os negócios.

    Para mais informações sobre como gerar descrições de tabelas e colunas, consulte Gerar insights de tabela.

  • Melhorar a compreensão do conjunto de dados para os usuários: facilitar o entendimento e o uso dos conjuntos de dados fornecidos pelos consumidores. Você pode realizar as seguintes tarefas:

    • Gere insights sobre conjuntos de dados importantes, especialmente aqueles com relações complexas.

    • Verifique se as verificações de perfil de dados são executadas em tabelas para fornecer um contexto completo e insights mais precisos e úteis.

    Para mais informações, consulte Gerar insights de conjunto de dados e Fundamentar insights nos resultados da criação de perfil de dados.

Workflows para administradores de dados

Esses fluxos de trabalho ajudam os administradores de dados e as equipes de governança a manter a integridade e a confiabilidade dos dados.

  • Validar e auditar metadados gerados por IA:garanta a precisão e a confiabilidade dos metadados produzidos por insights de dados. Você pode realizar as seguintes tarefas:

    • Revise regularmente as descrições e relações geradas pelo recurso de insights.

    • Faça uma referência cruzada das relações inferidas no gráfico de relações com modelos de dados e lógica de negócios estabelecidos.

    • Revise e corrija imprecisões nos metadados gerados com IA.

    Para mais informações, consulte Gerar insights de tabela e Gerar insights de conjunto de dados.

Preços

Para saber mais sobre os preços desse recurso, consulte Visão geral dos preços do Gemini no BigQuery.

Cotas e limites

Para informações sobre cotas e limites desse recurso, consulte Cotas do Gemini no BigQuery.

Limitações

As análises de dados têm as seguintes limitações:

  • Os insights de dados estão disponíveis para visualizações e tabelas do BigQuery, do BigLake e externas.

  • Para clientes que têm várias nuvens, os dados de outras nuvens não estão disponíveis.

  • Os insights de dados não são compatíveis com os tipos de coluna GEO ou JSON.

  • A execução de insights não garante a apresentação de consultas todas as vezes. Para aumentar a probabilidade de gerar consultas mais engajadoras, reinicie o pipeline de insights.

  • Para tabelas com controle de acesso no nível da coluna e permissões de usuário restritas, é possível gerar insights se você tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, você precisa ter permissões suficientes.

  • O Gemini gera descrições para um máximo de 350 colunas em uma tabela.

  • Para insights de conjunto de dados, não é possível editar relacionamentos no gráfico de relacionamentos.

  • A geração de novos insights substitui os anteriores.

  • Os insights de conjuntos de dados não são compatíveis com conjuntos de dados vinculados.

Locais

É possível usar insights de dados em todos os locais do BigQuery. Para saber onde o Gemini no BigQuery processa seus dados, consulte Onde o Gemini no BigQuery processa seus dados.

A seguir