Sobre os insights de dados estruturados

Os insights de dados do Knowledge Catalog (antigo Dataplex Universal Catalog) geram automaticamente descrições, gráficos de relacionamento e consultas SQL com base nos metadados da tabela e do conjunto de dados. Essas informações ajudam você a entender rapidamente a estrutura, o conteúdo e as relações dos dados sem uma configuração manual extensa. Para investigar mais a fundo, faça perguntas de acompanhamento na tela de dados.

Ao analisar uma tabela nova e desconhecida, os analistas de dados geralmente enfrentam o problema da inicialização a frio, ou seja, como começar a escrever consultas. O problema pode envolver incertezas sobre a estrutura dos dados e os principais padrões neles. O recurso de insights de dados do Knowledge Catalog oferece uma maneira automatizada de explorar e entender seus dados. Isso ajuda você a descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.

Como os insights de dados funcionam?

Os insights de dados usam o Gemini para analisar seus metadados e gerar o seguinte:

  • Descrições: resumos gerados por IA que explicam a finalidade do conjunto de dados, a estrutura da tabela e os detalhes de colunas específicas.

  • Exemplos de consultas: consultas SQL personalizadas criadas especificamente para o esquema e o conteúdo do conjunto de dados ou da tabela.

  • Gráficos de relacionamento: visualizações que mostram as conexões e dependências entre diferentes tabelas no conjunto de dados.

Recursos suportados

Os insights de dados estão disponíveis para os seguintes tipos de dados estruturados:

  • Conjuntos de dados, tabelas e visualizações do BigQuery
  • Tabelas do BigLake (incluindo Apache Iceberg)
  • Tabelas externas
  • Tabelas do catálogo REST do Iceberg

Exemplo de execução de insights

Os insights de dados geram automaticamente consultas em linguagem natural e seus equivalentes em SQL com base nos metadados de uma tabela.

Considere uma tabela chamada telco_churn com os seguintes metadados:

Nome do campo Tipo
CustomerID STRING
Gênero STRING
Tempo de casa INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Contrato STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Desligamento BOOLEAN

Veja a seguir algumas das consultas de amostra que os insights de dados geram para essa tabela:

  • Identifique os clientes que assinaram todos os serviços premium e são clientes há mais de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identifique qual serviço de Internet tem mais clientes desistentes.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifique as taxas de desistência de usuários por segmento entre os clientes de alto valor.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Modos para gerar insights de dados

Ao gerar insights de dados, o Knowledge Catalog oferece dois modos:

Modo Descrição Uso
Gerar e publicar

Persiste os insights de dados gerados no Knowledge Catalog como aspectos de metadados. Você precisa ter as permissões necessárias para publicar. Quando você usa Gerar e publicar, as seguintes ações ocorrem:

  • Armazena descrições de tabelas e colunas no Knowledge Catalog.
  • Captura consultas e perguntas sugeridas como aspectos reutilizáveis.
  • Torna os insights publicados acessíveis a todos os usuários que têm acesso adequado ao catálogo de dados, garantindo o conhecimento organizacional compartilhado.
  • Permite editar e salvar descrições diretamente no Knowledge Catalog.

Use esse modo para documentação de dados em toda a empresa que persista e seja reutilizável ou ao criar fluxos de trabalho de governança orientados por catálogo.

Gerar sem publicar

Cria insights de dados, como descrições, perguntas em linguagem natural e consultas SQL sob demanda. A opção Gerar sem publicar não publica insights no Knowledge Catalog.

Use esse modo para uma análise rápida e ad hoc e evite poluir o catálogo.

Preços

Para saber mais sobre os preços desse recurso, consulte Visão geral dos preços do Gemini no BigQuery.

Cotas e limites

Para informações sobre cotas e limites desse recurso, consulte Cotas do Gemini no BigQuery.

Locais

É possível usar insights de dados em todos os locais do BigQuery. Para saber onde o Gemini no BigQuery processa seus dados, consulte Onde o Gemini no BigQuery processa seus dados.

Limitações

  • Para clientes multicloud, os dados de outras nuvens não estão disponíveis.
  • Os insights de dados não são compatíveis com os tipos de coluna Geo ou JSON.
  • A execução de insights não garante a apresentação de consultas todas as vezes. Para aumentar a probabilidade de gerar consultas mais engajadoras, gere insights novamente no BigQuery Studio.

A seguir