Gerar insights do conjunto de dados

Neste documento, descrevemos como gerar insights de conjuntos de dados do BigQuery. Os insights de conjuntos de dados ajudam a entender as relações entre tabelas em um conjunto de dados, gerando gráficos de relacionamento e consultas entre tabelas.

Os insights de conjuntos de dados ajudam a acelerar a exploração de conjuntos de dados com várias tabelas, descobrindo e visualizando automaticamente as relações entre tabelas em um gráfico, identificando relações de chave primária e externa e gerando consultas de exemplo entre tabelas. Isso é útil para entender a estrutura de dados sem documentação, descobrir relações definidas pelo esquema, com base no uso ou inferidas por IA entre tabelas e gerar consultas complexas que mesclam várias tabelas.

Para uma visão geral dos insights de tabelas e conjuntos de dados, consulte Visão geral dos insights de dados.

Antes de começar

Os insights de dados são gerados usando o Gemini no BigQuery. Para começar a gerar insights, primeiro você precisa configurar o Gemini no BigQuery.

Ativar APIs

Para usar insights de dados, ative as seguintes APIs no projeto: API Dataplex, API BigQuery e API Gemini para Google Cloud.

Funções necessárias para ativar APIs

Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder papéis.

Ativar as APIs

Para mais informações sobre como ativar a API Gemini para Google Cloud, consulte Ativar a API Gemini para Google Cloud em um Google Cloud projeto.

Concluir uma verificação do perfil de dados

Para melhorar a qualidade dos insights, gere resultados de criação de perfil de dados para tabelas no conjunto de dados.

Funções exigidas

Para conseguir as permissões que você precisa para gerar, gerenciar e recuperar insights de conjuntos de dados, peça ao administrador para conceder a você os seguintes papéis do IAM:

  • Para gerar, gerenciar e recuperar insights:
    • Editor do DataScan Dataplex (roles/dataplex.dataScanEditor) ou Administrador do DataScan Dataplex (roles/dataplex.dataScanAdmin) no projeto
    • Editor de dados do BigQuery (roles/bigquery.dataEditor) em tabelas
    • Usuário do BigQuery (roles/bigquery.user) ou Usuário do BigQuery Studio (roles/bigquery.studioUser) no projeto.
  • Para visualizar insights:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando personalizados papéis ou outros predefinidos papéis.

Para conferir as permissões exatas necessárias para gerar insights, abra a seção Permissões necessárias:

Permissões necessárias

  • bigquery.datasets.get: ler metadados do conjunto de dados
  • bigquery.jobs.create: criar jobs
  • bigquery.tables.get: receber metadados da tabela
  • bigquery.tables.getData: receber dados e metadados da tabela
  • dataplex.datascans.create: criar recurso DataScan
  • dataplex.datascans.get: ler metadados do recurso DataScan
  • dataplex.datascans.getData: ler resultados da execução do DataScan
  • dataplex.datascans.run: executar o DataScan sob demanda

Gerar insights do conjunto de dados

  1. No Google Cloud console, acesse o BigQuery Studio.

    Acessar o BigQuery Studio

  2. No painel Explorer, selecione o projeto e o conjunto de dados para o qual você quer gerar insights.

  3. Clique na guia Insights.

  4. Clique em Gerar.

    Se o conjunto de dados estiver em uma multirregião, talvez seja necessário selecionar uma região para gerar insights. Selecione uma região correspondente à multirregião em que a verificação de insights será criada.

    Leva alguns minutos para que os insights sejam preenchidos. A qualidade de insights melhora se as tabelas no conjunto de dados tiverem resultados de criação de perfil de dados.

Depois que os insights são gerados, o BigQuery mostra uma descrição do conjunto de dados, um gráfico de relacionamento, uma tabela de relacionamento e consultas de exemplo entre tabelas.

Conferir e salvar a descrição do conjunto de dados

O Gemini gera uma descrição em linguagem natural do conjunto de dados, resumindo os tipos de tabelas que ele contém e o domínio de negócios que representa. Para salvar essa descrição nos metadados do conjunto de dados, clique em Salvar nos detalhes.

É possível editar a descrição antes de salvar os detalhes.

Conhecer o gráfico de relacionamento

O gráfico Relacionamentos oferece uma representação visual de como as tabelas no conjunto de dados se relacionam. Ele mostra as 10 tabelas mais conectadas como nós, com linhas representando relações entre elas.

  • Para conferir detalhes do relacionamento, como as colunas que unem duas tabelas, passe o cursor sobre a borda que conecta os nós da tabela.
  • Para reorganizar o gráfico e melhorar a visibilidade, arraste os nós da tabela.

Usar a tabela de relacionamento

A tabela de relacionamento lista as relações descobertas em formato tabular. Cada linha representa uma relação entre duas tabelas, mostrando a tabela e a coluna de origem e a tabela e a coluna de destino. A coluna Origem indica como a relação foi determinada:

  • Inferido pelo LLM. Relações inferidas pelo Gemini, com base em nomes e descrições de tabelas e colunas no conjunto de dados.
  • Com base no uso. Relações extraídas de registros de consulta, com base em junções frequentes.
  • Definido pelo esquema. Relações derivadas de mapeamentos de chave primária e externa existentes no esquema da tabela.

É possível filtrar as relações de uma tabela específica ou fornecer feedback sobre a qualidade das relações detectadas. Para exportar a descrição e as relações geradas do conjunto de dados para um arquivo JSON, clique em Exportar para JSON.

Usar recomendações de consulta

Com base nas relações descobertas, o Gemini gera consultas de exemplo. Essas são perguntas em linguagem natural com consultas SQL correspondentes que mesclam várias tabelas no conjunto de dados.

  1. Para conferir uma consulta SQL, clique em uma pergunta.

  2. Para abrir a consulta no editor de consultas do BigQuery, clique em Copiar para consulta. Em seguida, é possível executar ou modificar a consulta.

  3. Para fazer uma pergunta complementar, clique em Fazer uma pergunta complementar, que abre uma tela de dados sem título em que você pode conversar com o Gemini para explorar seus dados.

A seguir