Gerar insights de conjuntos de dados

Neste documento, descrevemos como gerar insights de conjuntos de dados do BigQuery. Os insights de conjuntos de dados ajudam a entender as relações entre tabelas em um conjunto de dados, gerando gráficos de relacionamento e consultas entre tabelas.

Os insights de conjuntos de dados ajudam a acelerar a exploração de conjuntos de dados com várias tabelas, descobrindo e visualizando automaticamente as relações entre tabelas em um gráfico, identificando relações de chave primária e externa e gerando consultas de exemplo entre tabelas. Isso é útil para entender a estrutura de dados sem documentação, descobrir relações definidas pelo esquema, baseadas no uso ou inferidas por IA entre tabelas e gerar consultas complexas que mesclam várias tabelas.

Para uma visão geral dos insights de tabelas e conjuntos de dados, consulte Visão geral dos insights de dados.

Modos para gerar insights de conjuntos de dados

Ao gerar insights de conjuntos de dados, o BigQuery oferece dois modos:

Modo Descrição Uso
Gerar e publicar

Persiste os insights de conjuntos de dados gerados no Knowledge Catalog como aspectos e relações de metadados. Você precisa ter as permissões necessárias para publicar. Quando você usa Gerar e publicar, o BigQuery faz o seguinte:

  • Armazena a descrição do conjunto de dados no Knowledge Catalog.
  • Captura consultas e perguntas sugeridas como aspectos reutilizáveis
  • Captura relações como metadados no Knowledge Catalog.
  • Torna os insights publicados acessíveis a todos os usuários que têm acesso adequado ao Knowledge Catalog, garantindo o conhecimento organizacional compartilhado.
  • Permite editar e salvar descrições diretamente em Knowledge Catalog usando a API. É possível editar as consultas sugeridas usando o Google Cloud console.

Use esse modo para documentação de dados em toda a empresa que seja persistente e reutilizável ou ao criar fluxos de trabalho de governança orientados por catálogo.

Gerar sem publicar

Cria insights de conjuntos de dados, como descrições, perguntas em linguagem natural, relações e consultas SQL sob demanda. Gerar sem publicar não publica insights no Knowledge Catalog.

Use esse modo para uma exploração rápida e ad hoc para evitar a desordem do catálogo.

Antes de começar

Os insights de dados são gerados usando o Gemini no BigQuery. Para começar a gerar insights, primeiro você precisa configurar o Gemini no BigQuery.

Ativar APIs

Para usar insights de dados, ative as seguintes APIs no projeto: API Dataplex, API BigQuery e API Gemini para Google Cloud.

Funções necessárias para ativar APIs

Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder papéis.

Ativar as APIs

Para mais informações sobre como ativar a API Gemini para Google Cloud, consulte Ativar a API Gemini para Google Cloud em um Google Cloud projeto.

Concluir uma verificação do perfil de dados

Para melhorar a qualidade dos insights, gere a verificação do perfil de dados para tabelas no conjunto de dados.

Funções exigidas

Para receber as permissões necessárias para gerar, gerenciar e recuperar insights de conjuntos de dados, peça ao administrador para conceder a você os seguintes papéis do IAM:

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando personalizados papéis ou outros predefinidos papéis.

Para conferir as permissões exatas necessárias para gerar insights, abra a seção Permissões necessárias:

Permissões necessárias

  • bigquery.datasets.get: ler metadados do conjunto de dados
  • bigquery.jobs.create: criar jobs
  • bigquery.jobs.listAll: listar todos os jobs no projeto
  • bigquery.tables.get: receber metadados da tabela
  • bigquery.tables.getData: receber dados e metadados da tabela
  • dataplex.datascans.create: criar recurso DataScan
  • dataplex.datascans.get: ler metadados de recursos DataScan
  • dataplex.datascans.getData: ler resultados de execução do DataScan
  • dataplex.datascans.run: executar DataScan sob demanda
  • dataplex.entryGroups.useSchemaJoinEntryLink: usar links de entrada schema-join
  • dataplex.entryGroups.useSchemaJoinAspect: usar aspectos de mesclagem de esquema
  • dataplex.entryLinks.create: criar links de entrada
  • dataplex.entryLinks.update: atualizar links de entrada
  • dataplex.entryLinks.delete: excluir links de entrada
  • dataplex.entries.link: vincular entradas
  • dataplex.entries.update: atualizar entradas
  • dataplex.entryGroups.useDescriptionsAspect: usar aspectos de descrição
  • dataplex.entryGroups.useQueriesAspect: usar aspectos de consulta

Gerar insights de conjuntos de dados

Console

  1. No Google Cloud console, acesse o BigQuery Studio.

    Acessar o BigQuery Studio

  2. No painel Explorer, selecione o projeto e o conjunto de dados para o qual você quer gerar insights.

  3. Clique na guia Insights.

  4. Para gerar insights e publicá-los no Knowledge Catalog, clique em Gerar e publicar.

    Para gerar insights sem publicá-los no Knowledge Catalog, clique em Gerar sem publicar.

    Para mais informações sobre as diferenças entre os Gerar e publicar e Gerar sem publicar modos, consulte Modos para gerar insights de conjuntos de dados.

  5. Se o conjunto de dados estiver em uma multirregião, talvez seja necessário selecionar uma região para gerar insights. Selecione uma região correspondente à multirregião em que a verificação de insights será criada.

    Leva alguns minutos para que os insights sejam preenchidos. A qualidade de insights melhora se as tabelas no conjunto de dados tiverem resultados de criação de perfil de dados.

Depois que os insights são gerados, o BigQuery mostra uma descrição do conjunto de dados, um gráfico de relacionamento, uma tabela de relacionamento e consultas de exemplo entre tabelas.

REST

Para gerar insights de maneira programática, use a API DataScans do Knowledge Catalog. Para isso, siga as seguintes etapas:

  1. Gerar uma verificação de dados de documentação de dados para o conjunto de dados do BigQuery
  2. Verificar o status da verificação de documentação de dados
  3. Verificar a publicação no Knowledge Catalog

Gerar uma verificação de dados de documentação de dados para o conjunto de dados do BigQuery

  1. Crie uma verificação de dados de documentação de dados usando o dataScans.create método. Opcionalmente, é possível publicar esses insights no Knowledge Catalog definindo o parâmetro catalog_publishing_enabled como true.

    Exemplo:

    alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"'
    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans?dataScanId=DATASCAN_ID \
    -d '{
      "data": {
        "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID"
      },
      "executionSpec": {
        "trigger": { "onDemand": {} }
      },
      "type": "DATA_DOCUMENTATION",
      "dataDocumentationSpec": {
        "catalog_publishing_enabled": true
      }
    }'
    

    Substitua:

    • PROJECT_ID: o ID do seu Google Cloud projeto em que o conjunto de dados reside
    • LOCATION: a região em que a verificação de dados é executada
    • DATASCAN_ID: um nome exclusivo fornecido para essa verificação
    • DATASET_ID: o ID do conjunto de dados do BigQuery que está sendo verificado
  2. Inicie o job de verificação de documentação de dados usando o dataScans.run método.

    Exemplo:

    gcurl -X POST \
    https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\
    dataScans/DATASCAN_ID:run
    

    Essa solicitação retorna um ID de job exclusivo com o estado inicial.

Verificar o status da verificação de documentação de dados

Verifique a conclusão da execução do job de verificação usando o dataScans.get método. Para recuperar os resultados completos, incluindo os insights e o status de publicação, defina o parâmetro view como FULL.

Use o ID do job para buscar o status dele. Exemplo:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL

O job é concluído quando o status é SUCCEEDED ou FAILURE.

Uma resposta de job bem-sucedida contém os insights gerados no campo dataDocumentationResult.

Verificar a publicação no Knowledge Catalog

Se catalog_publishing_enabled estiver definido como true, os insights serão publicados no Knowledge Catalog de forma assíncrona após a conclusão do job de verificação de dados. Para verificar se os insights foram mantidos, use a API Dataplex para inspecionar os aspectos do conjunto de dados.

Embora os insights sejam gerados na verificação de dados do conjunto de dados, os links de entrada resultantes são armazenados entre as tabelas que eles conectam. Para verificar essas relações, use o lookupEntryLinks método para recuperar os links de entrada associados a uma entrada de tabela específica.

Para recuperar metadados do conjunto de dados do BigQuery, use o entries.get método. Para incluir todos os aspectos, defina o parâmetro view como FULL. Exemplo:

gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL

Substitua:

  • PROJECT_ID: o ID do seu Google Cloud projeto em que o DataScan foi configurado
  • LOCATION: a região em que o grupo de entrada reside
  • DATASET_PROJECT_ID: o ID do Google Cloud projeto em que o conjunto de dados do BigQuery reside
  • DATASET: o ID do conjunto de dados do BigQuery

Se a publicação no Knowledge Catalog for bem-sucedida, os seguintes aspectos serão anexados ao conjunto de dados do BigQuery:

  • Descrições: contém descrições do conjunto de dados geradas por IA
  • Consultas: contém consultas SQL relevantes relacionadas ao conjunto de dados
  • Relações: persistidas como links de entrada entre as tabelas presentes no conjunto de dados

Conferir e salvar a descrição do conjunto de dados

O Gemini gera uma descrição em linguagem natural do conjunto de dados, resumindo os tipos de tabelas que ele contém e o domínio de negócios que representa. Para salvar essa descrição nos metadados do conjunto de dados, clique em Salvar nos detalhes.

É possível editar a descrição antes de salvar os detalhes.

Conhecer o gráfico de relacionamento

O gráfico Relações fornece uma representação visual de como as tabelas no conjunto de dados se relacionam. Ele mostra as 10 tabelas mais conectadas como nós, com linhas representando relações entre elas.

  • Para conferir detalhes do relacionamento, como as colunas que unem duas tabelas, passe o cursor sobre a borda que conecta os nós da tabela.
  • Para reorganizar o gráfico e melhorar a visibilidade, arraste os nós da tabela.

Usar a tabela de relacionamento

A tabela de relacionamento lista as relações descobertas em formato tabular. Cada linha representa uma relação entre duas tabelas, mostrando a tabela e a coluna de origem e a tabela e a coluna de destino. A coluna Origem indica como a relação foi determinada:

  • Inferido pelo LLM. Relações inferidas pelo Gemini, com base nos nomes e descrições de tabelas e colunas em todo o conjunto de dados.
  • Com base no uso. Relações extraídas de registros de consulta, com base em mesclagens frequentes.
  • Definido pelo esquema. Relações derivadas de mapeamentos de chave primária e externa existentes no esquema da tabela.

É possível filtrar as relações de uma tabela específica ou fornecer feedback sobre a qualidade das relações detectadas. Para exportar a descrição e as relações do conjunto de dados gerado para um arquivo JSON, clique em Exportar para JSON.

Usar recomendações de consulta

Com base nas relações descobertas, o Gemini gera consultas de exemplo. Essas são perguntas em linguagem natural com consultas SQL correspondentes que mesclam várias tabelas no conjunto de dados.

  1. Para conferir uma consulta SQL, clique em uma pergunta.

  2. Para abrir a consulta no editor de consultas do BigQuery, clique em Copiar para consulta. Em seguida, é possível executar ou modificar a consulta.

  3. Para fazer uma pergunta complementar, clique em Fazer uma pergunta complementar, que abre uma tela de dados sem título em que você pode conversar com o Gemini para explorar seus dados.

Gerenciar insights gerados

Depois de gerar insights para um conjunto de dados, é possível gerenciá-los, atualizá-los ou excluí-los no Knowledge Catalog. Para mais informações, consulte Gerenciar insights de conjuntos de dados.

A seguir