Gerar insights de conjuntos de dados
Neste documento, descrevemos como gerar insights de conjuntos de dados do BigQuery. Os insights de conjuntos de dados ajudam a entender as relações entre tabelas em um conjunto de dados, gerando gráficos de relacionamento e consultas entre tabelas.
Os insights de conjuntos de dados ajudam a acelerar a exploração de conjuntos de dados com várias tabelas, descobrindo e visualizando automaticamente as relações entre tabelas em um gráfico, identificando relações de chave primária e externa e gerando consultas de exemplo entre tabelas. Isso é útil para entender a estrutura de dados sem documentação, descobrir relações definidas pelo esquema, baseadas no uso ou inferidas por IA entre tabelas e gerar consultas complexas que mesclam várias tabelas.
Para uma visão geral dos insights de tabelas e conjuntos de dados, consulte Visão geral dos insights de dados.
Modos para gerar insights de conjuntos de dados
Ao gerar insights de conjuntos de dados, o BigQuery oferece dois modos:
| Modo | Descrição | Uso |
|---|---|---|
| Gerar e publicar |
Persiste os insights de conjuntos de dados gerados no Knowledge Catalog como aspectos e relações de metadados. Você precisa ter as permissões necessárias para publicar. Quando você usa Gerar e publicar, o BigQuery faz o seguinte:
|
Use esse modo para documentação de dados em toda a empresa que seja persistente e reutilizável ou ao criar fluxos de trabalho de governança orientados por catálogo. |
| Gerar sem publicar |
Cria insights de conjuntos de dados, como descrições, perguntas em linguagem natural, relações e consultas SQL sob demanda. Gerar sem publicar não publica insights no Knowledge Catalog. |
Use esse modo para uma exploração rápida e ad hoc para evitar a desordem do catálogo. |
Antes de começar
Os insights de dados são gerados usando o Gemini no BigQuery. Para começar a gerar insights, primeiro você precisa configurar o Gemini no BigQuery.
Ativar APIs
Para usar insights de dados, ative as seguintes APIs no projeto: API Dataplex, API BigQuery e API Gemini para Google Cloud.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder
papéis.
Para mais informações sobre como ativar a API Gemini para Google Cloud, consulte Ativar a API Gemini para Google Cloud em um Google Cloud projeto.
Concluir uma verificação do perfil de dados
Para melhorar a qualidade dos insights, gere a verificação do perfil de dados para tabelas no conjunto de dados.
Funções exigidas
Para receber as permissões necessárias para gerar, gerenciar e recuperar insights de conjuntos de dados, peça ao administrador para conceder a você os seguintes papéis do IAM:
-
Para gerar, gerenciar e recuperar insights:
- Editor do DataScan Dataplex (
roles/dataplex.dataScanEditor) ou Administrador do DataScan Dataplex (roles/dataplex.dataScanAdmin) no projeto - Editor de dados do BigQuery (
roles/bigquery.dataEditor) em tabelas - Usuário do BigQuery (
roles/bigquery.user) ou Usuário do BigQuery Studio (roles/bigquery.studioUser) no projeto - Visualizador de recursos do BigQuery (
roles/bigquery.resourceViewer) no projeto
- Editor do DataScan Dataplex (
-
Para visualizar insights:
- Leitor de dados do DataScan Dataplex (
roles/dataplex.dataScanDataViewer) no projeto - Visualizador de dados do BigQuery (
roles/bigquery.dataViewer) no conjunto de dados
- Leitor de dados do DataScan Dataplex (
-
Para publicar insights no Knowledge Catalog:
Proprietário de entrada e EntryLink do Dataplex (
roles/dataplex.entryOwner) no grupo de entrada
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando personalizados papéis ou outros predefinidos papéis.
Para conferir as permissões exatas necessárias para gerar insights, abra a seção Permissões necessárias:
Permissões necessárias
bigquery.datasets.get: ler metadados do conjunto de dadosbigquery.jobs.create: criar jobsbigquery.jobs.listAll: listar todos os jobs no projetobigquery.tables.get: receber metadados da tabelabigquery.tables.getData: receber dados e metadados da tabeladataplex.datascans.create: criar recurso DataScandataplex.datascans.get: ler metadados de recursos DataScandataplex.datascans.getData: ler resultados de execução do DataScandataplex.datascans.run: executar DataScan sob demandadataplex.entryGroups.useSchemaJoinEntryLink: usar links de entradaschema-joindataplex.entryGroups.useSchemaJoinAspect: usar aspectos de mesclagem de esquemadataplex.entryLinks.create: criar links de entradadataplex.entryLinks.update: atualizar links de entradadataplex.entryLinks.delete: excluir links de entradadataplex.entries.link: vincular entradasdataplex.entries.update: atualizar entradasdataplex.entryGroups.useDescriptionsAspect: usar aspectos de descriçãodataplex.entryGroups.useQueriesAspect: usar aspectos de consulta
Gerar insights de conjuntos de dados
Console
No Google Cloud console, acesse o BigQuery Studio.
No painel Explorer, selecione o projeto e o conjunto de dados para o qual você quer gerar insights.
Clique na guia Insights.
Para gerar insights e publicá-los no Knowledge Catalog, clique em Gerar e publicar.
Para gerar insights sem publicá-los no Knowledge Catalog, clique em Gerar sem publicar.
Para mais informações sobre as diferenças entre os Gerar e publicar e Gerar sem publicar modos, consulte Modos para gerar insights de conjuntos de dados.
Se o conjunto de dados estiver em uma multirregião, talvez seja necessário selecionar uma região para gerar insights. Selecione uma região correspondente à multirregião em que a verificação de insights será criada.
Leva alguns minutos para que os insights sejam preenchidos. A qualidade de insights melhora se as tabelas no conjunto de dados tiverem resultados de criação de perfil de dados.
Depois que os insights são gerados, o BigQuery mostra uma descrição do conjunto de dados, um gráfico de relacionamento, uma tabela de relacionamento e consultas de exemplo entre tabelas.
REST
Para gerar insights de maneira programática, use a API DataScans do Knowledge Catalog. Para isso, siga as seguintes etapas:
- Gerar uma verificação de dados de documentação de dados para o conjunto de dados do BigQuery
- Verificar o status da verificação de documentação de dados
- Verificar a publicação no Knowledge Catalog
Gerar uma verificação de dados de documentação de dados para o conjunto de dados do BigQuery
Crie uma verificação de dados de documentação de dados usando o
dataScans.createmétodo. Opcionalmente, é possível publicar esses insights no Knowledge Catalog definindo o parâmetrocatalog_publishing_enabledcomotrue.Exemplo:
alias gcurl='curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json"' gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans?dataScanId=DATASCAN_ID \ -d '{ "data": { "resource": "//bigquery.googleapis.com/projects/PROJECT_ID/datasets/DATASET_ID" }, "executionSpec": { "trigger": { "onDemand": {} } }, "type": "DATA_DOCUMENTATION", "dataDocumentationSpec": { "catalog_publishing_enabled": true } }'Substitua:
- PROJECT_ID: o ID do seu Google Cloud projeto em que o conjunto de dados reside
- LOCATION: a região em que a verificação de dados é executada
- DATASCAN_ID: um nome exclusivo fornecido para essa verificação
- DATASET_ID: o ID do conjunto de dados do BigQuery que está sendo verificado
Inicie o job de verificação de documentação de dados usando o
dataScans.runmétodo.Exemplo:
gcurl -X POST \ https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/\ dataScans/DATASCAN_ID:runEssa solicitação retorna um ID de job exclusivo com o estado inicial.
Verificar o status da verificação de documentação de dados
Verifique a conclusão da execução do job de verificação usando o
dataScans.get método.
Para recuperar os resultados completos, incluindo os insights e o status de publicação, defina o parâmetro view como FULL.
Use o ID do job para buscar o status dele. Exemplo:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/dataScans/DATASCAN_ID/jobs/JOB_ID?view=FULL
O job é concluído quando o status é SUCCEEDED ou FAILURE.
Uma resposta de job bem-sucedida contém os insights gerados no campo dataDocumentationResult.
Verificar a publicação no Knowledge Catalog
Se catalog_publishing_enabled estiver definido como true, os insights serão publicados no Knowledge Catalog de forma assíncrona após a conclusão do job de verificação de dados. Para verificar se os insights foram mantidos, use a API Dataplex para inspecionar os aspectos do conjunto de dados.
Embora os insights sejam gerados na verificação de dados do conjunto de dados, os links de entrada resultantes são armazenados entre as tabelas que eles conectam. Para verificar essas
relações, use o
lookupEntryLinks método
para recuperar os links de entrada associados a uma entrada de tabela específica.
Para recuperar metadados do conjunto de dados do BigQuery, use o
entries.get método.
Para incluir todos os aspectos, defina o parâmetro view como FULL. Exemplo:
gcurl -X GET https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entries/bigquery.googleapis.com/projects/DATASET_PROJECT_ID/datasets/DATASET_ID?view=FULL
Substitua:
- PROJECT_ID: o ID do seu Google Cloud projeto em que o DataScan foi configurado
- LOCATION: a região em que o grupo de entrada reside
- DATASET_PROJECT_ID: o ID do Google Cloud projeto em que o conjunto de dados do BigQuery reside
- DATASET: o ID do conjunto de dados do BigQuery
Se a publicação no Knowledge Catalog for bem-sucedida, os seguintes aspectos serão anexados ao conjunto de dados do BigQuery:
- Descrições: contém descrições do conjunto de dados geradas por IA
- Consultas: contém consultas SQL relevantes relacionadas ao conjunto de dados
- Relações: persistidas como links de entrada entre as tabelas presentes no conjunto de dados
Conferir e salvar a descrição do conjunto de dados
O Gemini gera uma descrição em linguagem natural do conjunto de dados, resumindo os tipos de tabelas que ele contém e o domínio de negócios que representa. Para salvar essa descrição nos metadados do conjunto de dados, clique em Salvar nos detalhes.
É possível editar a descrição antes de salvar os detalhes.
Conhecer o gráfico de relacionamento
O gráfico Relações fornece uma representação visual de como as tabelas no conjunto de dados se relacionam. Ele mostra as 10 tabelas mais conectadas como nós, com linhas representando relações entre elas.
- Para conferir detalhes do relacionamento, como as colunas que unem duas tabelas, passe o cursor sobre a borda que conecta os nós da tabela.
- Para reorganizar o gráfico e melhorar a visibilidade, arraste os nós da tabela.
Usar a tabela de relacionamento
A tabela de relacionamento lista as relações descobertas em formato tabular. Cada linha representa uma relação entre duas tabelas, mostrando a tabela e a coluna de origem e a tabela e a coluna de destino. A coluna Origem indica como a relação foi determinada:
- Inferido pelo LLM. Relações inferidas pelo Gemini, com base nos nomes e descrições de tabelas e colunas em todo o conjunto de dados.
- Com base no uso. Relações extraídas de registros de consulta, com base em mesclagens frequentes.
- Definido pelo esquema. Relações derivadas de mapeamentos de chave primária e externa existentes no esquema da tabela.
É possível filtrar as relações de uma tabela específica ou fornecer feedback sobre a qualidade das relações detectadas. Para exportar a descrição e as relações do conjunto de dados gerado para um arquivo JSON, clique em Exportar para JSON.
Usar recomendações de consulta
Com base nas relações descobertas, o Gemini gera consultas de exemplo. Essas são perguntas em linguagem natural com consultas SQL correspondentes que mesclam várias tabelas no conjunto de dados.
Para conferir uma consulta SQL, clique em uma pergunta.
Para abrir a consulta no editor de consultas do BigQuery, clique em Copiar para consulta. Em seguida, é possível executar ou modificar a consulta.
Para fazer uma pergunta complementar, clique em Fazer uma pergunta complementar, que abre uma tela de dados sem título em que você pode conversar com o Gemini para explorar seus dados.
Gerenciar insights gerados
Depois de gerar insights para um conjunto de dados, é possível gerenciá-los, atualizá-los ou excluí-los no Knowledge Catalog. Para mais informações, consulte Gerenciar insights de conjuntos de dados.
A seguir
- Saiba mais sobre a visão geral dos insights de dados.
- Saiba como gerar insights de tabelas.
- Saiba mais sobre a criação de perfil de dados do Knowledge Catalog.