Gerar insights do conjunto de dados
Neste documento, descrevemos como gerar insights de conjuntos de dados do BigQuery. Os insights de conjuntos de dados ajudam a entender as relações entre tabelas em um conjunto de dados, gerando gráficos de relacionamento e consultas entre tabelas.
Os insights de conjuntos de dados ajudam a acelerar a exploração de conjuntos de dados com várias tabelas, descobrindo e visualizando automaticamente as relações entre tabelas em um gráfico, identificando relações de chave primária e externa e gerando consultas de exemplo entre tabelas. Isso é útil para entender a estrutura de dados sem documentação, descobrir relações definidas pelo esquema, com base no uso ou inferidas por IA entre tabelas e gerar consultas complexas que mesclam várias tabelas.
Para uma visão geral dos insights de tabelas e conjuntos de dados, consulte Visão geral dos insights de dados.
Antes de começar
Os insights de dados são gerados usando o Gemini no BigQuery. Para começar a gerar insights, primeiro você precisa configurar o Gemini no BigQuery.
Ativar APIs
Para usar insights de dados, ative as seguintes APIs no projeto: API Dataplex, API BigQuery e API Gemini para Google Cloud.
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder
papéis.
Para mais informações sobre como ativar a API Gemini para Google Cloud, consulte Ativar a API Gemini para Google Cloud em um Google Cloud projeto.
Concluir uma verificação do perfil de dados
Para melhorar a qualidade dos insights, gere resultados de criação de perfil de dados para tabelas no conjunto de dados.
Funções exigidas
Para conseguir as permissões que você precisa para gerar, gerenciar e recuperar insights de conjuntos de dados, peça ao administrador para conceder a você os seguintes papéis do IAM:
-
Para gerar, gerenciar e recuperar insights:
-
Editor do DataScan Dataplex (
roles/dataplex.dataScanEditor) ou Administrador do DataScan Dataplex (roles/dataplex.dataScanAdmin) no projeto -
Editor de dados do BigQuery (
roles/bigquery.dataEditor) em tabelas -
Usuário do BigQuery (
roles/bigquery.user) ou Usuário do BigQuery Studio (roles/bigquery.studioUser) no projeto.
-
Editor do DataScan Dataplex (
-
Para visualizar insights:
-
Leitor de dados do DataScan Dataplex (
roles/dataplex.dataScanDataViewer) no projeto -
Visualizador de dados do BigQuery (
roles/bigquery.dataViewer) no conjunto de dados
-
Leitor de dados do DataScan Dataplex (
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando personalizados papéis ou outros predefinidos papéis.
Para conferir as permissões exatas necessárias para gerar insights, abra a seção Permissões necessárias:
Permissões necessárias
bigquery.datasets.get: ler metadados do conjunto de dadosbigquery.jobs.create: criar jobsbigquery.tables.get: receber metadados da tabelabigquery.tables.getData: receber dados e metadados da tabeladataplex.datascans.create: criar recurso DataScandataplex.datascans.get: ler metadados do recurso DataScandataplex.datascans.getData: ler resultados da execução do DataScandataplex.datascans.run: executar o DataScan sob demanda
Gerar insights do conjunto de dados
No Google Cloud console, acesse o BigQuery Studio.
No painel Explorer, selecione o projeto e o conjunto de dados para o qual você quer gerar insights.
Clique na guia Insights.
Clique em Gerar.
Se o conjunto de dados estiver em uma multirregião, talvez seja necessário selecionar uma região para gerar insights. Selecione uma região correspondente à multirregião em que a verificação de insights será criada.
Leva alguns minutos para que os insights sejam preenchidos. A qualidade de insights melhora se as tabelas no conjunto de dados tiverem resultados de criação de perfil de dados.
Depois que os insights são gerados, o BigQuery mostra uma descrição do conjunto de dados, um gráfico de relacionamento, uma tabela de relacionamento e consultas de exemplo entre tabelas.
Conferir e salvar a descrição do conjunto de dados
O Gemini gera uma descrição em linguagem natural do conjunto de dados, resumindo os tipos de tabelas que ele contém e o domínio de negócios que representa. Para salvar essa descrição nos metadados do conjunto de dados, clique em Salvar nos detalhes.
É possível editar a descrição antes de salvar os detalhes.
Conhecer o gráfico de relacionamento
O gráfico Relacionamentos oferece uma representação visual de como as tabelas no conjunto de dados se relacionam. Ele mostra as 10 tabelas mais conectadas como nós, com linhas representando relações entre elas.
- Para conferir detalhes do relacionamento, como as colunas que unem duas tabelas, passe o cursor sobre a borda que conecta os nós da tabela.
- Para reorganizar o gráfico e melhorar a visibilidade, arraste os nós da tabela.
Usar a tabela de relacionamento
A tabela de relacionamento lista as relações descobertas em formato tabular. Cada linha representa uma relação entre duas tabelas, mostrando a tabela e a coluna de origem e a tabela e a coluna de destino. A coluna Origem indica como a relação foi determinada:
- Inferido pelo LLM. Relações inferidas pelo Gemini, com base em nomes e descrições de tabelas e colunas no conjunto de dados.
- Com base no uso. Relações extraídas de registros de consulta, com base em junções frequentes.
- Definido pelo esquema. Relações derivadas de mapeamentos de chave primária e externa existentes no esquema da tabela.
É possível filtrar as relações de uma tabela específica ou fornecer feedback sobre a qualidade das relações detectadas. Para exportar a descrição e as relações geradas do conjunto de dados para um arquivo JSON, clique em Exportar para JSON.
Usar recomendações de consulta
Com base nas relações descobertas, o Gemini gera consultas de exemplo. Essas são perguntas em linguagem natural com consultas SQL correspondentes que mesclam várias tabelas no conjunto de dados.
Para conferir uma consulta SQL, clique em uma pergunta.
Para abrir a consulta no editor de consultas do BigQuery, clique em Copiar para consulta. Em seguida, é possível executar ou modificar a consulta.
Para fazer uma pergunta complementar, clique em Fazer uma pergunta complementar, que abre uma tela de dados sem título em que você pode conversar com o Gemini para explorar seus dados.
A seguir
- Saiba mais sobre a visão geral dos insights de dados.
- Saiba como gerar insights de tabelas.
- Saiba mais sobre a criação de perfil de dados do Knowledge Catalog.