Gerar insights de conjunto de dados
Neste documento, descrevemos como gerar insights de conjuntos de dados para conjuntos de dados do BigQuery. Com os insights de conjunto de dados, você entende as relações entre tabelas em um conjunto de dados gerando gráficos de relacionamento e consultas entre tabelas.
Com os insights de conjunto de dados, você acelera a análise de conjuntos de dados com várias tabelas. Isso porque eles descobrem e visualizam automaticamente as relações entre tabelas em um gráfico, identificam relações de chave primária e externa e geram exemplos de consultas entre tabelas. Isso é útil para entender a estrutura de dados sem documentação, descobrir relacionamentos entre tabelas definidos por esquema, com base no uso ou inferidos por IA e gerar consultas complexas que combinam várias tabelas.
Para uma visão geral das informações sobre tabelas e conjuntos de dados, consulte Visão geral das informações de dados.
Antes de começar
Os insights de dados são gerados usando o Gemini no BigQuery. Para começar a gerar insights, primeiro você precisa configurar o Gemini no BigQuery.
Ativar APIs
Para usar insights de dados, ative as seguintes APIs no seu projeto: API Dataplex, API BigQuery e API Gemini para Google Cloud.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
Para mais informações sobre como ativar a API Gemini para Google Cloud, consulte Ativar a API Gemini para Google Cloud em um Google Cloud projeto.
Concluir uma verificação do perfil de dados
Para melhorar a qualidade dos insights, gere resultados de criação de perfil de dados para tabelas no seu conjunto de dados.
Funções exigidas
Para receber as permissões necessárias para gerar, gerenciar e recuperar insights de conjuntos de dados, peça ao administrador para conceder a você os seguintes papéis do IAM:
-
Para gerar, gerenciar e recuperar insights:
-
Editor do DataScan Dataplex (
roles/dataplex.dataScanEditor) ou administrador do DataScan Dataplex (roles/dataplex.dataScanAdmin) no projeto -
Editor de dados do BigQuery (
roles/bigquery.dataEditor) em tabelas -
Usuário do BigQuery (
roles/bigquery.user) ou do BigQuery Studio (roles/bigquery.studioUser) no projeto.
-
Editor do DataScan Dataplex (
-
Para ver insights:
-
Leitor de dados do DataScan Dataplex (
roles/dataplex.dataScanDataViewer) no projeto -
Leitor de dados do BigQuery (
roles/bigquery.dataViewer) no conjunto de dados
-
Leitor de dados do DataScan Dataplex (
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.
Para conferir as permissões exatas necessárias para gerar insights, abra a seção Permissões necessárias:
Permissões necessárias
bigquery.datasets.get: ler metadados do conjunto de dadosbigquery.jobs.create: criar jobsbigquery.tables.get: receber metadados da tabelabigquery.tables.getData: receber dados e metadados da tabeladataplex.datascans.create: criar recurso DataScandataplex.datascans.get: ler metadados de recursos DataScandataplex.datascans.getData: ler os resultados da execução de DataScandataplex.datascans.run: executar DataScan sob demanda
Gerar insights de conjunto de dados
No Google Cloud console, acesse o BigQuery Studio.
No painel Explorador, selecione o projeto e o conjunto de dados para os quais você quer gerar insights.
Clique na guia Insights.
Clique em Gerar.
Se o conjunto de dados estiver em uma multirregião, talvez seja necessário selecionar uma região para gerar insights. Selecione uma região correspondente à multirregião em que a análise de insights será criada.
Leva alguns minutos para que os insights sejam preenchidos. A qualidade dos insights melhora se as tabelas no conjunto de dados tiverem resultados de criação de perfil de dados.
Depois que os insights são gerados, o BigQuery mostra uma descrição do conjunto de dados, um gráfico e uma tabela de relações e exemplos de consultas entre tabelas.
Ver e salvar a descrição do conjunto de dados
O Gemini gera uma descrição em linguagem natural do conjunto de dados, resumindo os tipos de tabelas que ele contém e o domínio de negócios que representa. Para salvar essa descrição nos metadados do conjunto de dados, clique em Salvar nos detalhes.
Você pode editar a descrição antes de salvar os detalhes.
Analisar o gráfico de relacionamento
O gráfico Relações oferece uma representação visual de como as tabelas no conjunto de dados se relacionam. Ela mostra as 10 tabelas mais conectadas como nós, com linhas representando as relações entre elas.
- Para conferir detalhes da relação, como as colunas que unem duas tabelas, passe o cursor sobre a borda que conecta os nós da tabela.
- Para reorganizar o gráfico e melhorar a visibilidade, arraste os nós da tabela.
Usar a tabela de relacionamento
A tabela de relações lista as relações descobertas em um formato tabular. Cada linha representa uma relação entre duas tabelas, mostrando a tabela e a coluna de origem e a tabela e a coluna de destino. A coluna Origem indica como a relação foi determinada:
- Inferido pelo LLM. Relações inferidas pelo Gemini com base nos nomes e descrições de tabelas e colunas no conjunto de dados.
- Com base no uso Relações extraídas de registros de consulta, com base em junções frequentes.
- Definido pelo esquema. Relacionamentos derivados de mapeamentos de chave primária e externa no esquema da tabela.
É possível filtrar as relações de uma tabela específica ou enviar feedback sobre a qualidade das relações detectadas. Para exportar a descrição e os relacionamentos do conjunto de dados gerado para um arquivo JSON, clique em Exportar para JSON.
Usar recomendações de consulta
Com base nas relações descobertas, o Gemini gera exemplos de consultas. São perguntas em linguagem natural com consultas SQL correspondentes que mesclam várias tabelas no conjunto de dados.
Para ver uma consulta SQL, clique em uma pergunta.
Para abrir a consulta no editor de consultas do BigQuery, clique em Copiar para consulta. Em seguida, execute ou modifique a consulta.
Para fazer uma pergunta complementar, clique em Fazer uma pergunta complementar, que abre uma tela de dados sem título em que você pode conversar com o Gemini para analisar seus dados.
A seguir
- Saiba mais sobre a visão geral dos insights de dados.
- Saiba como gerar insights de tabela.
- Saiba mais sobre a criação de perfil de dados do Dataplex Universal Catalog.