Neste documento, explicamos como gerar, visualizar e gerenciar insights de dados para seus dados estruturados. Usar insights de dados com tecnologia de IA ajuda a acelerar a análise de dados gerando automaticamente descrições, gráficos de relacionamento e consultas SQL com base nos metadados da tabela e do conjunto de dados.
No BigQuery Studio, é possível gerar insights de dados para conjuntos de dados, tabelas, visualizações, tabelas do Lakehouse e tabelas externas do BigQuery. Google Cloud
No Knowledge Catalog, é possível gerar insights de dados para tabelas do catálogo REST do Lakehouse Iceberg.
Antes de começar
Antes de usar os insights de dados, verifique se você concluiu os seguintes pré-requisitos:
Funções exigidas
Para receber as permissões necessárias para usar insights de dados, peça ao administrador para conceder a você os seguintes papéis do IAM:
-
Receba acesso somente leitura aos insights gerados:
Leitor de dados do DataScan Dataplex (
roles/dataplex.dataScanDataViewer) no projeto que contém o recurso -
Ler dados da tabela do catálogo REST do Iceberg:
Leitor do BigLake (
roles/biglake.viewer) no recurso -
Publicar descrições como aspectos:
Editor do catálogo do Dataplex (
roles/dataplex.catalogEditor) no recurso -
Publicar consultas como aspectos:
Proprietário de entradas e links de entradas do Dataplex (
roles/dataplex.entryOwner) no recurso
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esses papéis predefinidos contêm as permissões necessárias para usar os insights de dados. Para acessar as permissões exatas necessárias, expanda a seção Permissões necessárias:
Permissões necessárias
As permissões a seguir são necessárias para usar insights de dados:
-
dataplex.datascans.create -
dataplex.datascans.get -
dataplex.datascans.getData -
dataplex.datascans.run
Essas permissões também podem ser concedidas com funções personalizadas ou outros papéis predefinidos.
Ativar APIs
Para usar insights de dados, ative as seguintes APIs no seu projeto:
- API Dataplex
- API BigQuery
- API Gemini para Google Cloud
Funções necessárias para ativar APIs
Para ativar as APIs, é necessário ter o papel do IAM de administrador de uso do serviço (roles/serviceusage.serviceUsageAdmin), que contém a permissão serviceusage.services.enable. Saiba como conceder
papéis.
Para mais informações sobre como ativar a API Gemini para Google Cloud, consulte Ativar a API Gemini para Google Cloud em um Google Cloud projeto.
Preparar dados
Para tabelas Google Cloud Lakehouse, verifique se os dados estão no Cloud Storage e se você criou uma tabela Google Cloud Lakehouse.
Para tabelas do catálogo REST do Iceberg, verifique se elas estão registradas no catálogo de ambientes de execução do Lakehouse.
Gerar insights no BigQuery
Os insights de dados para conjuntos de dados, tabelas, visualizações, tabelas doGoogle Cloud Lakehouse e tabelas externas do BigQuery são gerados usando o Gemini no BigQuery e só podem ser gerados no BigQuery Studio.
Primeiro, configure o Gemini no BigQuery e gere insights. Depois de gerar insights, você pode conferir e modificar no Knowledge Catalog.
Para mais informações sobre como gerar insights no BigQuery, consulte os seguintes documentos:
Gerar insights para tabelas do catálogo REST do Iceberg
No console Google Cloud , acesse a página Pesquisa do Knowledge Catalog.
Em Filtros, selecione Lakehouse.
Selecione a tabela do catálogo REST do Iceberg para gerar insights.
Clique na guia Insights. Se a guia estiver vazia, isso significa que os insights da tabela ainda não foram gerados.
Para gerar insights e anexá-los permanentemente à tabela como aspectos, clique em Gerar e publicar. Isso torna os insights indexáveis, pesquisáveis e visíveis para outros usuários na sua organização no Knowledge Catalog.
Para gerar insights e visualizá-los temporariamente durante a sessão atual, clique em Gerar sem publicar. Use essa opção se você só precisar de uma análise rápida dos dados sem salvar os metadados no Knowledge Catalog.
Para mais informações sobre as diferenças entre os modos Gerar e publicar e Gerar sem publicar, consulte Modos para gerar insights de dados.
Selecione uma região para gerar insights e clique em Gerar.
Leva alguns minutos para que os insights sejam preenchidos.
Clique na guia Insights e analise o seguinte:
- Descrições: são os resumos gerados por IA que explicam a finalidade da tabela e detalham colunas específicas.
- Exemplos de consultas: é a lista de consultas SQL personalizadas projetadas especificamente para o esquema e o conteúdo do seu conjunto de dados.
Para conferir a consulta SQL que responde a uma pergunta, clique nela.
Analisar os insights gerados para um recurso
Para conferir os insights gerados de um recurso, siga estas etapas:
No console Google Cloud , acesse a página Pesquisa do Knowledge Catalog.
Pesquise o recurso para o qual você quer ver insights.
Nos resultados da pesquisa, clique no recurso para abrir a página de detalhes da entrada.
Analise as Descrições e Consultas geradas para o recurso selecionado.
Para ver os gráficos de relacionamento e entender como os pontos de dados se conectam, clique na guia Relacionamentos (prévia). Só é possível ver relações no nível da tabela, não no nível do conjunto de dados.
Gerenciar insights da tabela
Depois de gerar e publicar insights de tabela, você pode revisar e gerenciar esses dados como aspectos de metadados no Knowledge Catalog. Os insights no nível da tabela incluem descrições de tabelas e colunas, além de exemplos de consultas.
Atualizar as descrições geradas de uma tabela
Só é possível atualizar as descrições de tabelas e colunas usando a API Dataplex. Para fazer isso, use o método entries.patch.
Atualizar consultas geradas para uma tabela
É possível atualizar as consultas geradas para uma tabela usando o console Google Cloud e a API Dataplex.
Console
Pesquise a tabela em que você quer atualizar as consultas geradas.
Nos resultados da pesquisa, clique na tabela para abrir a página de detalhes da entrada.
Na seção Consultas, clique em Editar.
Atualize a descrição da consulta conforme necessário.
Gerenciar a propriedade: por padrão, a Origem é definida como Agente. Se você modificar uma consulta e mudar a origem para Usuário, as gerações de insights subsequentes não vão substituir suas mudanças. Se a Fonte permanecer Agente, a consulta poderá ser substituída durante uma regeneração.
Gerenciar substituições: para evitar que todas as consultas sejam substituídas durante uma nova execução, defina a opção Gerenciado pelo usuário como Verdadeiro. Isso se aplica a todo o conjunto de consultas para esse aspecto de metadados, garantindo que nenhuma mudança manual seja perdida.
REST
Para atualizar consultas de uma tabela, use o método entries.patch.
Atualizar relações geradas para uma tabela
Só é possível atualizar relacionamentos usando a API Dataplex. Para fazer isso, use o método entries.patch.
Gerenciar insights do conjunto de dados
Os insights no nível do conjunto de dados se concentram em descrições de alto nível e consultas em todo o conjunto de dados.
Atualizar descrições geradas para um conjunto de dados
Só é possível atualizar as descrições de conjuntos de dados usando a API Dataplex. Para fazer isso, use o método entries.patch.
Atualizar consultas geradas para um conjunto de dados
É possível atualizar as consultas geradas para um conjunto de dados usando o console Google Cloud e a API Dataplex.
Console
Pesquise o conjunto de dados para o qual você quer atualizar as consultas geradas.
Nos resultados da pesquisa, clique no conjunto de dados para abrir a página de detalhes da entrada.
Na seção Consultas, clique em Editar.
Atualize a descrição conforme necessário.
Gerenciar a propriedade: por padrão, a Origem é definida como Agente. Se você modificar uma consulta e mudar a origem para Usuário, as gerações de insights subsequentes não vão substituir suas mudanças. Se a Fonte permanecer Agente, a consulta poderá ser substituída durante uma regeneração.
Gerenciar substituições: para evitar que todas as consultas sejam substituídas durante uma nova execução, defina a opção Gerenciado pelo usuário como Verdadeiro. Isso se aplica a todo o conjunto de consultas para esse aspecto de metadados, garantindo que nenhuma mudança manual seja perdida.
REST
Para atualizar consultas de um conjunto de dados, use o método entries.patch.
Atualizar links de entrada gerados para um conjunto de dados
As relações descobertas pelos insights de dados são armazenadas como links de entrada entre as entradas de tabela.
Esses links incluem um aspecto schema-join que descreve como as tabelas se conectam.
Para editar essas relações ou fornecer substituições manuais, use a API Dataplex.
Comportamento de atualização dos links de entrada
Ao gerenciar relacionamentos usando a API, é importante entender como as atualizações manuais da API interagem com as verificações automatizadas em segundo plano para não substituir dados acidentalmente.
Atualizações manuais (comportamento no nível da API): a API
UpdateEntryLinkusa o métodoPATCHpara fazer a substituição no nível do aspecto:Substituição completa do aspecto: se você incluir o aspecto
schema-joinna sua solicitação de atualização, o Knowledge Catalog vai substituir todo o aspecto atual pelo novo que você fornecer.Sem fusão automática: a API não mescla automaticamente novas entradas na lista interna de
joins. Se você enviar um payload com apenas uma junção, todas as junções anteriores nesse aspecto serão removidas.
Verificações automatizadas (comportamento no nível do sistema): verificações automatizadas, como insights de dados, realizam uma lógica de fusão especializada antes de chamar a API para garantir que os metadados de alta certeza sejam preservados com base na origem:
Prioridade da fonte: se várias fontes identificarem a mesma relação, o Knowledge Catalog vai priorizar na seguinte ordem:
USER(edições manuais)TABLE_CONSTRAINTSQUERY_HISTORYAGENT(sugestões de LLM)
Atualidade do LLM: as relações derivadas da fonte
AGENTsão dinâmicas. Se uma verificação subsequente não recomendar mais a relação, ela será removida.
Atualizar links de entrada
Para ver e modificar links de entrada, siga estas etapas:
Identifique o link de entrada.
Antes de atualizar uma relação, encontre o nome do recurso listando todos os links de entrada que envolvem uma entrada de tabela específica:
gcurl -X GET "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks?filter=entry_references.name=\"TABLE_ENTRY_NAME\""Substitua:
- PROJECT_ID: o ID do seu projeto Google Cloud
- LOCATION: a região em que a verificação de dados é acionada.
- TABLE_ENTRY_NAME: o nome completo do recurso da entrada da tabela do BigQuery (por exemplo,
bigquery.googleapis.com/projects/my-project/datasets/my_dataset/tables/my_table)
Atualize o link da entrada.
Para modificar o aspecto
schema-joindo link de entrada segmentado, use o métodoPATCH:gcurl -X PATCH "https://dataplex.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/entryGroups/@bigquery/entryLinks/ENTRYLINK_ID?aspectKeys=dataplex-types.global.schema-join" \ -d '{ "aspects": { "dataplex-types.global.schema-join": { "data": { "joins": [ { "source": { "name": "PROJECT_ID.DATASET_ID.SOURCE_TABLE", "fields": ["SOURCE_FIELD"] }, "target": { "name": "PROJECT_ID.DATASET_ID.TARGET_TABLE", "fields": ["TARGET_FIELD"] }, "type": "JOIN", "inferenceSource": "USER" } ], "userManaged": false } } } }'Substitua:
- ENTRYLINK_ID: o ID do link de entrada recuperado na etapa de identificação anterior
- DATASET_ID: o ID do seu conjunto de dados do BigQuery
- SOURCE_TABLE: o nome da tabela de origem
- SOURCE_FIELD: o nome da coluna usada para a junção na tabela de origem
- TARGET_TABLE: o nome da tabela de destino
- TARGET_FIELD: o nome da coluna usada para a junção na tabela de destino
A seguir
Saiba mais sobre os insights de dados estruturados.
Saiba como gerar insights para dados não estruturados.