Consultar tabelas do Lakehouse com linguagem natural

Neste guia, mostramos como usar a análise de conversação no BigQuery para consultar dados nas tabelas do Lakehouse do Google Cloud com comandos de linguagem natural.

Como a análise de conversas funciona

A análise de conversas usa modelos de linguagem grandes (LLMs) para entender suas perguntas em linguagem natural e mapeá-las para o esquema das suas tabelas. O processo segue estas etapas:

  1. Descoberta de esquema: o sistema recupera metadados do catálogo de tempo de execução do Lakehouse para entender as estruturas de tabela, os nomes das colunas e os tipos de dados.
  2. Geração de SQL: o LLM gera uma consulta SQL compatível com o mecanismo do BigQuery e o formato de dados subjacente.
  3. Execução: o BigQuery executa a consulta SQL gerada diretamente nos dados de formato aberto no data lakehouse do Google Cloud.
  4. Resposta: os resultados são retornados à interface de conversa, geralmente acompanhados de um resumo ou uma visualização.

Para mais informações sobre análises de conversação, como gerenciamento de agentes de dados, preços ou práticas recomendadas, consulte Visão geral das análises de conversação.

Formatos compatíveis

A análise de dados conversacional traduz suas perguntas em linguagem natural para consultas SQL. Ele oferece suporte aos formatos de tabela aberta compatíveis com o catálogo de tempo de execução do Lakehouse, como tabelas do Apache Iceberg.

Antes de começar

Antes de consultar seus dados, registre as tabelas externas no catálogo de tempo de execução do Lakehouse. O catálogo de tempo de execução do Lakehouse funciona como o hub unificado que conecta o BigQuery Studio aos seus dados externos de formato aberto. Depois de conectadas, as tabelas se tornam recursos detectáveis no BigQuery.

Consultar tabelas com as análises de conversação

  1. No console Google Cloud , acesse o Hub de agentes do BigQuery Studio.

    Acessar o hub de agentes

  2. Crie um agente de dados ou inicie uma conversa direta com um agente de dados existente.

  3. Selecione as tabelas.

    Como o catálogo de tempo de execução do Lakehouse unifica todos esses formatos diferentes, a experiência de descoberta é idêntica à de encontrar tabelas padrão do BigQuery.

    1. Pesquisar: ao adicionar sua fonte de conhecimento, procure os nomes das tabelas na interface de pesquisa e seleção. Você pode usar palavras-chave de pesquisa para filtrar resultados, incluindo:

      • TABLE_NAME
      • catalog: CATALOG_NAME
      • project: PROJECT_ID
      • namespace: NAMESPACE_NAME
    2. Verifique a origem: preste atenção à parte do conjunto de dados no nome totalmente qualificado. As tabelas criadas por fontes externas e gerenciadas pelo catálogo de tempo de execução do Lakehouse geralmente seguem um formato que combina o catálogo e o namespace. Por exemplo, PROJECT_ID.biglake_catalog.finance_namespace.my_iceberg_table ou PROJECT_ID.sap_catalog.sales.delta_table.

    3. Selecionar: adiciona a tabela selecionada ao contexto de conversa ativo.

  4. Faça perguntas em linguagem natural. O sistema traduz automaticamente seu comando em uma consulta SQL federada.

Melhorar a precisão da consulta

Para ajudar a análise de conversação a entender melhor seus esquemas e terminologia, use as opções de configuração do agente de dados. Essas opções incluem glossários de negócios, consultas SQL verificadas e instruções do sistema.

A seguir