使用自然语言查询 BigLake 数据

本指南将向您展示如何使用 BigQuery 中的对话式分析,通过自然语言提示查询 BigLake 表中的数据。借助Google CloudBigLake,您可以像处理标准 BigQuery 表一样处理 BigLake 中的自有数据。

对话分析的工作原理

对话式分析功能使用大语言模型 (LLM) 来理解您的自然语言问题,并将其映射到 BigLake 表的架构。该流程遵循以下步骤:

  1. 架构发现:系统从 BigLake metastore 中检索元数据,以了解表结构、列名称和数据类型。
  2. SQL 生成:LLM 生成与 BigQuery 引擎和底层数据格式兼容的 SQL 查询。
  3. 执行:BigQuery 直接针对 BigLake 中的开放格式数据执行生成的 SQL 查询。
  4. 回答:结果会返回到对话界面,通常附带摘要或可视化图表。

如需详细了解对话分析,例如管理数据代理、定价或最佳实践,请参阅对话分析概览

支持的格式

对话式分析功能会将您的自然语言问题转换为 SQL 查询。它支持 BigLake metastore 支持的开放表格式,例如 Apache Iceberg 表。

准备工作

在查询数据之前,请先在 BigLake 元存储区中注册外部表。BigLake metastore 充当统一的枢纽,将 BigQuery Studio 连接到外部开放格式的数据。关联后,这些表将成为 BigQuery 中的可发现资产。

使用对话式分析查询表

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio Agents Hub

    前往“代理中心”

  2. 创建数据代理,或开始与现有数据代理的直接对话。

  3. 选择 BigLake 表

    由于 BigLake metastore 统一了所有这些不同的格式,因此发现体验与查找标准 BigQuery 表相同。

    1. 搜索:添加知识来源时,在表格搜索和选择界面中查找表格名称。您可以使用搜索关键字过滤结果,包括:

      • TABLE_NAME
      • catalog: CATALOG_NAME
      • project: PROJECT_ID
      • namespace: NAMESPACE_NAME
    2. 验证来源:请注意完全限定名称的数据集部分。由外部来源创建并由 BigLake metastore 管理的 BigLake 表通常采用目录和命名空间相结合的格式。例如 PROJECT_ID.biglake_catalog.finance_namespace.my_iceberg_tablePROJECT_ID.sap_catalog.sales.delta_table

    3. 选择:将所选 BigLake 表添加到当前对话上下文中。

  4. 使用自然语言提出问题。系统会自动将提示转换为联合 SQL 查询。

提高查询准确性

为了帮助对话式分析更好地了解您的 BigLake 架构和术语,请使用数据代理配置选项。这些选项包括业务术语表、经过验证的 SQL 查询和系统指令。

后续步骤