使用自然语言查询湖仓一体表

借助 BigQuery 中的对话式分析,您可以使用自然语言提示查询 开放格式的数据。此功能依赖于 Lakehouse for Apache Iceberg 中的 Lakehouse 运行时目录,可自动将您的问题映射到底层表架构,以便您生成和执行 SQL 查询,而无需手动编写代码。

设置查询时,您可以使用数据代理提供业务术语库和系统说明,以提高准确性。

对话式分析的工作原理

对话式分析使用大型语言模型 (LLM) 来理解您的自然语言问题,并将其映射到表的架构。该过程遵循以下步骤:

  1. 架构发现:系统从 Lakehouse 运行时目录检索元数据,以了解表结构、 列名称和数据类型。
  2. SQL 生成:LLM 生成与 BigQuery 引擎和底层数据格式兼容的 SQL 查询。
  3. 执行:BigQuery 直接针对 Google Cloud 的 Lakehouse中的开放格式数据执行生成的 SQL 查询。
  4. 响应:结果会返回到对话界面, 通常附带摘要或可视化图表。

如需详细了解对话式分析(例如管理数据 代理、定价或最佳实践),请参阅对话式分析概览

支持的格式

对话式分析会将您的自然语言问题转换为 SQL 查询。它支持 Lakehouse 运行时目录 支持的开放表格式,例如 Apache Iceberg 表。

准备工作

如需查询数据,请先在 Lakehouse 运行时目录中注册外部表。Lakehouse 运行时目录充当统一中心,将 BigQuery Studio 连接到外部开放格式数据。连接后,这些表将成为 BigQuery 中可发现的资产。

使用对话式分析查询表

  1. 在 Google Cloud 控制台中,前往 BigQuery Studio 代理中心

    前往代理中心

  2. 创建数据代理 ,或与现有数据代理开始直接对话。

  3. 选择您的表

    由于 Lakehouse 运行时目录统一了所有这些不同的格式,因此发现体验与查找标准 BigQuery 表相同。

    1. 搜索:添加知识来源时,请在表搜索和选择界面中查找表名称 。您可以使用搜索关键字来过滤结果,包括:

      • TABLE_NAME
      • catalog: CATALOG_NAME
      • project: PROJECT_ID
      • namespace: NAMESPACE_NAME
    2. 验证来源:请注意完全限定名称的数据集部分。由外部来源创建并由 Lakehouse 运行时目录管理的表通常遵循将目录和命名空间相结合的格式。例如:PROJECT_ID.biglake_catalog.finance_namespace.my_iceberg_tablePROJECT_ID.sap_catalog.sales.delta_table

    3. 选择:将所选表添加到活跃的对话 上下文中。

  4. 使用自然语言提问。系统会自动将您的提示转换为联合 SQL 查询。

提高查询准确性

为了帮助对话式分析更好地理解您的架构和术语,请使用数据代理配置选项。这些选项包括业务词汇表、经过验证的 SQL 查询和系统说明。

后续步骤