生成資料集洞察資料

本文說明如何為 BigQuery 資料集產生資料集洞察。資料集洞察功能會產生關係圖和跨資料表查詢,協助您瞭解資料集內資料表之間的關係。

資料集洞察功能可自動探索資料表之間的關係,並以圖表呈現,找出主鍵和外鍵關係,以及產生跨資料表查詢範例,協助您加快探索含有多個資料表的資料集。這項功能有助於瞭解資料結構 (無須文件)、探索結構定義的資料表關係 (以使用情況為準或由 AI 推斷),以及產生彙整多個資料表的複雜查詢。

如要瞭解資料表和資料集洞察資料的總覽,請參閱「資料洞察總覽」。

事前準備

資料洞察資訊是使用 Gemini in BigQuery 生成。 如要開始生成洞察,請先設定 Gemini in BigQuery

啟用 API

如要使用資料洞察功能,請在專案中啟用下列 API:Dataplex API、BigQuery API 和 Gemini for Google Cloud API。

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

如要進一步瞭解如何啟用 Gemini for Google Cloud API,請參閱「在專案中啟用 Gemini for Google Cloud API Google Cloud 」。

完成資料剖析掃描

如要提升深入分析的品質,請為資料集中的資料表產生資料剖析結果

必要的角色

如要取得產生、管理及擷取資料集洞察所需的權限,請要求管理員授予您下列 IAM 角色:

  • 如要生成、管理及擷取深入分析資訊,請按照下列步驟操作:
    • 專案的 Dataplex DataScan 編輯者 (roles/dataplex.dataScanEditor) 或 Dataplex DataScan 管理員 (roles/dataplex.dataScanAdmin)
    • BigQuery 資料編輯者 (roles/bigquery.dataEditor) 資料表
    • 專案的 BigQuery 使用者 (roles/bigquery.user) 或 BigQuery Studio 使用者 (roles/bigquery.studioUser)。
  • 查看洞察資料:

如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。

您或許也能透過自訂角色或其他預先定義的角色,取得必要權限。

如要查看產生洞察資訊所需的確切權限,請展開「Required permissions」(必要權限) 部分:

所需權限

  • bigquery.datasets.get:讀取資料集中繼資料
  • bigquery.jobs.create:建立工作
  • bigquery.tables.get:取得資料表中繼資料
  • bigquery.tables.getData:取得資料表資料和中繼資料
  • dataplex.datascans.create:建立 DataScan 資源
  • dataplex.datascans.get:讀取 DataScan 資源中繼資料
  • dataplex.datascans.getData:讀取 DataScan 執行結果
  • dataplex.datascans.run:隨選執行 DataScan

生成資料集洞察資料

  1. 前往 Google Cloud 控制台的「BigQuery Studio」

    前往 BigQuery Studio

  2. 在「Explorer」窗格中,選取要產生洞察資料的專案和資料集。

  3. 按一下「洞察」分頁標籤。

  4. 點按「生成」

    如果資料集位於多個區域,系統可能會提示您選取要產生洞察資訊的區域。請依據要建立洞察資訊掃描作業的多區域,選取相應的區域。

    洞察資料需要幾分鐘才會填入。如果資料集中的資料表有資料剖析結果,深入分析的品質就會提升。

產生洞察後,BigQuery 會顯示資料集說明、關係圖、關係表,以及跨資料表查詢範例。

查看及儲存資料集說明

Gemini 會生成資料集的自然語言說明,摘要說明資料集包含的資料表類型,以及代表的業務領域。如要將這段說明儲存至資料集的中繼資料,請按一下「儲存至詳細資料」

儲存詳細資料前,你可以先編輯說明。

探索關係圖

「關係」圖表會以視覺化方式呈現資料集中資料表之間的關係。系統會以節點形式顯示前 10 個最常連結的資料表,並以線條代表資料表之間的關係。

  • 如要查看關係詳細資料,例如連結兩個資料表的資料欄,請將滑鼠游標懸停在連結資料表節點的邊緣上。
  • 如要重新排列圖表,方便查看,請拖曳表格節點。

使用關係表

關係表格會以表格格式列出探索到的關係。每一列代表兩個資料表之間的關係,顯示來源資料表和資料欄,以及目的地資料表和資料欄。「來源」欄會顯示關係的判斷方式:

  • LLM 推斷。Gemini 根據資料集中的資料表和資料欄名稱與說明推斷出的關係。
  • 按用量計費:根據常見的聯結,從查詢記錄中擷取的關係。
  • 結構定義。從資料表結構定義中現有的主鍵和外鍵對應項目衍生而來的關係。

您可以篩選特定資料表的關係,或針對偵測到的關係品質提供意見。如要將產生的資料集說明和關係匯出為 JSON 檔案,請按一下「以 JSON 格式匯出」

使用查詢建議

Gemini 會根據發現的關係生成查詢範例。這些是自然語言問題,以及對應的 SQL 查詢,可彙整資料集中的多個資料表。

  1. 如要查看 SQL 查詢,請按一下問題。

  2. 如要在 BigQuery 查詢編輯器中開啟查詢,請按一下「複製到查詢」。然後執行或修改查詢。

  3. 如要提出後續問題,請按一下「Ask a follow-up」(詢問後續問題),系統會開啟未命名的資料畫布,您可以在其中與 Gemini 對話,探索資料。

後續步驟