生成資料集洞察資料
本文說明如何為 BigQuery 資料集產生資料集洞察。資料集洞察功能會產生關係圖和跨資料表查詢,協助您瞭解資料集內資料表之間的關係。
資料集洞察功能可自動探索資料表之間的關係,並以圖表呈現,找出主鍵和外鍵關係,以及產生跨資料表查詢範例,協助您加快探索含有多個資料表的資料集。這項功能有助於瞭解資料結構 (無須文件)、探索結構定義的資料表關係 (以使用情況為準或由 AI 推斷),以及產生彙整多個資料表的複雜查詢。
如要瞭解資料表和資料集洞察資料的總覽,請參閱「資料洞察總覽」。
事前準備
資料洞察資訊是使用 Gemini in BigQuery 生成。 如要開始生成洞察,請先設定 Gemini in BigQuery。
啟用 API
如要使用資料洞察功能,請在專案中啟用下列 API:Dataplex API、BigQuery API 和 Gemini for Google Cloud API。
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin), which
contains the serviceusage.services.enable permission. Learn how to grant
roles.
如要進一步瞭解如何啟用 Gemini for Google Cloud API,請參閱「在專案中啟用 Gemini for Google Cloud API Google Cloud 」。
完成資料剖析掃描
如要提升深入分析的品質,請為資料集中的資料表產生資料剖析結果。
必要的角色
如要取得產生、管理及擷取資料集洞察所需的權限,請要求管理員授予您下列 IAM 角色:
-
如要生成、管理及擷取深入分析資訊,請按照下列步驟操作:
-
專案的 Dataplex DataScan 編輯者 (
roles/dataplex.dataScanEditor) 或 Dataplex DataScan 管理員 (roles/dataplex.dataScanAdmin) -
BigQuery 資料編輯者 (
roles/bigquery.dataEditor) 資料表 -
專案的 BigQuery 使用者 (
roles/bigquery.user) 或 BigQuery Studio 使用者 (roles/bigquery.studioUser)。
-
專案的 Dataplex DataScan 編輯者 (
-
查看洞察資料:
-
Dataplex DataScan 資料檢視者 (
roles/dataplex.dataScanDataViewer) 專案 -
BigQuery 資料檢視者 (
roles/bigquery.dataViewer) 資料集
-
Dataplex DataScan 資料檢視者 (
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和組織的存取權」。
如要查看產生洞察資訊所需的確切權限,請展開「Required permissions」(必要權限) 部分:
所需權限
bigquery.datasets.get:讀取資料集中繼資料bigquery.jobs.create:建立工作bigquery.tables.get:取得資料表中繼資料bigquery.tables.getData:取得資料表資料和中繼資料dataplex.datascans.create:建立 DataScan 資源dataplex.datascans.get:讀取 DataScan 資源中繼資料dataplex.datascans.getData:讀取 DataScan 執行結果dataplex.datascans.run:隨選執行 DataScan
生成資料集洞察資料
前往 Google Cloud 控制台的「BigQuery Studio」。
在「Explorer」窗格中,選取要產生洞察資料的專案和資料集。
按一下「洞察」分頁標籤。
點按「生成」。
如果資料集位於多個區域,系統可能會提示您選取要產生洞察資訊的區域。請依據要建立洞察資訊掃描作業的多區域,選取相應的區域。
洞察資料需要幾分鐘才會填入。如果資料集中的資料表有資料剖析結果,深入分析的品質就會提升。
產生洞察後,BigQuery 會顯示資料集說明、關係圖、關係表,以及跨資料表查詢範例。
查看及儲存資料集說明
Gemini 會生成資料集的自然語言說明,摘要說明資料集包含的資料表類型,以及代表的業務領域。如要將這段說明儲存至資料集的中繼資料,請按一下「儲存至詳細資料」。
儲存詳細資料前,你可以先編輯說明。
探索關係圖
「關係」圖表會以視覺化方式呈現資料集中資料表之間的關係。系統會以節點形式顯示前 10 個最常連結的資料表,並以線條代表資料表之間的關係。
- 如要查看關係詳細資料,例如連結兩個資料表的資料欄,請將滑鼠游標懸停在連結資料表節點的邊緣上。
- 如要重新排列圖表,方便查看,請拖曳表格節點。
使用關係表
關係表格會以表格格式列出探索到的關係。每一列代表兩個資料表之間的關係,顯示來源資料表和資料欄,以及目的地資料表和資料欄。「來源」欄會顯示關係的判斷方式:
- LLM 推斷。Gemini 根據資料集中的資料表和資料欄名稱與說明推斷出的關係。
- 按用量計費:根據常見的聯結,從查詢記錄中擷取的關係。
- 結構定義。從資料表結構定義中現有的主鍵和外鍵對應項目衍生而來的關係。
您可以篩選特定資料表的關係,或針對偵測到的關係品質提供意見。如要將產生的資料集說明和關係匯出為 JSON 檔案,請按一下「以 JSON 格式匯出」。
使用查詢建議
Gemini 會根據發現的關係生成查詢範例。這些是自然語言問題,以及對應的 SQL 查詢,可彙整資料集中的多個資料表。
如要查看 SQL 查詢,請按一下問題。
如要在 BigQuery 查詢編輯器中開啟查詢,請按一下「複製到查詢」。然後執行或修改查詢。
如要提出後續問題,請按一下「Ask a follow-up」(詢問後續問題),系統會開啟未命名的資料畫布,您可以在其中與 Gemini 對話,探索資料。
後續步驟
- 瞭解資料洞察總覽。
- 瞭解如何生成表格洞察。
- 進一步瞭解 Dataplex Universal Catalog 資料剖析功能。