本文說明如何使用 Cloud Logging 存取、查詢及解讀 Knowledge Catalog (舊稱 Dataplex Universal Catalog) 記錄。存取 Knowledge Catalog 工作和服務記錄,有助於排解問題及監控資料管理活動,包括 AI 輔助資料探索和資料品質掃描。將記錄集中存放在 Cloud Logging 後,您就能分析工作效能、設定失敗或異常情況的警報,以及將記錄轉送至其他 Google Cloud 服務 (例如 BigQuery),以便長期保留及分析。
如要瞭解相關費用,請參閱「Google Cloud Observability 定價」。
如要進一步瞭解記錄保留期限,請參閱「記錄保留期限」。
如要停用所有記錄檔或從 Logging 排除記錄檔,請參閱「排除篩選器」。
如要將記錄檔從 Cloud Logging 傳送至 Cloud Storage、BigQuery 或 Pub/Sub,請參閱「轉送和儲存空間簡介」。
用途
知識目錄記錄支援各行各業的用途:
- 排解資料管道失敗問題:如果資料處理的知識目錄工作失敗,
process記錄會提供詳細的錯誤訊息,協助資料工程師找出並解決 Spark 工作或自訂工作中的問題。 - 監控資料品質:金融服務公司可以監控記錄,追蹤一段時間內的資料品質趨勢、在重要資料資產的品質下降時收到快訊,並向稽核人員提供資料品質檢查的證據,確保符合法規遵循。
data_quality_scan_rule_result - 追蹤中繼資料擴充作業:零售公司可使用中繼資料匯入工作擴充目錄,並透過
metadata_job記錄檔確認匯入作業是否順利完成,以及所有中繼資料項目是否正確處理。 - 稽核資料探索:機構可使用
discovery記錄,監控在 Knowledge Catalog 中探索及註冊新資料來源的方式和時間,為資料上架程序提供稽核追蹤記錄。
Knowledge Catalog 記錄的運作方式
Knowledge Catalog 會將服務作業和工作執行的記錄傳送至 Cloud Logging。每筆記錄項目都包含作業或工作的詳細資料,例如狀態、開始和結束時間、相關聯的資源 (例如資料掃描或工作),以及結果。資料掃描、探索、中繼資料匯入和資料處理等不同類型的作業會產生不同類型的記錄,您可以使用 Logging 中的 logName 查詢這些記錄。
您可以使用Google Cloud 控制台中的「Logs Explorer」存取及分析這些記錄,也可以將記錄檔轉送至其他目的地 (例如 Cloud Storage bucket 或 BigQuery 資料表),以進行進一步分析。
在 Logging 中存取 Knowledge Catalog 服務記錄
知識目錄會將下列服務記錄發布至 Cloud Logging。
| 記錄類型 | 記錄檔名稱 | logName 筆查詢記錄 |
記錄說明 |
|---|---|---|---|
| 資料掃描事件記錄 | dataplex.googleapis.com/data_scan |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan) |
資料掃描工作事件記錄,指出工作狀態、結果和統計資料 |
| 資料品質掃描規則結果記錄 | dataplex.googleapis.com/data_quality_scan_rule_result |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result) |
資料品質工作中資料品質掃描規則的結果 |
| 探索記錄 | dataplex.googleapis.com/discovery |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery) |
區域內資產的探索進度和更新 |
| 中繼資料工作記錄 | dataplex.googleapis.com/metadata_job |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job) |
中繼資料匯入工作和中繼資料匯入檔案中匯入項目的記錄 |
| 程序記錄 | dataplex.googleapis.com/process |
logName=(projects/$PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess) |
資料處理工作產生的工作執行 |
更改下列內容:
- PROJECT_ID:專案 ID
如要存取 Logging,可以使用Google Cloud 控制台的 Logs Explorer、gcloud logging 指令或 Logging API。
查詢資料掃描事件記錄
使用 Knowledge Catalog 建立及執行資料掃描時,系統會在 Logging 中產生資料掃描事件記錄,記錄產生的工作。
控制台
前往 Google Cloud 控制台的「Logs Explorer」頁面。
在「Logs Explorer」檢視畫面中,找到「Query」分頁。
按一下「資源」選單。
選取「Cloud Dataplex DataScan」。按一下「套用」。
按一下「記錄名稱」選單。
在「Search log names」(搜尋記錄名稱) 欄位中,輸入
dataplex.googleapis.com%2Fdata_scan。選取「data_scan」,然後按一下「套用」。選用:在記錄查詢中新增下列篩選器,將記錄篩選為特定資料掃描 ID 或位置:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
點選「執行查詢」
gcloud
如要讀取資料掃描事件記錄項目,請使用 gcloud logging read 指令,並搭配下列查詢:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_scan AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
如要列出記錄項目,請使用 entries.list 方法。
查詢資料品質掃描規則結果記錄
使用 Knowledge Catalog 建立及執行資料品質掃描作業時,系統會在 Logging 中產生結果工作的資料品質掃描規則結果記錄。
控制台
前往 Google Cloud 控制台的「Logs Explorer」頁面。
在「Logs Explorer」檢視畫面中,找到「Query」分頁。
按一下「資源」選單。
選取「Cloud Dataplex DataScan」。按一下「套用」。
按一下「記錄名稱」選單。
在「Search log names」(搜尋記錄名稱) 欄位中,輸入
dataplex.googleapis.com%2Fdata_quality_scan_rule_result。選取「data_quality_scan_rule_result」,然後按一下「套用」。選用:在記錄查詢中新增下列篩選器,將記錄篩選為特定資料掃描 ID 或位置:
resource.labels.location="LOCATION" resource.labels.datascan_id="DATA_SCAN_ID"
點選「執行查詢」
gcloud
如要讀取資料品質掃描規則結果記錄項目,請使用 gcloud logging read 指令搭配下列查詢:
gcloud logging read \
'resource.type="dataplex.googleapis.com/DataScan" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdata_quality_scan_rule_result AND
resource.labels.location=LOCATION AND
resource.labels.datascan_id=DATA_SCAN_ID'
--limit 10
REST
如要列出記錄項目,請使用 entries.list 方法。
查詢探索記錄
使用 Knowledge Catalog 探索資產中的資料時,系統會在 Logging 中產生探索記錄。
控制台
前往 Google Cloud 控制台的「Logs Explorer」頁面。
在「Logs Explorer」檢視畫面中,找到「Query」分頁。
按一下「資源」選單。
選取「Cloud Dataplex Zone」。按一下「套用」。
按一下「記錄名稱」選單。
在「Search log names」(搜尋記錄名稱) 欄位中,輸入
dataplex.googleapis.com%2Fdiscovery。選取「探索」,然後按一下「套用」。選用步驟:在記錄查詢中新增下列篩選器,將記錄篩選至特定資產:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.zone_id="ZONE_ID" jsonPayload.assetId="ASSET_ID"
點選「執行查詢」
gcloud
如要讀取探索記錄項目,請使用 gcloud logging read 指令搭配下列查詢:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Zone" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fdiscovery AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.zone_id=ZONE_ID AND
jsonPayload.assetId=ASSET_ID'
--limit 10
REST
如要列出記錄項目,請使用 entries.list 方法。
查詢中繼資料工作記錄
執行中繼資料匯入作業時,Logging 會產生中繼資料作業記錄。
控制台
前往 Google Cloud 控制台的「Logs Explorer」頁面。
在「Logs Explorer」檢視畫面中,找到「Query」分頁。
按一下「資源」選單。
選取「Cloud Dataplex 中繼資料工作」。
選用:如要依特定位置或中繼資料工作 ID 篩選記錄,請選取位置或工作 ID。
按一下「套用」。
按一下「記錄名稱」選單。
輸入
dataplex.googleapis.com%2Fmetadata_job,然後選取「metadata_job」metadata_job。按一下「套用」。
gcloud
如要讀取中繼資料工作記錄項目,請使用 gcloud logging read 指令,並執行下列查詢:
gcloud logging read \
'resource.type="dataplex.googleapis.com/MetadataJob" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fmetadata_job AND
resource.labels.location=LOCATION AND
resource.labels.metadata_job_id=METADATA_JOB_ID
--limit 10
REST
如要列出記錄項目,請使用 entries.list 方法。
查詢程序記錄
使用 Knowledge Catalog 排定及執行工作時,Logging 會產生結果工作的程序記錄。
控制台
前往 Google Cloud 控制台的「Logs Explorer」頁面。
在「Logs Explorer」檢視畫面中,找到「Query」分頁。
按一下「資源」選單。
選取「Cloud Dataplex 工作」。按一下「套用」。
按一下「記錄名稱」選單。
在「Search log names」(搜尋記錄名稱) 欄位中,輸入
dataplex.googleapis.com%2Fprocess。選取「程序」,然後點選「套用」。選用:如要將記錄篩選至特定工作,請在記錄查詢中新增下列篩選器:
resource.labels.location="LOCATION" resource.labels.lake_id="LAKE_ID" resource.labels.task_id="TASK_ID"
點選「執行查詢」
gcloud
如要讀取程序記錄項目,請使用 gcloud logging read 指令搭配下列查詢:
gcloud logging read \
'resource.type="dataplex.googleapis.com/Task" AND
logName=projects/PROJECT_ID/logs/dataplex.googleapis.com%2Fprocess AND
resource.labels.location=LOCATION AND
resource.labels.lake_id=LAKE_ID AND
resource.labels.task_id=TASK_ID'
--limit 10
REST
如要列出記錄項目,請使用 entries.list 方法。
後續步驟
- 進一步瞭解 Cloud Logging。
- 瞭解 Knowledge Catalog 監控。