本文說明儲存空間洞察資料集如何提供資料的能見度和洞察資訊,協助您管理 Cloud Storage 環境。
儲存空間洞察資料集會為整個機構、資料夾、專案或特定 bucket 的 Cloud Storage bucket 和物件,建立可查詢的中繼資料和活動索引。如要查詢中繼資料和活動索引,請將資料集連結至 BigQuery。接著,您便可使用連結的 BigQuery 資料集分析、查詢及視覺化呈現資料。將資料集連結至 BigQuery,即可查詢中繼資料和活動索引。
儲存空間洞察資料集是 Storage Intelligence 訂閱方案的專屬功能。 Google Cloud 提供 Storage Intelligence 30 天入門試用版。您可以啟用試用功能,深入瞭解 Cloud Storage 使用情形並採取行動。如要進一步瞭解試用方案,請參閱「Storage Intelligence 30 天入門試用版」。
總覽
儲存空間分析資料集會提供指定範圍內所有專案、bucket 和物件的中繼資料、活動資料、錯誤和事件的滾動快照。資料集會持續收集及建立資訊索引,提供全方位的檢視畫面,協助您瞭解資料狀態、監控 Cloud Storage 資源,以及取得洞察資料來管理及最佳化儲存空間資產。
這個資料集會以 BigQuery 連結資料集的形式提供,其中包含一組具有下列結構定義的表格:
中繼資料:專案、bucket 和物件的中繼資料快照。如要進一步瞭解中繼資料結構定義,請參閱「資料集的中繼資料結構定義」。
活動資料:物件的突變和錯誤記錄,以及 bucket 和專案的匯總活動洞察資料。如要進一步瞭解活動資料結構定義,請參閱「活動資料的資料集結構定義」。
錯誤和事件:快照處理事件和錯誤的相關資訊。如要進一步瞭解錯誤和事件結構定義,請參閱「事件和錯誤的資料集結構定義」。
儲存空間洞察資料集的用途
儲存空間分析資料集提供檢視畫面,讓您掌握整個機構的資料,並深入瞭解資料。以下各節說明資料集的用途。
瞭解儲存空間資產
您可以查看專案、值區和物件中繼資料,深入瞭解資料。中繼資料檢視畫面可協助您執行下列工作:
- 偵測異常狀況,例如資料位於非預期區域。
- 找出最佳化機會,例如找出暫存或重複的檔案。
- 查詢特定洞察資料,例如過去 24 小時內建立的物件,或是
PDF檔案總數。 - 根據查詢結果擷取一組物件的前置字串清單,然後向下鑽研至要執行的物件。如要瞭解如何以無伺服器方式對數十億個物件執行作業,請參閱 儲存空間批次作業。
分析活動模式
透過 bucket 活動檢視畫面、專案活動檢視畫面和物件事件檢視畫面,您可以執行下列操作:
分析作業模式並找出閒置值區。
監控物件的作業,瞭解儲存空間資產隨時間的變化。
找出最常使用的專案、儲存區和前置字元。
瞭解區域性 bucket 活動
儲存空間區域活動檢視畫面會顯示要求和回應位元組等欄位,協助您查看經常與儲存空間互動的區域。分析區域值區活動,判斷是否需要重新定位值區:
查看區域中 bucket 的總輸出和輸入量,找出可能更適合區域而非多區域級別的 bucket。
評估所有區域內和區域間的資料流量總量。
找出可公開存取的物件
您可以使用儲存空間分析資料集,找出可公開存取的物件。物件的公開存取狀態可協助您管理儲存空間資料,並找出暴露在公開網際網路中的物件,進而降低資料竊取風險。
物件中繼資料結構定義提供公開存取狀態(預覽版),這項計算指標可協助簡化安全性分析。如要判斷物件的公開存取狀態,儲存空間分析資料集會驗證下列所有設定:
您可以使用 BigQuery 查詢物件的公開存取狀態,然後使用 Looker 資訊主頁監控這些物件,列出所有可公開讀取或寫入的物件。如要進一步瞭解公開存取狀態欄位,請參閱物件中繼資料結構定義中的「securityInsights」。
加快疑難排解速度
「object_events_view」檢視畫面包含錯誤資訊,有助於排解問題。您可以使用這個檢視畫面檢查導致錯誤的作業、找出錯誤原因,以及偵測錯誤率偏高的專案和 bucket。舉例來說,您可以找出受影響的 bucket、專案和根本原因 (例如資源配額或頻寬限制),藉此排解 429 錯誤。
使用 BigQuery 分析物件資料和中繼資料
您可以使用 BigQuery ObjectRef 函式,分析 Storage Insights 資料集中的資料。舉例來說,您可以建構查詢來偵測文件中的私密資訊,或生成圖片說明。
如要分析物件內容,請使用物件中繼資料表中的 ref 資料欄和 ObjectRef 函式。詳情請參閱「使用 BigQuery 分析物件資料和中繼資料」。
儲存空間分析資料集的好處
儲存空間洞察資料集會以可查詢的格式,在 BigQuery 中提供儲存空間資產的中繼資料和活動資訊。使用儲存空間洞察資料集的好處如下:
在可自訂的範圍內分析儲存空間資產,取得全機構的深入分析資訊,或指定要分析的資料夾、專案或值區。
在 BigQuery 中取得資料後,即可使用 SQL 和自然語言查詢,透過 Gemini 分析資料。詳情請參閱「在 Gemini 協助下分析資料」。
您可以連結至 Looker 資訊主頁,以圖表呈現資料。 您可以將儲存空間智慧資訊主頁做為範本,瞭解如何從資料集取得洞察資料。您可以使用範本連結至資料集,或新增自訂圖表。如要瞭解如何使用範本,請參閱 Storage Intelligence 資訊主頁連線說明。
儲存空間分析資料集的運作方式
如要使用儲存空間洞察資料集,請先在專案中設定資料集。指定要追蹤資料的機構、資料夾或專案。建立服務代理後,請授予必要權限,讓服務代理產生資料集。接著,您可以將資料集連結至 BigQuery 進行查詢。設定完成後,這項服務會自動收集物件中繼資料、值區中繼資料、作業和錯誤的每日快照,並擷取至 Cloud Storage 擁有的 BigQuery 執行個體。系統會根據設定的保留期限保留資料,並以最佳化方式儲存,盡量減少儲存和分析費用。
在資料集設定中,您可以定義要收集哪些資料、資料的儲存位置,以及資料的管理方式。
下表說明設定資料集時必須定義的主要屬性:
| 屬性 | 說明 | 詳細資料和限制 |
|---|---|---|
| 資料集範圍 | 指定包含要納入資料集的值區和物件的資源 (機構、專案或資料夾)。 |
您可以個別指定專案或資料夾,也可以使用 CSV 檔案。每項設定只能有一個資料集範圍。您最多可以指定 10,000 個專案或資料夾。 |
| 值區篩選器 | 用於在資料集中納入或排除特定 bucket 的篩選器。 | 您可以使用規則運算式依 bucket 名稱篩選,或依 bucket 位置篩選。 |
| 資料集保留期限 | 資料集擷取及保留中繼資料和活動資料的天數,包括資料集的建立日期。如果是活動資料表,您可以使用「活動資料的保留期限」屬性,覆寫資料保留期限。 |
這段保留期限是回溯期,最多可達 90 天。資料集每 24 小時更新一次,並加入新的中繼資料。系統會自動刪除保留期限外的資料。舉例來說,如果您在 2023 年 10 月 1 日建立資料集,並將保留期限設為 30 天,10 月 30 日的資料集會反映過去 30 天的資料 (10 月 1 日至 10 月 30 日)。10 月 31 日的資料集會反映 10 月 2 日至 10 月 31 日的資料。您隨時可以修改保留期限。根據預設,保留期限適用於中繼資料表,以及未指定活動資料保留期限時的活動資料表。 |
| 活動資料的保留期限 | 資料集擷取及保留活動資料的天數。定義後,這個值會覆寫「資料集保留期限」。 |
保留期限最長可達 365 days。活動資料的保留期限適用於活動資料表。
|
| 位置 | 用來儲存資料集和相關聯資料的 BigQuery 位置。 |
必須是 BigQuery 支援的位置,例如 us-central1。如果您有現有的 BigQuery 資料表,建議選取 BigQuery 資料表的位置。 |
| 服務代理程式類型 | 決定服務代理的範圍,該代理會讀取及寫入資料集設定的資料。可以是特定設定的服務代理,也可以是特定專案的服務代理 |
專案範圍服務代理程式可以存取及寫入專案中所有資料集設定的資料集。舉例來說,如果專案內有多個資料集設定,您只需要對專案範圍的服務代理授予一次必要權限。這樣一來,該服務就能讀取及寫入專案中所有資料集設定的資料集。刪除資料集設定時,系統不會刪除專案範圍的服務代理程式。 設定範圍的服務代理程式只能存取及寫入特定資料集設定產生的資料集。也就是說,如果您有多個資料集設定,則必須為每個設定範圍的服務代理授予必要權限。刪除資料集設定時,系統會一併刪除特定設定的服務代理。 |
指定設定屬性並授予服務代理程式必要權限後,請將資料集連結至 BigQuery 以進行查詢。
如要瞭解建立或更新資料集設定時設定的屬性,請參閱 JSON API 說明文件中的 DatasetConfigs 資源。
設定完成後,這項服務會自動收集資料並匯入 Cloud Storage 擁有的 BigQuery 執行個體。資料集填入資料的時間表如下:
新加入的 bucket 或物件的初始資料集載入和活動資料,可能需要 24 到 48 小時,才會在 BigQuery 中顯示為已連結的資料集。
活動資料通常會在活動發生後四小時內納入報表 (延遲時間有時可能會較長)。
中繼資料快照 (適用於專案、bucket 和物件) 每 24 小時更新一次。
注意事項
設定資料集時,請注意下列事項:
在啟用階層式命名空間的 bucket 中重新命名資料夾時,該 bucket 中的物件名稱會更新。連結的資料集擷取這些物件快照時,系統會將其視為新項目。
如果物件是使用客戶管理的加密金鑰 (CMEK) 加密,則
object metadata表格不會顯示 CRC32C 總和檢查碼和 MD5 雜湊。資料集僅支援下列 BigQuery 位置:
EUUSasia-south1asia-south2asia-southeast1europe-west1us-central1us-east1us-east4
使用 Storage Insights 資料集判斷物件的公開存取狀態時,須遵守下列限制: