儲存空間分析資料集

本文說明儲存空間洞察資料集如何提供資料的能見度和洞察資訊,協助您管理 Cloud Storage 環境。

儲存空間分析資料集會為機構、資料夾、專案或特定 bucket 中的 Cloud Storage bucket 和物件,建立可查詢的中繼資料和活動索引。如要查詢中繼資料和活動索引,請將資料集連結至 BigQuery。接著,您便可使用連結的 BigQuery 資料集分析、查詢及視覺化呈現資料。將資料集連結至 BigQuery,即可查詢中繼資料和活動索引。

儲存空間洞察資料集是 Storage Intelligence 訂閱方案的專屬功能。 Google Cloud 提供 Storage Intelligence 30 天入門試用版。您可以啟用試用功能,深入瞭解 Cloud Storage 使用情形並採取行動。如要進一步瞭解試用方案,請參閱「Storage Intelligence 30 天入門試用版」。

總覽

儲存空間分析資料集會提供定義範圍內所有專案、bucket 和物件的中繼資料、活動資料、錯誤和事件的滾動快照。資料集會持續收集及建立資訊索引,提供全方位檢視畫面,協助您瞭解資料狀態、監控 Cloud Storage 資源,以及取得洞察資料來管理及最佳化儲存空間資產。

這個資料集會以 BigQuery 連結資料集的形式提供,其中包含一組具有下列結構定義的表格:

儲存空間洞察資料集用途

儲存空間分析資料集提供檢視畫面,可讓您深入瞭解整個機構的資料,以及細微的資料洞察。以下各節說明資料集的用途。

瞭解儲存空間資產

您可以查看專案、值區和物件中繼資料,深入瞭解資料。中繼資料檢視畫面可協助您執行下列工作:

  • 偵測異常狀況,例如資料位於非預期區域。
  • 找出最佳化機會,例如找出暫存或重複的檔案。
  • 查詢特定洞察資料,例如過去 24 小時內建立的物件,或是 PDF 檔案總數。
  • 根據查詢結果擷取一組物件的前置字串清單,然後向下鑽研至要執行的物件。如要瞭解如何以無伺服器方式對數十億個物件執行作業,請參閱 儲存空間批次作業

分析活動模式

透過 bucket 活動檢視畫面、專案活動檢視畫面和物件事件檢視畫面,您可以執行下列操作:

  • 分析作業模式並找出閒置值區。

  • 監控物件的作業,瞭解儲存空間資產隨時間的變化。

  • 找出最常使用的專案、儲存區和前置字元。

瞭解區域性 bucket 活動

儲存區區域活動檢視畫面會顯示要求和回應位元組等欄位,協助您查看經常與儲存區互動的區域。分析區域值區活動,判斷是否需要重新定位值區

  • 查看區域中 bucket 的總輸出和輸入量,找出可能更適合區域級別 (而非多區域級別) 的 bucket。

  • 評估所有區域內和區域間的資料流量總計。

加快疑難排解速度

您可以分析物件事件檢視畫面中的錯誤資訊,檢查導致錯誤的物件作業、分析錯誤原因,並加快問題的疑難排解速度。您也可以偵測錯誤數量最多的專案和 buckets,判斷成功率和錯誤率。舉例來說,您可以找出受影響的 bucket、專案和根本原因 (例如資源配額或頻寬限制),藉此排解429錯誤。

儲存空間分析資料集的好處

儲存空間洞察資料集會以可查詢的格式,在 BigQuery 中提供儲存空間資產的中繼資料和活動資訊。使用儲存空間洞察資料集的好處如下:

  • 在可自訂的範圍內分析儲存空間資產,取得全機構的深入分析資訊,或指定要分析的資料夾、專案或值區。

  • 在 BigQuery 中取得資料後,即可使用 SQL 和自然語言查詢,透過 Gemini 分析資料。詳情請參閱「在 Gemini 協助下分析資料」。

  • 您可以連結至 Looker 資訊主頁,以圖表呈現資料。 您可以將儲存空間智慧資訊主頁做為範本,瞭解如何從資料集取得洞察資料。您可以使用範本連結至資料集或新增自訂圖表。如要瞭解如何使用範本,請參閱 儲存空間智慧資訊主頁連線說明

儲存空間分析資料集的運作方式

如要使用儲存空間洞察資料集,請先在專案中設定資料集。 指定要追蹤資料的機構、資料夾或專案。建立完成後,請授予服務代理必要權限,以產生資料集。接著,您可以將資料集連結至 BigQuery 進行查詢。設定完成後,這項服務會自動收集物件中繼資料、值區中繼資料、作業和錯誤的每日快照,並擷取至 Cloud Storage 擁有的 BigQuery 執行個體。系統會根據設定的保留期限保留資料,並以最佳化方式儲存,盡量減少儲存和分析費用。

在資料集設定中,您可以定義要收集哪些資料、資料的儲存位置,以及資料的管理方式。

下表說明設定資料集時必須定義的主要屬性:

屬性 說明 詳細資料和限制
資料集範圍 指定包含要納入資料集的值區和物件的資源 (機構、專案或資料夾)。 您可以個別指定專案或資料夾,也可以使用 CSV 檔案。每項設定只能有一個資料集範圍。您最多可以指定 10,000 個專案或資料夾。
值區篩選器 用於在資料集中納入或排除特定 bucket 的篩選器。您可以使用規則運算式依 bucket 名稱篩選,或依 bucket 位置篩選。
資料集保留期限 資料集擷取及保留中繼資料和活動資料的天數,包括資料集的建立日期。如果是活動資料表,您可以使用「活動資料的保留期限」屬性,覆寫資料保留期限。 這段保留期限是回溯期,最多可達 90 天。資料集每 24 小時更新一次,系統會自動刪除保留期限外的資料。舉例來說,如果您在 2023 年 10 月 1 日建立資料集,並將保留期限設為 30 天,10 月 30 日的資料集會反映過去 30 天的資料 (10 月 1 日至 10 月 30 日)。10 月 31 日的資料集會反映 10 月 2 日至 10 月 31 日的資料。您隨時可以修改保留期限。根據預設,保留期限適用於中繼資料表,以及活動資料表 (未指定活動資料的保留期限時)。
活動資料的保留期限 資料集擷取及保留活動資料的天數。定義後,這個值會覆寫資料集的保留期限 保留期限最多可達 365 days。活動資料的保留期限適用於活動資料表
位置 用來儲存資料集及其相關聯資料的 BigQuery 位置。 必須是 BigQuery 支援的位置,例如 us-central1。如果您有現有的 BigQuery 資料表,建議選取 BigQuery 資料表的位置。
服務代理程式類型 決定服務代理的範圍,該代理會讀取及寫入資料集設定的資料。可以是特定設定的服務代理,也可以是特定專案的服務代理 專案範圍服務代理程式可以存取及寫入專案中所有資料集設定的資料集。舉例來說,如果專案內有多個資料集設定,您只需要對專案範圍的服務代理授予一次必要權限。這樣一來,該服務就能讀取及寫入專案中所有資料集設定的資料集。刪除資料集設定時,系統不會刪除專案範圍的服務代理程式。

設定範圍的服務代理程式只能存取及寫入特定資料集設定產生的資料集。也就是說,如果您有多個資料集設定,則必須為每個設定範圍的服務代理授予必要權限。刪除資料集設定時,系統會一併刪除特定設定的服務代理。

指定設定屬性並授予服務代理程式必要權限後,請將資料集連結至 BigQuery 以進行查詢。

如要瞭解建立或更新資料集設定時設定的屬性,請參閱 JSON API 說明文件中的 DatasetConfigs 資源

設定完成後,這項服務會自動收集資料並匯入 Cloud Storage 擁有的 BigQuery 執行個體。資料集填入資料的時間表如下:

  • 新增 bucket 或物件後,初始資料集載入作業和活動資料可能需要 24 到 48 小時,才會在 BigQuery 中顯示為已連結的資料集。

  • 活動資料通常會在活動發生後四小時內納入報表 (延遲時間有時可能會較長)。

  • 專案、bucket 和物件的中繼資料快照每 24 小時更新一次。

注意事項

設定資料集時,請注意下列事項:

  • 在啟用階層式命名空間的 bucket 中重新命名資料夾時,該 bucket 中的物件名稱會更新。連結的資料集擷取這些物件快照時,系統會將其視為新項目。

  • 如果物件是使用客戶管理的加密金鑰 (CMEK) 加密,則 object metadata 表格不會顯示 CRC32C 總和檢查碼和 MD5 雜湊。

  • 資料集僅支援下列 BigQuery 位置:

    • EU
    • US
    • asia-south1
    • asia-south2
    • asia-southeast1
    • europe-west1
    • us-central1
    • us-east1
    • us-east4

後續步驟