Rapid Bucket

本頁面說明 Rapid Bucket,這項功能可讓您將可用區設為值區位置,藉此將物件儲存在Rapid 儲存空間類別中。這種做法可讓您將資料儲存空間與運算資源放在相同位置,相較於 Cloud Storage 中的其他儲存空間類別,延遲時間大幅縮短,總處理量也更高。其他可用區和區域的工作負載也能存取值區,效能則取決於網路距離。

如要使用 Rapid Bucket 建立可用區 bucket,請參閱「建立可用區 bucket」。 如要查看支援的地點清單,請參閱「區域」。如要讀取及附加區域值區中的物件,請參閱「使用區域值區中的物件」。

優點

Rapid Bucket 的設計宗旨是消除儲存空間瓶頸,非常適合用於資料密集型應用程式,例如 AI/機器學習和資料分析。Rapid Bucket 支援低於毫秒的延遲時間、最高 15 TB/s 的匯總輸送量,以及每秒 2,000 萬次查詢 (QPS)。超低延遲可即時擷取資料,並支援大規模執行即時推論應用程式。高處理量和 QPS 有助於讓昂貴的 GPU 叢集保持飽和狀態,大幅縮短模型訓練時間。

Rapid Bucket 術語

Cloud Storage 說明文件使用下列術語:

  • Rapid Bucket:這項產品可讓您建立 bucket,並指定可用區位置和 Rapid Storage 儲存空間級別。

  • 快速儲存空間:在 Cloud Storage 中,這個儲存空間類別提供最高的資料存取和 I/O 作業效能。使用 Rapid Bucket 時,您建立的值區會使用快速儲存空間。如要進一步瞭解快速儲存空間,請參閱「儲存空間類別」。

  • 可用區 bucket:位於可用區的 bucket。可用區值區中的物件一律儲存在 Rapid Storage,且可附加。

可用區 bucket 的功能

除了提供低延遲和高處理量,區域 bucket 還可讓您執行下列操作:

  • 在區域值區中附加至物件,不必重新編寫完整物件

  • 在執行作業時開啟物件並維護串流,加快後續讀取和寫入作業

用途

Rapid Bucket 最適合用於 AI/機器學習工作負載或其他資料密集型工作負載。這類工作負載包括模型檢查點、評估和服務,以及記錄和訊息佇列。也可以用於串流資料,或為資料庫提供儲存空間。

如要充分運用 Rapid Bucket 提供的低延遲和高處理量,請務必啟用 gRPC 直接連線

存取可用區值區中的物件

如要享有區域儲存空間的效能優勢,請務必開啟物件以進行串流,並在對物件執行作業時維持串流。建立及維護串流時,您可以對物件執行後續讀取或寫入作業,延遲時間非常短。舉例來說,讀取 Parquet 檔案時,您可以透過單一要求,同時執行檔案中繼資料 (頁尾) 的初始讀取作業,以及後續讀取特定資料列的作業。相較於為每個步驟使用個別要求,這種做法更有效率。

建立物件串流後,使用 Cloud Storage FUSE 或 Cloud Storage 用戶端程式庫存取區域值區物件時,物件串流預設會保持開啟狀態。

您可以從任意數量的主機開啟物件的多個讀取串流。建立物件的讀取串流數量沒有限制。

附加物件

您可以將資料附加至可用區 bucket 中的物件。對物件進行附加作業時,適用下列語意:

  • 開始寫入可附加的物件後,這些物件就會立即顯示在 bucket 命名空間中,且在寫入期間可供讀取。

  • 物件可附加的內容數量或一次可附加的位元組數量沒有限制。物件達到 5 TiB 的大小上限前,您都可以附加資料。

  • 當新的附加內容永久寫入或排清時,物件大小會即時增加。建立讀取串流時,您應預期物件大小更新會有最短的延遲時間。

  • 可附加的物件一次只能有一個寫入者。如果為已存在寫入串流的物件建立新的寫入串流,Cloud Storage 會將錯誤傳回原始串流,且原始串流將無法再寫入。新的寫入器可以從上次保留的偏移量繼續附加,不必交錯附加至物件。

完成物件

物件完成後就無法再附加資料,但您仍可使用新版本覆寫物件。已完成物件的中繼資料仍可變動,例如新增標記和重新命名物件。

掛接可用區 bucket

您可以使用 Cloud Storage FUSECloud Storage FUSE CSI 驅動程式,掛接及存取區域值區。請務必使用 Cloud Storage FUSE 3.7.2 以上版本。如要使用 Cloud Storage FUSE CSI 驅動程式,請確認 Google Kubernetes Engine 版本為 1.35.0-gke.3047001 以上。

定價

使用 Rapid Bucket 時,系統會收取資料儲存、作業和網路費用。詳情請參閱「定價」。

限制

  • 區域 bucket 必須啟用階層命名空間統一 bucket 層級存取權

  • Google Cloud CLI 限制:

    • 支援的最低 Google Cloud CLI 版本:支援區域值區的最低 gcloud CLI 版本為 553.0.0。舊版不支援區域值區。建議使用最新版 gcloud CLI,取得最新功能和錯誤修正。

    • 不完整上傳作業的顯示狀態:與其他儲存空間類別的值區不同,區域值區中部分上傳的物件會立即顯示,其他儲存空間類別的值區則會在上傳完成後,才於命名空間中顯示物件。如果 Google Cloud CLI 上傳指令失敗或中斷,bucket 中可能會出現不完整的物件。您仍可重新執行指令,繼續上傳這些檔案。

    • 覆寫物件:區域 bucket 適用標準 Google Cloud CLI 行為。覆寫物件時,如果目的地存在同名檔案或物件,Google Cloud CLI cpmvrsync 指令預設會覆寫該檔案或物件。如要防止覆寫,請使用 --no-clobber 標記。使用 Google Cloud CLI 時,系統不支援將資料附加至現有物件,必須重新上傳整個來源。

    • 物件最終化:使用 Google Cloud CLI 上傳至區域 bucket 的物件,可能偶爾會發生短暫延遲,物件的中繼資料才會完全同步。由於 Cloud Storage 使用最終一致性模型,如果中繼資料尚未更新,嘗試在上傳後立即下載物件可能會導致雜湊不符錯誤。

      如果上傳後不久下載失敗,並顯示雜湊不符錯誤,請重試指令。系統會確保下載作業完全成功或明確失敗,不會發生部分下載或下載內容損毀的情況。

不相容性

區域值區與下列工具、產品和服務不相容:

  • 工具

    • 寫入標準非區域性 bucket 的用戶端程式庫 API。如果您打算使用用戶端程式庫寫入區域值區,請修改程式碼,改用支援的 API。如要瞭解支援的 API,請參閱「使用區域儲存空間中的物件」一文,查看用戶端程式庫的程式碼範例。

    • 使用 gRPC 寫入,但不是 BidiWriteObject。可附加的物件僅支援可附加模式的 BidiWriteObject RPC 呼叫。其他 gRPC 寫入方法 (例如一次性或可續傳的寫入) 和其他 RPC 呼叫 (例如 WriteObject) 則不支援。

    • 使用 JSON API 寫入

    • XML API 多部分上傳作業

  • 資料保護與災難復原

    • 物件版本管理

    • 虛刪除

    • 跨 bucket 複製

  • 資料管理

    • Rapid Cache

    • 自動調整級別

    • 值區鎖定功能

    • 編寫物件

    • 物件訴訟保留

    • 物件生命週期管理 SetStorageClass 動作

    • Object Retention Lock

    • 遷移 bucket

    • 支援續傳的上傳作業

    • 重寫物件

    • 要求者付費

  • 存取控管

    • 物件層級存取控制清單 (ACL)

    • CORS 設定

    • 客戶提供的加密金鑰 (CSEK)

    • HMAC 金鑰

  • 中繼資料

    • 區域值區中的物件沒有 MD5 雜湊。

    • 與不支援的功能和產品相關聯的中繼資料屬性,不會顯示在區域值區或可附加物件的資源表示中,或無法寫入。例如:

  • 服務

    • BigQuery

配額

每個專案的每個可用區都有預設的儲存空間配額。每個專案的每個區域,也有從 Cloud Storage 到Google 服務的預設輸出配額。如要查看這些配額,請參閱「配額與限制」。

如要瞭解如何監控資料輸出用量及要求更多頻寬,請參閱「頻寬用量監控」。

最佳做法

如要在使用 Cloud Storage FUSE 時,盡可能提升區域值區的效能,請保留已掛接物件的開啟檔案控制代碼,並用於多項作業。這樣一來,Cloud Storage FUSE 就能避免在每次重複讀取時執行不必要的網路往返行程,進而提升效能。

後續步驟