本頁面說明 Rapid Bucket,這項功能可讓您將可用區設為值區位置,藉此將物件儲存在Rapid 儲存空間類別中。這種做法可讓您將資料儲存空間與運算資源放在相同位置,相較於 Cloud Storage 中的其他儲存空間類別,延遲時間大幅縮短,總處理量也更高。其他可用區和區域的工作負載也能存取值區,效能則取決於網路距離。
如要使用 Rapid Bucket 建立可用區 bucket,請參閱「建立可用區 bucket」。 如要查看支援的地點清單,請參閱「區域」。如要讀取及附加區域值區中的物件,請參閱「使用區域值區中的物件」。
優點
Rapid Bucket 的設計宗旨是消除儲存空間瓶頸,非常適合用於資料密集型應用程式,例如 AI/機器學習和資料分析。Rapid Bucket 支援低於毫秒的延遲時間、最高 15 TB/s 的匯總輸送量,以及每秒 2,000 萬次查詢 (QPS)。超低延遲可即時擷取資料,並支援大規模執行即時推論應用程式。高處理量和 QPS 有助於讓昂貴的 GPU 叢集保持飽和狀態,大幅縮短模型訓練時間。
Rapid Bucket 術語
Cloud Storage 說明文件使用下列術語:
Rapid Bucket:這項產品可讓您建立 bucket,並指定可用區位置和 Rapid Storage 儲存空間級別。
快速儲存空間:在 Cloud Storage 中,這個儲存空間類別提供最高的資料存取和 I/O 作業效能。使用 Rapid Bucket 時,您建立的值區會使用快速儲存空間。如要進一步瞭解快速儲存空間,請參閱「儲存空間類別」。
可用區 bucket:位於可用區的 bucket。可用區值區中的物件一律儲存在 Rapid Storage,且可附加。
可用區 bucket 的功能
除了提供低延遲和高處理量,區域 bucket 還可讓您執行下列操作:
在區域值區中附加至物件,不必重新編寫完整物件
在執行作業時開啟物件並維護串流,加快後續讀取和寫入作業
用途
Rapid Bucket 最適合用於 AI/機器學習工作負載或其他資料密集型工作負載。這類工作負載包括模型檢查點、評估和服務,以及記錄和訊息佇列。也可以用於串流資料,或為資料庫提供儲存空間。
如要充分運用 Rapid Bucket 提供的低延遲和高處理量,請務必啟用 gRPC 直接連線。
存取可用區值區中的物件
如要享有區域儲存空間的效能優勢,請務必開啟物件以進行串流,並在對物件執行作業時維持串流。建立及維護串流時,您可以對物件執行後續讀取或寫入作業,延遲時間非常短。舉例來說,讀取 Parquet 檔案時,您可以透過單一要求,同時執行檔案中繼資料 (頁尾) 的初始讀取作業,以及後續讀取特定資料列的作業。相較於為每個步驟使用個別要求,這種做法更有效率。
建立物件串流後,使用 Cloud Storage FUSE 或 Cloud Storage 用戶端程式庫存取區域值區物件時,物件串流預設會保持開啟狀態。
您可以從任意數量的主機開啟物件的多個讀取串流。建立物件的讀取串流數量沒有限制。
附加物件
您可以將資料附加至可用區 bucket 中的物件。對物件進行附加作業時,適用下列語意:
開始寫入可附加的物件後,這些物件就會立即顯示在 bucket 命名空間中,且在寫入期間可供讀取。
物件可附加的內容數量或一次可附加的位元組數量沒有限制。物件達到 5 TiB 的大小上限前,您都可以附加資料。
當新的附加內容永久寫入或排清時,物件大小會即時增加。建立讀取串流時,您應預期物件大小更新會有最短的延遲時間。
可附加的物件一次只能有一個寫入者。如果為已存在寫入串流的物件建立新的寫入串流,Cloud Storage 會將錯誤傳回原始串流,且原始串流將無法再寫入。新的寫入器可以從上次保留的偏移量繼續附加,不必交錯附加至物件。
完成物件
物件完成後就無法再附加資料,但您仍可使用新版本覆寫物件。已完成物件的中繼資料仍可變動,例如新增標記和重新命名物件。
掛接可用區 bucket
您可以使用 Cloud Storage FUSE 或 Cloud Storage FUSE CSI 驅動程式,掛接及存取區域值區。請務必使用 Cloud Storage FUSE 3.7.2 以上版本。如要使用 Cloud Storage FUSE CSI 驅動程式,請確認 Google Kubernetes Engine 版本為 1.35.0-gke.3047001 以上。
定價
使用 Rapid Bucket 時,系統會收取資料儲存、作業和網路費用。詳情請參閱「定價」。
限制
區域 bucket 必須啟用階層命名空間和統一 bucket 層級存取權。
Google Cloud CLI 限制:
支援的最低 Google Cloud CLI 版本:支援區域值區的最低 gcloud CLI 版本為 553.0.0。舊版不支援區域值區。建議使用最新版 gcloud CLI,取得最新功能和錯誤修正。
不完整上傳作業的顯示狀態:與其他儲存空間類別的值區不同,區域值區中部分上傳的物件會立即顯示,其他儲存空間類別的值區則會在上傳完成後,才於命名空間中顯示物件。如果 Google Cloud CLI 上傳指令失敗或中斷,bucket 中可能會出現不完整的物件。您仍可重新執行指令,繼續上傳這些檔案。
覆寫物件:區域 bucket 適用標準 Google Cloud CLI 行為。覆寫物件時,如果目的地存在同名檔案或物件,Google Cloud CLI
cp、mv和rsync指令預設會覆寫該檔案或物件。如要防止覆寫,請使用--no-clobber標記。使用 Google Cloud CLI 時,系統不支援將資料附加至現有物件,必須重新上傳整個來源。物件最終化:使用 Google Cloud CLI 上傳至區域 bucket 的物件,可能偶爾會發生短暫延遲,物件的中繼資料才會完全同步。由於 Cloud Storage 使用最終一致性模型,如果中繼資料尚未更新,嘗試在上傳後立即下載物件可能會導致雜湊不符錯誤。
如果上傳後不久下載失敗,並顯示雜湊不符錯誤,請重試指令。系統會確保下載作業完全成功或明確失敗,不會發生部分下載或下載內容損毀的情況。
不相容性
區域值區與下列工具、產品和服務不相容:
工具
寫入標準非區域性 bucket 的用戶端程式庫 API。如果您打算使用用戶端程式庫寫入區域值區,請修改程式碼,改用支援的 API。如要瞭解支援的 API,請參閱「使用區域儲存空間中的物件」一文,查看用戶端程式庫的程式碼範例。
使用 gRPC 寫入,但不是
BidiWriteObject。可附加的物件僅支援可附加模式的BidiWriteObjectRPC 呼叫。其他 gRPC 寫入方法 (例如一次性或可續傳的寫入) 和其他 RPC 呼叫 (例如WriteObject) 則不支援。使用 JSON API 寫入
XML API 多部分上傳作業
資料保護與災難復原
物件版本管理
虛刪除
跨 bucket 複製
資料管理
Rapid Cache
自動調整級別
值區鎖定功能
編寫物件
物件訴訟保留
物件生命週期管理
SetStorageClass動作Object Retention Lock
遷移 bucket
支援續傳的上傳作業
重寫物件
要求者付費
存取控管
物件層級存取控制清單 (ACL)
CORS 設定
客戶提供的加密金鑰 (CSEK)
HMAC 金鑰
中繼資料
區域值區中的物件沒有 MD5 雜湊。
與不支援的功能和產品相關聯的中繼資料屬性,不會顯示在區域值區或可附加物件的資源表示中,或無法寫入。例如:
softDeleteTime和hardDeleteTime中繼資料屬性不會顯示在Objects資源的資源表示法中,因為區域值區中的物件不支援虛刪除。區域值區中物件的
storageClass中繼資料一律為RAPID值,且無法重新寫入,因為區域值區一律必須使用 Rapid Storage 儲存空間級別。
服務
- BigQuery
配額
每個專案的每個可用區都有預設的儲存空間配額。每個專案的每個區域,也有從 Cloud Storage 到Google 服務的預設輸出配額。如要查看這些配額,請參閱「配額與限制」。
如要瞭解如何監控資料輸出用量及要求更多頻寬,請參閱「頻寬用量監控」。
最佳做法
如要在使用 Cloud Storage FUSE 時,盡可能提升區域值區的效能,請保留已掛接物件的開啟檔案控制代碼,並用於多項作業。這樣一來,Cloud Storage FUSE 就能避免在每次重複讀取時執行不必要的網路往返行程,進而提升效能。
後續步驟
- 瞭解如何建立區域儲存空間。
- 瞭解如何使用可用區 bucket 中的物件。