瞭解配額和爆量限制
本文說明 Google Security Operations 的配額和爆量限制。
突發限制的定義
爆量限制是 Google Security Operations (簡稱 Google SecOps) 的服務限制,可做為資料擷取的速度限制,避免平台共用基礎架構的流量突然大幅增加。爆量限制會限制五分鐘內滾動視窗的擷取速率 (以 MB/秒或 GB/秒為單位)。
如何計算爆量限制
Google SecOps 會根據您購買的每年擷取量 (購買的容量) 和 Google SecOps 授權,為 Google SecOps 租戶指派爆量限制。
為因應預期變化和記錄檔流量的非預期尖峰,系統會將每日爆量上限設為特定範圍,讓您擷取的資料量介於預期每日平均值的一到三倍 (1× 至 3×) (計算方式為購買的年容量除以 365 天)。這項彈性容量配額旨在吸收標準擷取尖峰,不會中斷作業。舉例來說,如果購買的年容量為 365 TB,預期每日平均值為 1 TB。系統會將每日爆量上限嚴格設在 1 TB 至 3 TB 的範圍內 (換算為處理量範圍約為 12 MB/秒 至 36 MB/秒)。如果資料擷取量持續超出這項 1× 至 3× 的配額範圍,就必須增加購買的年容量。
系統會針對每個 Google SecOps 客戶租戶強制執行爆量限制。
下表顯示不同購買容量對應的爆量限制:
| 已購買容量示例 | 爆量上限範圍 | 5 分鐘爆發上限 | 達到最高爆發上限 (每小時) | 以最高爆量限制 (每日) 擷取 | 達到爆發上限的擷取量 (每年) |
|---|---|---|---|---|---|
| 100 TB | 3 到 10 MBps | 0.9 至 3 GB | ~34 GB | 約 822 GB | 300 TB |
| 500 TB | 16 至 48 MBps | 4.8 到 14.4 GB | ~171 GB | 約 4 TB | 1.5 PB |
| 1 PB | 32 至 97 MBps | 9.6 到 29 GB | ~343 GB | 約 8 TB | 3 PB |
| 5 PB | 158 至 476 MB/秒 | 47.4 至 143 GB | 約 1.7 TB | 約 41 TB | 15 PB |
| 30 PB | 0.96 至 2.86 GBps | 288 到 858 GB | ~10.3 TB | ~247 TB | 90 PB |
如果擷取流量突然大幅增加,系統可能會動態限制速率或暫時節流,以維護區域穩定性。
在這段期間,資料可能會有擷取延遲的情況,直到尖峰期結束為止。
如需超高處理量,請參閱「超高處理量的自訂容量規劃」。
提取式動態饋給的爆量限制適用性
Google SecOps 也會將以提取為基礎的擷取作業限制為每個記錄類型整體爆量上限的三分之一 (33%) (涵蓋所有動態饋給)。這項限制可確保以提取為主的擷取作業 (通常來自雲端來源) 不會耗盡租戶的整體爆量限制,並導致以推送為主的資料擷取方法 (例如使用 Bindplane 代理程式、轉送器或直接擷取至 Google SecOps API) 無法運作。
提取式擷取方法
提取式方法包括擷取方法 (在 Google SecOps 中稱為「來源類型」),Google SecOps 會主動連線至來源 API 來擷取資料。這包括 Google SecOps 支援的下列來源類型:
- 第三方 API
- Azure Event Hub
- 直接從 Google Workspace 擷取資料,以及 Google Cloud
- Cloud Storage
- Cloud Storage 動態饋給 (事件驅動)
- Amazon S3
- Amazon SQS
- Azure Blobstore
- 安全檔案傳輸通訊協定要求
- HTTP 要求
舉例來說,如果租戶的爆量上限設為 150 MBps,且租戶使用第三方 API 連接器 (也就是以提取為基礎的擷取方法) 擷取 Okta 使用者環境記錄,系統會將所有 Okta 資訊動態饋給的擷取速率總和限制為最高 [150/3 =] 50 MBps。即使整體資料擷取率在您分配的爆量上限內,系統仍會套用這項額外限制。
以提取為準的擷取方法,其記錄檔類型層級限制的例外狀況
雖然記錄類型層級的限制通常適用於以提取為基礎的動態饋給,但下列例外狀況除外:
- HTTPS 網路鉤子:這是以推送為基礎的方法,設有記錄類型層級的限制。
- Azure Event Hub:這是以提取為基礎的方法,沒有記錄類型層級的限制。
如何實作爆量限制
系統會每隔五分鐘強制執行爆量限制。舉例來說,如果爆量限制設為 50 MBps,每五分鐘最多可擷取 15 GB。如果前兩分鐘就擷取了 15 GB,系統會在該時間範圍的剩餘三分鐘內封鎖擷取作業。這項限制會在下一個五分鐘間隔開始時自動重設。
系統會以相同方式強制執行記錄類型層級的限制,但適用於個別記錄類型層級。舉例來說,如果您每五分鐘可擷取 5 GB 的資料,且任何單一記錄類型在前兩分鐘內擷取的資料量超過 5 GB,系統就會暫停擷取作業,直到該時間區間結束為止。下一個五分鐘間隔開始時,系統會自動重設限制。
超出突發流量限制會對資料造成什麼影響
如果超過突發流量上限,Google SecOps 會暫停擷取額外資料,並視資料擷取方式 (提取或推送) 觸發下列機制:
- 使用提取式方法:資料擷取作業會自動緩衝處理,客戶不必進行額外設定。資料會持續儲存在緩衝區儲存空間,直到限制重設,Google SecOps 才會繼續擷取資料。
- 使用推送式方法:Google SecOps 會暫時拒絕擷取資料,並傳回 HTTP 429「要求過多」錯誤。這會通知擷取機制暫停、緩衝及重試,確保不會遺失任何資料。
使用以推送為基礎的擷取方法時,緩衝和重試的責任在於您 (客戶),請參閱「客戶在資料緩衝和重試方面的責任」。
爆量限制遭拒並非資料遺失
請務必瞭解,爆量限制拒絕 (HTTP 429) 並非資料遺失事件。爆量限制拒絕 (HTTP 429 錯誤) 是指暫停擷取資料。
只要確保以推送為基礎的系統有足夠的磁碟緩衝區和重試邏輯,即使達到爆量上限,也只會造成些微延遲 (擷取延遲),絕不會永久遺失安全性遙測資料。
只有在傳送系統 (例如 Bindplane 代理程式、轉送器或指令碼) 忽略叢發限制拒絕錯誤,並刪除記錄項目而非儲存以供重試時,才會發生資料遺失。
客戶在資料緩衝和重試方面的責任
雖然 Google SecOps 會自動管理資料緩衝區,並重試使用提取式資料擷取方法擷取的資料,但您仍須負責管理資料緩衝區,並重試使用推送式資料擷取方法 (例如 HTTPS 網頁掛鉤、Bindplane、轉送器或 Cribl) 擷取的資料。
達到爆量上限時,您需要設定系統自動緩衝及重新傳送資料,才能有效處理資料溢位。
下表重點列出兩種擷取方法達到爆量上限時,Google SecOps 處理資料擷取作業的主要差異:
| 功能 | 提取式擷取 | 推送式擷取 |
|---|---|---|
| 運作方式 | Google SecOps 會主動連線至來源 API 來擷取資料。 | 您的系統會啟動連線,並將資料傳送給 Google。 |
| 資料緩衝和重試責任 | Google SecOps 會自動管理緩衝區。達到爆量上限時,Google SecOps 會暫停擷取額外資料。資料會保留在緩衝區儲存空間,直到上限重設,Google SecOps 才會繼續擷取。 緩衝區儲存空間最多只會儲存資料 90 天,之後就會捨棄資料。 |
客戶必須管理緩衝區。如果 Google SecOps 回覆 HTTP 429,傳送系統必須擷取這項錯誤,將資料儲存至本機佇列 (磁碟或記憶體),然後稍後再重試傳送。如果傳送者設為「失敗時捨棄」,資料就會遺失。 |
| 資料來源類型 | 第三方 API、Azure Event Hub、直接從 Google Workspace 和 Google Cloud、Cloud Storage、Cloud Storage 饋給 (事件驅動)、Amazon S3、Amazon SQS、Azure Blobstore、SFTP 要求、HTTP 要求擷取資料。 | Google SecOps 轉送器、Bindplane 代理程式、Pub/Sub、Amazon Kinesis Firehose、HTTPS Webhook、直接傳送至擷取 API。 |
| 使用者動作 | 請採取行動,確保資料擷取量符合您購買的容量。 | 此外,請確保已為擷取來源設定資料保留、緩衝和重試機制。 詳情請參閱「推送式系統的緩衝和重試設定」。 |
系統回填以提取為準的動態消息緩衝資料時
對於使用提取式擷取方法的資訊提供,當爆量限制時間範圍重設時,Google SecOps 會回填緩衝資料,並優先處理即時資料。這項機制可確保緩衝資料積壓不會干擾傳入的即時資料流量 (這可能會導致偵測延遲)。
如何查看已指派的爆量上限
如要確認 Google SecOps 租戶的爆量限制,請按照下列步驟操作:
- 在 Google SecOps 控制台中,依序前往「資訊主頁」>「資料擷取與健康狀態」。
- 查看「突發限制圖表 - 配額限制」。圖表會顯示您實際的擷取率,以及您獲派的上限 (水平線)。
追蹤是否即將達到或超出爆量上限
您可以透過內建資訊主頁或 Cloud Monitoring 追蹤使用率。
使用 Google SecOps 資訊主頁追蹤是否即將達到或超出爆量上限
依序前往「資訊主頁」 >「資料擷取與健康狀態」,然後查看下列項目:
- 擷取率圖表:顯示目前的輸送量。
- 突發拒絕圖表:顯示因超過突發限制而遭拒的記錄數量 (HTTP 429 錯誤)。
使用 Cloud Monitoring 追蹤是否即將達到或超出爆量上限
您可以使用 Metrics Explorer Google Cloud 建立自訂快訊。建議您建立擷取快訊,在擷取的位元組量超過爆量限制門檻時收到通知。
相關指標包括:
- 攝取量:
chronicle.googleapis.com/ingestion/log/bytes_count - 遭拒的磁碟區:`chronicle.googleapis.com/ingestion/log/quota_rejected_bytes_count
立即可用的快訊政策
Google SecOps 在 Cloud Monitoring 中提供立即可用的快訊政策,您可以啟用這些政策來監控擷取配額。
如要尋找並啟用這些政策,請按照下列步驟操作:
- 在 Google Cloud 控制台中,依序前往「Monitoring」(監控) >「Integrations」(整合)。
- 從整合清單中選取「Chronicle Security」。
- 按一下「快訊」分頁標籤。
- 查看並啟用下列範例警告政策:
- 擷取配額限制即將達到警告政策:偵測資料擷取量是否即將達到配額限制。
- 擷取配額遭拒警報政策:偵測擷取要求是否因擷取配額不足 (HTTP 429 錯誤) 而遭拒。
範例
以下各節包含監控和警報的 PromQL 查詢範例。
查看爆量限制用量
如要查看爆量上限用量,請使用下列 PromQL 查詢:
100 * sum(rate(chronicle_googleapis_com:ingestion_log_bytes_count{monitored_resource="chronicle.googleapis.com/Collector"}[10m]))/min(min_over_time(chronicle_googleapis_com:ingestion_quota_limit{monitored_resource="chronicle.googleapis.com/Collector"}[10m]))
查看超過突發上限後遭拒的位元組數
如要查看超過突發流量限制後遭拒的位元組數,請使用下列 PromQL 查詢:
topk(5, sum by ("collector_id","log_type")(rate({"__name__"="chronicle.googleapis.com/ingestion/log/quota_rejected_bytes_count","monitored_resource"="chronicle.googleapis.com/Collector","quota_type"="SHORT_TERM_DATA_RATE"}[${__interval}])))
達到爆量上限的 70% 時觸發快訊
如要在達到突發流量限制的 70% 時觸發快訊,請使用下列 PromQL 查詢:
100 * topk(5, sum by ("collector_id","log_type")(rate({"__name__"="chronicle.googleapis.com/ingestion/log/quota_rejected_bytes_count","monitored_resource"="chronicle.googleapis.com/Collector","quota_type"="SHORT_TERM_DATA_RATE"}[${__interval}]))) > 70
如要進一步瞭解如何設定擷取警報,請參閱「使用 Cloud Monitoring 取得擷取洞察資料」。
處理因推送式方法而導致的爆量限制遭拒情況
如果使用推送式方法傳送資料時,因達到傳入資料的突發流量上限而發生拒絕錯誤 (HTTP 429),建議採取下列步驟:
- 確認緩衝:確認擷取來源正在緩衝資料並重試。
- 最佳化擷取作業:檢查擷取指令碼,確保不會傳送不必要的資料,或一次傳送大量批次資料而造成 API 負載過重。盡可能分散上傳歷史資料的時間。使用資料處理管道功能,篩除多餘資料。
- 等待:如果是暫時性尖峰,通常只要等待五分鐘視窗重設,然後再試一次即可。
如需設定範例,請參閱「適用於推送式系統的緩衝和重試設定」。
為超高處理量自訂容量規劃
無論本文件其他章節的說明為何,超過 3 GBps 的資料擷取總處理量都視為超高總處理量。如果您打算進行大規模資料遷移、預期會持續出現超高總處理量,或是執行的架構會持續產生大量擷取突發流量,請務必與您的帳戶團隊聯絡,以便佈建自訂容量。
由於專屬區域容量擴充作業可能需要數週才能部署完成,請在預期發生極端擷取事件的至少 90 天前通知 Google Cloud 支援團隊,確保能滿足您的輸送量需求。
常見問題
以下各節提供常見問題的解答。
我可以提高爆量限制嗎?
如果預期資料擷取量會永久增加,請與 Google SecOps 業務代表聯絡,提高購買的容量。
我可以提高以提取為基礎的動態饋給的記錄類型層級限制嗎?
如要提高特定記錄類型的記錄類型層級限制,請事先使用 Google SecOps 技術支援提出要求。
提高某個記錄檔類型的記錄檔類型層級上限,不會影響套用至其他記錄檔類型的上限,也不會影響整體爆量上限。
可以追蹤資料積壓量嗎?
目前我們尚不支援這項功能,
如何清除資料積壓?
如果累積了大量資料積壓,且想清除積壓資料來釋出爆量限制配額,可以採取下列做法:
- 購買額外容量即可提高上限。
- 停用數量突然暴增的特定動態饋給。
要求 Google SecOps 技術支援團隊刪除積壓工作。
如要捨棄待處理項目,系統會暫時停用資料動態饋給,直到所有回填資料的重試要求都處理完畢為止。這段期間你無法擷取任何新資料。
清除積壓項目後,系統會重新啟用動態消息,您就能看到新的資料流入。視待處理事項的大小而定,這項作業可能需要數分鐘至數小時才能完成。
資料擷取至資料處理管道時,是否也適用爆量限制?
將原始記錄資料傳送至 Google SecOps 資料處理管道的資料動態饋給,其適用於資料動態饋給的擷取速率上限,會設定為高於租戶的爆量上限。
如果超出突發流量上限,資料處理管道會停止接受額外要求,如下所示:
- 使用提取式方法:系統會自動緩衝處理擷取作業,不需要額外設定。
- 使用推送式方法:Google SecOps 會暫時拒絕資料,並傳回 HTTP 429「要求過多」錯誤。
觸發爆量限制後轉換的任何資料,都會暫時緩衝到內部佇列,直到後續五分鐘時間區間的限制重設為止。
如果我的爆量上限低於合約規定,該怎麼辦?
如果突發流量上限低於合約規定,請與 Google 支援團隊聯絡 (請參閱「Google SecOps 支援」),並提供預期突發流量上限。
還有其他問題嗎?向社群成員和 Google SecOps 專業人員尋求答案。