控管串流並行

本頁將概述串流並行控制項,例如並行變更資料擷取 (CDC) 工作和補充工作數量上限。您可以增加或減少這些參數的值,藉此控制串流效能。

並行控制總覽

您可以透過並行控制項加快回填和 CDC 速度,或平衡來源資料庫的負載。如果需要更高的輸送量,且資料庫可承受更高的負載,則可以提高 CDC 和回填作業的並行程度。反之,如果資料庫負載過高,且您想避免負載過重,則可以降低這些參數的值。

CDC 工作數量上限

maxConcurrentCdcTasks 參數可讓您控管串流平行執行的 CDC 工作數量。如要擴充 CDC 輸送量,請增加這個參數的值,讓 Datastream 同時處理更多 CDC 記錄檔。

參數的主要特徵包括:

  • 預設值為 5。您可以將這個參數設為介於 150 之間的值 (含頭尾)。
  • 這項參數僅適用於 Oracle 和 MySQL 來源。
  • 只有在可供讀取的資料庫記錄檔數量多於 CDC 工作時,這個參數才會產生影響。記錄檔設定由來源資料庫設定參數控管,包括記錄檔大小上限和記錄檔輪替時間間隔上限。如要進一步瞭解這些參數,請參閱 Oracle 和 MySQL 說明文件。
  • 如果減少並行 CDC 工作數量,Datastream 可能會落後資料庫記錄,最終可能導致記錄位置遺失和串流失敗。

補充作業數量上限

maxConcurrentBackfillTasks 參數可讓您控管串流可平行執行的回填工作數量。您可以增加或減少這個值,藉此控制遞補的輸送量。

參數的主要特徵包括:

  • 預設值為 15。您可以將這個參數設為介於 150 之間的值 (含頭尾)。
  • 增加回填並行作業的風險很高,因為回填作業會對資料庫效能造成重大影響。每個回填工作都會對資料表執行未經篩選的 SELECT 查詢,而對於大型資料表,這類查詢會傳回大量資料列。
  • 減少回填並行作業不會對來源資料庫造成負面影響,只會導致回填作業耗費較長時間。

變更並行控制項的值

您可以使用 Datastream API 變更並行控制參數的值。

後續步驟