因應高流量的最佳做法

隨著 AI 應用程式擴充及流量增加,設計時務必考量韌性和效能。本節將說明在嚴苛環境中有效使用 Model Armor 的最佳做法。

配額與系統限制

Model Armor 設有配額和系統限制,確保公平使用和系統穩定性。

  • 要求增加配額:如果預期流量會增加,請與 Cloud Customer Care 聯絡,要求調整 Model Armor API 配額。
  • 瞭解系統限制:設計應用程式時,請確保能妥善處理這些限制,必要時可將較大的輸入內容分塊處理。如需特定值,請參閱「配額與系統限制」。

為高流量和復原能力而設計

  • 用戶端重試並採用指數輪詢:在用戶端導入完善的錯誤處理機制。如果可以重試錯誤 (例如頻率限制或伺服器錯誤),請使用指數輪詢策略。這樣可避免暫時性問題導致服務負載過重。詳情請參閱「重試策略」。
  • 快取策略:如適用,請快取相同提示的 Model Armor 回應,尤其是常見或較不敏感的互動。快取時請注意資料更新間隔和安全性影響。
  • 非同步處理:對於非互動式工作負載,請考慮非同步處理要求。將要求加入佇列,並以符合 API 限制的速率處理要求,避免流量尖峰。
  • 優雅降級:設計應用程式時,請考慮如何處理 Model Armor 可能無法使用或發生錯誤的情況。建議您在記錄失敗時,實作備援機制或暫時略過特定檢查。

發揮最大效能

  • 盡量縮減酬載大小:只將必要資料傳送至 Model Armor 進行分析。避免使用過大的提示或檔案。
  • 最佳化範本設定:設定 Model Armor 範本時,只納入您使用案例所需的篩選條件和設定。啟用不必要的偵測器可能會增加延遲時間。
  • 將應用程式、資料和要求保留在同一個區域:部署應用程式並在同一個區域使用 Model Armor 端點,盡量減少網路延遲。詳情請參閱Model Armor 位置

監控與快訊

  • 設定快訊:在 Cloud Monitoring 中設定快訊,以便在您即將達到配額上限,或 Model Armor API 發生高錯誤率時收到通知。
  • 分析記錄:使用 Cloud Logging 分析 Model Armor 的使用模式、錯誤和效能指標。分析記錄檔有助於找出瓶頸或可最佳化的區域。詳情請參閱「篩選記錄」。