隨著 AI 應用程式擴充及流量增加,設計時務必考量韌性和效能。本節將說明在嚴苛環境中有效使用 Model Armor 的最佳做法。
配額與系統限制
Model Armor 設有配額和系統限制,確保公平使用和系統穩定性。
- 要求增加配額:如果預期流量會增加,請與 Cloud Customer Care 聯絡,要求調整 Model Armor API 配額。
- 瞭解系統限制:設計應用程式時,請確保能妥善處理這些限制,必要時可將較大的輸入內容分塊處理。如需特定值,請參閱「配額與系統限制」。
為高流量和復原能力而設計
- 用戶端重試並採用指數輪詢:在用戶端導入完善的錯誤處理機制。如果可以重試錯誤 (例如頻率限制或伺服器錯誤),請使用指數輪詢策略。這樣可避免暫時性問題導致服務負載過重。詳情請參閱「重試策略」。
- 快取策略:如適用,請快取相同提示的 Model Armor 回應,尤其是常見或較不敏感的互動。快取時請注意資料更新間隔和安全性影響。
- 非同步處理:對於非互動式工作負載,請考慮非同步處理要求。將要求加入佇列,並以符合 API 限制的速率處理要求,避免流量尖峰。
- 優雅降級:設計應用程式時,請考慮如何處理 Model Armor 可能無法使用或發生錯誤的情況。建議您在記錄失敗時,實作備援機制或暫時略過特定檢查。
發揮最大效能
- 盡量縮減酬載大小:只將必要資料傳送至 Model Armor 進行分析。避免使用過大的提示或檔案。
- 最佳化範本設定:設定 Model Armor 範本時,只納入您使用案例所需的篩選條件和設定。啟用不必要的偵測器可能會增加延遲時間。
- 將應用程式、資料和要求保留在同一個區域:部署應用程式並在同一個區域使用 Model Armor 端點,盡量減少網路延遲。詳情請參閱Model Armor 位置。
監控與快訊
- 設定快訊:在 Cloud Monitoring 中設定快訊,以便在您即將達到配額上限,或 Model Armor API 發生高錯誤率時收到通知。
- 分析記錄:使用 Cloud Logging 分析 Model Armor 的使用模式、錯誤和效能指標。分析記錄檔有助於找出瓶頸或可最佳化的區域。詳情請參閱「篩選記錄」。