Model Armor 是一項 Google Cloud 服務,可提高 AI 應用程式的安全性。這項功能會主動篩選 LLM 提示詞和回覆,防範各種風險,並確保採用負責任的 AI 做法。無論您是在 Google Cloud 或其他雲端供應商部署 AI,Model Armor 都能協助您防範惡意輸入內容、驗證內容安全性、保護敏感資料、維持法規遵循狀態,以及在 AI 應用程式中持續強制執行 AI 安全與安全防護政策。
架構
這份架構圖顯示應用程式如何使用 Model Armor 保護 LLM 和使用者。以下步驟說明資料流程:
- 使用者向應用程式提供提示。
- Model Armor 會檢查傳入的提示,找出可能含有私密/機密內容。
- 提示詞 (或經過清理的提示詞) 會傳送至 LLM。
- LLM 會生成回覆。
- Model Armor 會檢查生成的內容,確認是否含有私密/機密資訊。
- 系統會將回應 (或經過處理的回應) 傳送給使用者。 Model Armor 會在回覆中詳細說明已觸發和未觸發的篩選器。
Model Armor 會過濾輸入內容 (提示詞) 和輸出內容 (回覆),防止 LLM 接觸或生成惡意或敏感內容。
用途
Model Armor 的用途包括:
安全性
- 降低在 LLM 提示或回覆中洩漏機密智慧財產 (IP) 和個人識別資訊 (PII) 的風險。
- 防範提示詞注入和越獄攻擊,避免惡意人士操縱 AI 系統執行非預期動作。
- 掃描 PDF 中的文字,找出敏感或惡意內容。
安全且負責任的 AI 技術
- 避免聊天機器人推薦競爭對手的解決方案,維護品牌完整性和顧客忠誠度。
- 機構可以篩除 AI 應用程式生成的社群媒體貼文,避免出現有害訊息,例如危險或仇恨內容。
Model Armor 範本
您可以透過 Model Armor 範本,設定 Model Armor 過濾提示詞和回覆的方式。這類範本是一組自訂的篩選條件和門檻,可針對不同的安全和安全性信心水準進行設定,方便您控管要標記的內容。
門檻代表信賴水準,也就是 Model Armor 對提示詞或回覆中包含違規內容的信心程度。舉例來說,您可以建立範本,透過 HIGH 門檻篩選出含有仇恨內容的提示,也就是 Model Armor 判斷提示含有仇恨內容的信賴度很高。LOW_AND_ABOVE門檻表示對該聲明有任何程度的信心 (LOW、MEDIUM 和 HIGH)。
詳情請參閱 Model Armor 範本。
Model Armor 信賴水準
您可以為負責任的 AI 安全類別 (情色、危險、騷擾和仇恨言論)、提示詞注入和越獄偵測,以及機密資料保護 (包括主題性) 設定信心水準。
如果可信度等級允許使用精細的門檻,Model Armor 會將其解讀為:
- 高:判斷訊息是否很有可能含有這類內容。
- 中等以上:判斷郵件是否含有中等或高機率的內容。
- 低等以上:判斷郵件是否含有低、中或高機率的內容。
Model Armor 篩選器
Model Armor 提供多種篩選器,協助您提供安全無虞的 AI 模型。可用的篩選器類別如下。
負責任的 AI 技術安全篩選器
您可以針對下列類別,以上述信賴度層級篩選提示和回覆:
| 類別 | 定義 |
|---|---|
| 仇恨言論 | 針對特定身分和/或受保護特質發表負面或有害言論。 |
| 騷擾 | 針對他人發表含有威脅、恐嚇、霸凌、辱罵或惡意意圖的言論。 |
| 情色露骨內容 | 提及性行為或其他猥褻情事的內容。 |
| 危險內容 | 宣傳有害商品、服務與活動,或是提供接觸管道。 |
系統預設會套用兒少性虐待內容 (CSAM) 篩選器,且無法關閉。
提示詞注入和越獄偵測
提示插入是一種安全漏洞,攻擊者會在文字輸入內容 (提示) 編寫特殊指令來誘騙 AI 模型。這樣一來,AI 可能忽視正常指令、透露私密/機密資訊,或是執行非預先設定的動作。就 LLM 而言,越獄是指規避模型內建的安全通訊協定和道德規範。這會導致 LLM 生成原本設計要避免的內容,例如有害、不道德和危險內容。
啟用提示詞注入和越獄偵測功能後,Model Armor 會掃描提示詞和回覆中的惡意內容。如果偵測到違規內容,Model Armor 會封鎖提示詞或回覆。
Sensitive Data Protection
Sensitive Data Protection 是一項 Google Cloud 服務,可協助您探索、分類及去識別化機密資料。Sensitive Data Protection 可識別機密元素、內容和文件,協助您降低資料洩漏風險,避免資料流入/流出 AI 工作負載。您可以在 Model Armor 中直接使用 Sensitive Data Protection,轉換、權杖化及遮蓋敏感元素,同時保留非敏感內容。Model Armor 可接受現有的檢查範本,這些範本是類似藍圖的設定,可簡化掃描和識別業務及法規遵循需求相關機密資料的程序。這樣一來,您就能確保其他使用 Sensitive Data Protection 的工作負載之間維持一致性,並可互通運作。
Model Armor 提供兩種私密/機密資料保護設定模式:
基本設定:在這個模式下,您可以指定要掃描的機密資料類型,藉此設定 Sensitive Data Protection。這個模式支援下列類別:
- 信用卡號碼
- 美國社會安全號碼 (SSN)
- 金融帳戶號碼
- 美國個人納稅識別號碼 (ITIN)
- Google Cloud 憑證
- Google Cloud API 金鑰
基本設定僅允許檢查作業,不支援使用 Sensitive Data Protection 範本。詳情請參閱「基本 Sensitive Data Protection 設定」。
進階設定:這個模式提供更多彈性和自訂選項,可透過 Sensitive Data Protection 範本進行設定。Sensitive Data Protection 範本是預先定義的設定,可讓您指定更精細的偵測規則和去識別化技術。進階設定支援檢查和去識別化作業。
Sensitive Data Protection 的信賴水準運作方式,與其他篩選器的信賴水準略有不同。如要進一步瞭解 Sensitive Data Protection 的信賴度,請參閱Sensitive Data Protection 比對可能性。如要進一步瞭解 Sensitive Data Protection,請參閱「Sensitive Data Protection 總覽」。
惡意網址偵測
惡意網址通常會偽裝成合法網址,因此成為網路釣魚攻擊、散布惡意軟體和其他線上威脅的強大工具。舉例來說,如果 PDF 內含惡意網址,可用於入侵處理 LLM 輸出的任何下游系統。
啟用惡意網址偵測功能後,Model Armor 會掃描網址,判斷是否為惡意網址。這樣一來,您就能採取行動,防止系統傳回惡意網址。
定義強制執行類型
強制執行定義偵測到違規情事後會發生的情況。如要設定 Model Armor 處理偵測結果的方式,請設定強制執行類型。Model Armor 提供下列強制執行類型:
- 僅檢查:Model Armor 會檢查違反設定的要求,但不會封鎖。
- 檢查並封鎖:Model Armor 會封鎖違反設定的要求。
詳情請參閱「定義範本的強制執行類型」和「定義樓層設定的強制執行類型」。
如要有效使用 Inspect only 並取得實用洞察資訊,請啟用 Cloud Logging。
如果未啟用 Cloud Logging,Inspect only 就不會產生任何實用資訊。
透過 Cloud Logging 存取記錄。依服務名稱篩選
modelarmor.googleapis.com。找出與範本中啟用的作業相關的項目。詳情請參閱「使用 Logs Explorer 查看記錄檔」。
Model Armor 底限設定
雖然 Model Armor 範本可為個別應用程式提供彈性,但機構通常需要在所有 AI 應用程式中建立基本保護層級。系統會在此使用 Model Armor 底限設定。這些規則會定義Google Cloud 資源階層中,在組織、資料夾或專案層級建立的所有範本,都必須符合最低要求。
詳情請參閱「Model Armor 底限設定」。
語言支援
Model Armor 篩選器支援以多種語言清除提示詞和回覆。
- 私密/機密資料保護篩選器支援英文和其他語言,具體取決於您選取的 infoTypes。
負責任的 AI 和提示詞注入和越獄偵測篩選器已通過下列語言的測試:
- 中文 (國語)
- 英文
- 法文
- 德文
- 義大利文
- 日文
- 韓文
- 葡萄牙文
- 西班牙文
這些篩選器也適用於許多其他語言,但結果品質可能有所不同。如需語言代碼,請參閱「支援的語言」。
啟用多語言偵測功能的方法有兩種:
啟用一次性設定:如果偏好簡化設定,可以使用 REST API,在 Model Armor 範本層級啟用多語言偵測功能,做為一次性設定。詳情請參閱「建立 Model Armor 範本」。
文件審查
文件中的文字可能含有惡意和敏感內容。Model Armor 可以篩選下列類型的文件,防範安全風險、提示詞注入和越獄活動、私密/機密資料外洩,以及惡意網址:
- CSV
- 文字檔案:TXT
- Microsoft Word 文件:DOCX、DOCM、DOTX、DOTM
- Microsoft PowerPoint 投影片:PPTX、PPTM、POTX、POTM、POT
- Microsoft Excel 工作表:XLSX、XLSM、XLTX、XLTM
定價
您可以購買 Model Armor,做為 Security Command Center 的整合式服務,也可以單獨購買。如要查看定價資訊,請參閱 Security Command Center 定價。
權杖
生成式 AI 模型會將文字和其他資料拆解成較小的單元,稱為「詞元」。Model Armor 會根據 AI 提示和回覆中的詞元總數計價。Model Armor 會限制每個提示和回覆中處理的符記數量。如需權杖限制,請參閱權杖限制。
後續步驟
- 瞭解 Model Armor 範本。
- 瞭解 Model Armor 底限設定。
- 瞭解 Model Armor 端點。
- 清理提示詞和回覆。
- 瞭解 Model Armor 稽核記錄。
- 排解 Model Armor 問題。