本頁說明 Model Armor 的重要概念。
Model Armor 範本
您可以透過 Model Armor 範本,設定 Model Armor 篩選提示和回應的方式。這些篩選器和門檻可自訂,適用於不同的安全和安全性信心水準,方便您控管要標記的內容。
門檻代表信賴水準。也就是說,Model Armor 對於提示或回覆是否含有違規內容的信心程度。舉例來說,您可以建立範本,透過 HIGH 門檻篩選出含有仇恨內容的提示,也就是 Model Armor 判斷提示含有仇恨內容的信心水準很高。LOW_AND_ABOVE門檻表示對該聲明有任何程度的信心 (LOW、MEDIUM 和 HIGH)。
Model Armor 篩選器
Model Armor 提供多種篩選器,協助您提供安全無虞的 AI 模型。以下是篩選器類別的詳細說明。
負責任的 AI 安全性篩選器
系統會根據上述信賴度,篩選下列類別的提示和回覆:
| 類別 | 定義 |
|---|---|
| 仇恨言論 | 針對特定身分和/或受保護特質發表負面或有害言論。 |
| 騷擾 | 針對他人發表含有威脅、恐嚇、霸凌、辱罵或惡意意圖的言論。 |
| 情色露骨內容 | 提及性行為或其他猥褻情事的內容。 |
| 危險內容 | 宣傳有害商品、服務與活動,或是提供接觸管道。 |
系統預設會套用兒少性虐待內容 (CSAM) 篩選器,且無法關閉。
提示詞注入和越獄偵測
提示插入是一種安全漏洞,攻擊者會在文字輸入內容 (提示) 編寫特殊指令來誘騙 AI 模型。這樣一來,AI 可能忽視正常指令、透露私密/機密資訊,或是執行非預先設定的動作。就 LLM 而言,越獄是指略過模型內建的安全通訊協定和道德規範。這會導致 LLM 生成原本設計要避免的內容,例如有害、不道德和危險內容。
啟用提示注入和越獄偵測功能後,Model Armor 會掃描提示和回覆中的惡意內容。如果偵測到這類內容,Model Armor 會封鎖提示或回覆。
Sensitive Data Protection
您可能會不慎或刻意將個人姓名或地址等私密資料傳送給模型,或在模型的回應中提供這類資料。
Sensitive Data Protection 是一項 Google Cloud 服務,可協助您探索、分類及去識別化機密資料。Sensitive Data Protection 可辨識機密元素、內容和文件,協助您降低 AI 工作負載資料外洩的風險。您可以在 Model Armor 中直接使用機密資料防護功能,轉換、權杖化及遮蓋敏感元素,同時保留非敏感內容。Model Armor 可接受現有的檢查範本,這些範本是類似藍圖的設定,可簡化掃描和識別業務及法規遵循需求相關機密資料的程序。這樣一來,您就能確保使用 Sensitive Data Protection 的其他工作負載之間維持一致性及互通性。
Model Armor 提供兩種模式,可設定 Sensitive Data Protection:
基本 Sensitive Data Protection 設定:這個模式可直接指定要掃描的私密/機密資料類型,簡化 Sensitive Data Protection 的設定程序。這項功能支援六個類別,分別是
CREDIT_CARD_NUMBER、US_SOCIAL_SECURITY_NUMBER、FINANCIAL_ACCOUNT_NUMBER、US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER、GCP_CREDENTIALS、GCP_API_KEY。基本設定僅允許檢查作業,不支援使用 Sensitive Data Protection 範本。詳情請參閱「基本 Sensitive Data Protection 設定」。進階 Sensitive Data Protection 設定:這個模式可啟用 Sensitive Data Protection 範本,提供更靈活的自訂功能。機密資料保護範本是預先定義的設定,可讓您指定更精細的偵測規則和去識別化技術。進階設定支援檢查和去識別化作業。
雖然可以為 Sensitive Data Protection 設定信賴度,但運作方式與其他篩選器的信賴度略有不同。如要進一步瞭解 Sensitive Data Protection 的信賴度層級,請參閱「Sensitive Data Protection 比對可能性」。如要進一步瞭解 Sensitive Data Protection,請參閱「Sensitive Data Protection 總覽」。
惡意網址偵測
惡意網址通常會偽裝成合法網址,因此成為網路釣魚攻擊、散布惡意軟體及其他網路威脅的強大工具。舉例來說,如果 PDF 內含惡意網址,可用於入侵處理 LLM 輸出的任何下游系統。
啟用惡意網址偵測功能後,Model Armor 會掃描網址,判斷是否為惡意網址。這樣一來,您就能採取行動,防止系統傳回惡意網址。
Model Armor 信賴度
您可以為負責任的 AI 安全類別 (即露骨色情、危險、騷擾和仇恨言論)、提示注入和越獄,以及敏感資料保護 (包括主題性) 設定信賴度。
如果信心水準允許使用精細的門檻,Model Armor 會將其解讀為:
- 高:判斷訊息是否含有高機率的內容。
- 中等以上:判斷郵件是否含有中等或高機率的內容。
- 低等以上:判斷郵件是否含有低、中或高機率的內容。
定義強制執行類型
強制執行定義偵測到違規情事後會發生的情況。如要設定 Model Armor 處理偵測結果的方式,請設定強制執行類型。Model Armor 提供下列強制執行類型:
- 僅檢查:檢查違反設定的要求,但不加以封鎖。
- 檢查並封鎖:封鎖違反設定的要求。
如要有效使用 Inspect only 並取得實用洞察資訊,請啟用 Cloud Logging。
如果未啟用 Cloud Logging,Inspect only 不會產生任何實用資訊。
透過 Cloud Logging 存取記錄檔。依服務名稱篩選
modelarmor.googleapis.com。找出與範本中啟用的作業相關的項目。詳情請參閱「使用記錄檔探索工具查看記錄檔」。
PDF 審查
PDF 中的文字可能含有惡意和敏感內容。Model Armor 可以篩選 PDF,防範提示注入和越獄活動,並檢查是否含有機密資料和惡意網址。
Model Armor 底價設定
雖然 Model Armor 範本可為個別應用程式提供彈性,但機構通常需要在所有 AI 應用程式中建立基本防護等級。這時會使用 Model Armor 底層設定。這些規則會規定在 Google Cloud 資源階層中特定位置 (也就是機構、資料夾或專案層級) 建立的所有範本,都必須符合最低要求。
詳情請參閱「Model Armor 樓層設定」。
後續步驟
- 瞭解 Model Armor 總覽。
- 瞭解 Model Armor 範本。
- 瞭解 Model Armor 底限設定。
- 清除提示和回覆中的敏感資訊。
- 瞭解 Model Armor 稽核記錄。
- 排解 Model Armor 問題。