Model Armor 会过滤 AI 应用的提示和回答。监控信息中心会提供此筛查流程生成的数据、指标和可视化图表。您可以利用这些分析洞见了解 Model Armor 如何保护 AI 应用,以及如何识别提示注入尝试或其他恶意活动。
准备工作
所需角色
如需获得访问监控信息中心所需的权限,请让您的管理员为您授予项目的 Monitoring Viewer (roles/monitoring.viewer) IAM 角色。如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
此预定义角色包含访问监控信息中心所需的权限。如需查看所需的确切权限,请展开所需权限部分:
所需权限
如需访问监控信息中心,您需要具备以下权限:
-
monitoring.monitoredResourceDescriptors.list -
monitoring.metricDescriptors.list
查看监控信息中心
在 Google Cloud 控制台中,前往 Model Armor 页面。
确认您正在查看的是已启用 Model Armor 的项目。
转到监控标签页。
监控 Model Armor 使用情况和性能
如需详细监控 Model Armor 的使用情况和性能,您可以使用 Cloud Monitoring 中提供的特定指标类型。以下指标类型可供选择:
modelarmor.googleapis.com/template/request_count:SanitizeAPI 请求数modelarmor.googleapis.com/template/pi_jb_request_count:提示注入和越狱过滤条件数量modelarmor.googleapis.com/template/rai_request_count:Responsible AI 过滤条件数量modelarmor.googleapis.com/template/sdp_request_count:Sensitive Data Protection 过滤条件数量modelarmor.googleapis.com/template/malicious_uri_request_count:恶意 URI 过滤条件数量modelarmor.googleapis.com/template/used_token_count:已使用的令牌数量
如需了解详情,请参阅 Model Armor 指标类型。
查看被标记或被屏蔽的互动次数
在监控信息中心内,查看互动次数,包括被标记和被屏蔽的互动。监控信息中心会显示以下指标:
- 互动总数:Model Armor 分析的提示和回答总数。
- 标记的互动次数:违反 Model Armor 模板或下限设置中配置的政策的互动次数。
- 被阻止的互动次数:如果您在
INSPECT_AND_BLOCK模式下配置了 Model Armor,则此指标表示被阻止的互动次数。这些被屏蔽的互动违反了下限设置或模板。
监控内容安全违规行为
在违规行为随时间变化图表中,监控检测到的违规行为数量随时间的变化。
检测到的违规行为分为以下几类:
- 提示注入和越狱:内容违规,表明存在包含恶意命令或越狱尝试的提示。如需了解详情,请参阅提示注入和越狱检测。
- 恶意网址:表示存在恶意网址的内容违规行为。如需了解详情,请参阅恶意网址检测。
- Responsible AI:安全过滤条件检测到的违规内容,例如骚扰和仇恨言论。如需查看 Responsible AI 类别的完整列表,请参阅 Responsible AI 安全过滤条件。
- 敏感数据:涉及存在敏感信息类型或您定义的自定义信息类型的内容违规行为。如需了解详情,请参阅 Sensitive Data Protection。
如需详细了解这些检测器,请参阅 Model Armor 过滤条件。
向视图应用过滤条件
在监控信息中心内应用这些过滤条件后,监控信息中心内的所有视图都会根据您选择的条件进行过滤:
- 模板/下限设置:根据关联的模板或下限设置过滤视图。
- 集成点:根据 Model Armor 集成过滤视图。
- 位置:根据互动处理位置过滤视图。
- 输入类型:根据评估的输入类型(提示或回答)过滤视图。
检查相关日志
如需探索与监控信息中心内的数据相关的日志条目,请在模板或下限设置中启用日志记录。您必须拥有查看日志所需的 IAM 角色。
如需检查所选时间段的日志,请在监控信息中心内依次点击 更多图表选项 > 检查相关日志。
将违规数据下载到 PNG 或 CSV 文件
如需将违规数据下载为 PNG 或 CSV 文件,请按照以下步骤操作:
- 在监控信息中心的违规情况随时间变化视图中,选择要下载数据的时间段。
- 依次点击 更多图表选项> 下载。
- 点击下载 PNG 或下载 CSV,以您偏好的格式下载数据。