AML AI 术语表

本词汇表定义了与 AML AI 相关的专用术语。如需了解一般的机器学习术语,请参阅机器学习术语库

A

ADC

每个 API 客户端库都提供了一种使用本地应用默认凭据 (ADC) 的方法

如需了解本地 ADC 凭据与 gcloud CLI 凭据之间的区别,请参阅 gcloud CLI 凭据和 ADC 凭据

B

回测
回测通过将模型生成的风险得分与历史调查的实际结果进行比较,使用历史数据来评估模型的性能(观测到的召回率)。
回测结果
系统会创建一个 AML AI BacktestResult 资源(也称为“回测结果”),以测试模型数据集上的表现。
如需了解详情,请参阅评估模型

C

核心银行数据
核心银行数据包括有关当事方、交易和账户持有情况的数据。这有助于 AML AI 了解您的客户及其银行活动,从而检测出风险特征和行为。

D

数据验证
AML AI 在创建数据集、引擎配置、模型、回测结果或预测结果时会进行数据验证检查。如果指定的数据集未通过数据验证,则不会创建资源,并且会生成数据验证错误(指明问题的性质)。
如需了解详情,请参阅数据验证错误
数据集

AML AI 数据集资源(或简称为“数据集”)用于指定符合 AML 输入数据模型的数据,这些数据可用于生成模型、评估模型性能,以及针对每个当事方生成风险评分和可解释性。

如需了解详情,请参阅了解 AML 数据模型和要求

E

结束时间

AML AI 操作(例如模型训练、评估示例和模型输出)使用由银行在数月内收集的数据中的示例组成的数据集。这些操作需要您指定结束时间,即数据集时间跨度内的某个日期。根据此结束时间,相应操作将使用结束时间之前的最后一个完整日历月作为操作中使用的最后一个数据月份。

操作的结束时间和所用月份必须在关联数据集的日期范围内。

例如,模型训练操作使用 15 个周期,最长回溯窗口为 13 个月。数据集的日期范围为 2020 年 10 月 15 日至 2023 年 5 月 21 日。训练结束时间为 2023 年 4 月 12 日。训练使用 2021 年 1 月 1 日至 2023 年 3 月 31 日的示例,即结束时间之前的 27 个完整日历月。此时间段在数据集的日期范围内。

引擎配置

AML AI EngineConfig 资源(也称为“引擎配置”)用于指定在生成和评估 AML AI 模型以及生成风险评分和可解释性时使用的参数。

其中一些参数是在用于创建引擎配置的 API 调用中指定的,例如引擎版本和预期调查量。其他形参由 AML AI 使用指定的数据集自动生成,例如调整后的超参数。

如需了解详情,请参阅配置引擎

引擎版本

AML AI EngineVersion 资源(也称为“引擎版本”)定义了 AML AI 检测风险的方式,包括模型调优、训练和评估,以及总体 AML 数据模型和特征系列。

配置 AML AI 引擎需要您指定要使用的引擎版本。然后,系统会使用该引擎版本来训练和评估具有相应引擎配置的模型,并生成风险得分和可解释性。

引擎版本命名结构如下所示,其中引擎类型表示支持的业务线,而引擎子类型、调优、主要版本和次要版本会随着新行为的实现而更新。

示例版本包括:

  • aml-retail.default.v004.008.202411-001
  • aml-commercial.default.v004.008.202411-001
引擎版本控制

如需详细了解如何管理引擎版本,请参阅管理引擎版本

评估

另请参阅回测

可解释性

AML AI 模型用于识别表现出洗钱高风险行为或特征的当事方。可解释性表示哪些行为或特征对特定方的风险得分贡献最大。

如需了解详情,请参阅了解预测输出

另请参阅预测

导出元数据

多个 AML AI 资源会存储与性能和数据质量相关的其他信息,这些信息可通过导出元数据操作进行访问。

如需了解详情,请参阅 AML 输出数据模型

F

功能系列
功能系列是相关机器学习功能的集合,可提供直观且易于理解的分类,以便为调查人员和内部审核团队提供信息。

I

不可变实体

AML AI 需要能够重新创建不同时间点的数据视图,以进行调优、训练和回测。为此,AML AI 会区分可变实体(值会随时间变化)和不可变实体(值不会变化)。

例如,可变实体可能是您的支票账户余额,该余额会随时间变化;但不可变实体可能是某个事件,例如 2024 年 7 月 2 日 12:00:00 从您的支票账户中提取 50 美元,由于这是某个时间点的快照,因此不会发生变化。

AML 输入数据模型中,表示不可变实体的表没有 validity_start_timeis_entity_deleted 字段。这包括 RiskCaseEvent 表。

如需了解详情,请参阅了解数据随时间的变化

另请参阅可变实体

instance

AML AI 实例资源(也称为“实例”)位于所有其他 AML AI 资源的根目录下,必须先创建该资源,然后才能使用其他 AML AI 资源。您可以在同一项目内的同一区域中创建多个实例。

如需了解详情,请参阅创建 AML AI 实例

调查流程

调查流程涵盖由提醒触发的整个调查或一系列调查。流程从调查的第一部分开始时开始,到预计不会再从该调查中获得任何结果时结束。

如需了解详情,请参阅风险支持请求的生命周期

L

LOB
业务线 (LOB) 可区分 AML AI 中的零售和商业银行客户。数据集、引擎版本和当事人注册信息与特定业务线、零售或商业相关联。
回溯期

对于调优、训练、预测或回测操作使用的每个周期,AML AI 都要求数据集涵盖回溯窗口,以便生成随时间跟踪行为的特征。此回溯期取决于引擎版本。

如需了解详情,请参阅了解数据范围和时长

LRO

多项 AML AI 操作(包括引擎配置、训练、回测和预测)都会启动长时间运行的操作 (LRO)。

如需了解详情,请参阅管理长时间运行的操作

M

缺失性

在创建以下 AML AI 资源时,系统会针对所有特征系列计算缺失性指标:引擎配置、模型、回测结果和预测结果。

此指标显示了某个特征系列中所有特征的缺失值比例。如果任何特征族在调优、训练、评估和预测之间的缺失性发生显著变化,则可能表明所用数据集存在不一致性。

model

AML AI 模型资源(也称为“模型”)表示经过训练的模型,可用于生成风险评分和可解释性。

可变实体

AML AI 需要能够重新创建不同时间点的数据视图,以进行调优、训练和回测。为此,AML AI 会区分可变实体(值会随时间变化)和不可变实体(值不会变化)。

例如,可变实体可能是您的支票账户余额,该余额会随时间变化;但不可变实体可能是某个事件,例如 2024 年 7 月 2 日 12:00:00 从您的支票账户中提取 50 美元,由于这是一个时间点快照,因此不会发生变化。

AML 输入数据模型中,表示可变实体的表具有 validity_start_timeis_entity_deleted 字段。这包括 PartyAccountPartyLinkTransactionPartySupplementaryData 表。

如需了解详情,请参阅了解数据随时间的变化

另请参阅不可变实体

O

observed-recall

AML AI 使用观测召回率指标衡量模型在历史数据上的表现。

此指标显示了在所选时间段内,被评估模型在可疑活动时间段内识别为高风险的正面标记方(例如客户流失)所占的比例。

P

party

AML 输入数据模型中,当事方表示银行的客户。一方可以是自然人,也可以是法人实体。

如需了解详情,请参阅 Party 表。

另请参阅注册方

预测

预测是指使用模型生成风险得分可解释性,这些信息可用于 AML 调查流程

预测结果

AML AI PredictionResult 资源(也称为“预测结果”)是使用模型进行预测的结果。

如需详细了解如何生成风险得分和可解释性,以及如何在调查过程中使用这些信息,请参阅生成风险得分和可解释性部分中的页面。

R

注册方
可用于创建预测结果(例如,方级风险得分和可解释性)之前,必须先为该方注册相应的业务线
风险案例

风险案例涵盖针对不同当事方的调查流程或一组相关调查流程。

请参阅 RiskCaseEvent 表。

风险调查数据

AML AI 会使用风险调查数据来了解您的风险调查流程和结果,并生成训练标签。

风险评分

AML AI 模型用于识别表现出洗钱高风险行为或特征的当事方。这是通过风险评分完成的。

风险得分介于 0 到 1 之间。得分越高,风险越高。不过,风险得分不应直接解读为洗钱活动的概率。

如需了解详情,请参阅了解预测输出

风险类型学

AML AI 可以识别与交易监控相关的五种核心 AML 风险类型中的洗钱风险。

通过充分的调查和补充方数据(请参阅补充数据表),AML AI 可以涵盖更多类型。

S

补充数据

补充数据是指 AML AI 架构的核心银行数据风险调查数据区域中包含的数据之外的其他数据,这些数据与预测洗钱风险相关。

例如,您可以识别并添加风险指标,以帮助模型更好地预测其他情况下无法很好覆盖的风险类型。

可以使用 PartySupplementaryData 表向数据集添加补充数据。

可疑活动时间段

可疑活动期是指您认为被调查方表现出可疑行为的一段时间。此标签用于模型评估(例如,回测结果的召回率指标),以确认在存在可疑活动的月份,高风险客户是否被识别出来。可疑活动时间段有助于模型在正确的时间识别风险,例如在可疑活动发生期间或之后不久。可疑活动时间段用于验证(以进行调整和训练),还用于回测中的召回率指标。

如需了解详情,请参阅风险支持请求的生命周期

T

训练
AML AI 会使用指定引擎配置中的超参数(请参阅调优)来训练模型。
调优
调优是指优化模型超参数。AML AI 在创建引擎配置时会进行调优。

V

有效性开始时间

AML AI 使用可变实体的有效性开始时间来构建银行在给定时间点已知的信息视图。这样一来,AML AI 就能准确训练模型,这些模型可重复用于最新数据(即银行已知的数据),从而生成高保真风险评分。

指定行的有效性开始时间表示银行已知且正确的最早时间。

如需了解详情,请参阅了解数据随时间的变化