AML AI 每次會評估一個業務線的洗錢風險,零售銀行和商業銀行會使用不同的資料集、引擎版本和模型。
為 LoB 建立資料集時,您需要加入多個資料表。每個表格都應涵蓋足夠的時間範圍。本頁面將概要介紹您需要的資料表,並說明如何判斷每個資料表應涵蓋的時間範圍。
要使用的資料表
與 AML AI 搭配使用的 BigQuery 資料集應包含下列資料表:
- 當事人:與該 LoB 相關的所有當事人。
- 零售 LoB:在必要時間範圍內的任何時間點持有帳戶的所有零售銀行客戶。
- 商業 LoB:在必要時間範圍內,曾持有帳戶的所有商業銀行客戶 (法人和自然人實體)
- 請注意,部分顧客可能同時出現在這兩組資料中。舉例來說,自營人士可能同時擁有零售和商業帳戶。
- AccountPartyLink:完整記錄哪些帳戶由哪些當事人持有。如果「當事人」表格中的任何一方在必要時間範圍內的任何時間點是主要帳戶持有人,這項要求應涵蓋產品和服務的所有帳戶。
- 交易:在必要時間範圍內,AccountPartyLink 表格中帳戶的所有交易。
- RiskCaseEvent:任何風險案件和 Party 表格中任何參與方的所有風險案件事件 (請參閱事件類型值),且 AML_PROCESS_START (調查開始) 位於必要時間範圍內。這份表格可能包含事件時間早於或晚於必要時間範圍的事件。
- PartySupplementaryData:(如使用) 針對 0 到 100 個不重複的 party_supplementary_data_id 值,在 Party 資料表中,為必要時間範圍內的所有參與者加入這些欄位值的完整記錄。
使用其他資料
如要提供與識別洗錢風險相關的當事人額外資料 (結構定義中未涵蓋),請參閱「補充資料」。
資料集時間範圍
資料集中任何資料表應涵蓋的時間範圍,可針對任何指定作業計算如下。你需要瞭解:
- 結束時間。這是系統使用標籤的最新時間,也是系統用來產生特徵以進行調整的最新資料時間。
- 您要使用的引擎版本 (請參閱引擎版本清單)。
- 您要執行的作業:調整、訓練、預測或回溯測試。
- 如果是預測或回溯測試作業,您將執行作業的期間數 (在 API 呼叫中指定)。
首先,您應計算作業使用的週期數。這是指在指定結束時間前,AML AI 評估模型特徵的連續月數,且最後一個月必須是完整的日曆月。
- 如果是預測和回溯測試作業,這是指 API 呼叫中指定的預測或回溯測試期間數。
- 其他作業則取決於引擎版本和作業。舉例來說,v004.010 引擎版本會使用 18 個週期進行調整,並使用 15 個週期進行訓練。
接著,您應為每個資料表計算回溯期。這是 AML AI 從該資料表計算特定期間模型特徵時,所需資料的最大月數。
- 舉例來說,如果是 v004.010 引擎版本,交易和 AccountPartyLink 資料表的保留期限為 13 個月,RiskCaseEvent 資料表的保留期限為 12 個月,Party 和 PartySupplementaryData 資料表的保留期限則為 0 個月。
資料集必須涵蓋所選作業使用的所有期間回溯期。這項限制會因引擎版本而異,但通常是微調 18 個、訓練 15 個,且可設定預測或回溯測試。您可以使用下列公式,計算特定作業所需的完整日曆月資料數 (以結束時間為準):
- 期數 + 回溯期 - 1
以上述 v004.010 引擎版本為例,您需要最多 30 個月的資料,才能執行任何 AML AI 作業。
- 交易和 AccountPartyLink 資料表中的資料保留 18 + 13 - 1 = 30 個月,
- 風險案件事件資料表中的資料,以及資料表中風險案件的任何近期事件,共 18 + 12 - 1 = 29 個月
- 因此 Party 和 PartySupplementaryData 資料表會提供 18 + 0 - 1 = 17 個月的資料。
建議您在首次進行 AML AI 樣本測試時,使用涵蓋至少 36 個月的單一資料集。這是為了讓系統執行上述所有作業,並在回溯測試的最低 3 個月之外,額外評估模型幾個月。