Comprendere l'ambito e la durata dei dati

AML AI è configurata per valutare il rischio di riciclaggio di denaro per una linea di business alla volta con set di dati, versioni del motore e modelli separati per le banche retail e commerciali.

Quando crei un set di dati da utilizzare con una LOB, devi includere diverse tabelle. Ogni tabella deve coprire un intervallo di tempo sufficiente. Questa pagina fornisce una panoramica delle tabelle necessarie e mostra come determinare l'intervallo di tempo che ognuna deve coprire.

Tabelle da utilizzare

Il set di dati BigQuery utilizzato con AML AI deve contenere le seguenti tabelle:

  • Parte: tutte le parti pertinenti a quella LOB.
    • Retail LoB: tutti i clienti di servizi bancari al dettaglio che hanno avuto conti in un determinato momento nell'intervallo di tempo richiesto.
    • Linea di business commerciale: tutti i clienti di banche commerciali (persone giuridiche e fisiche) che hanno avuto conti in un determinato momento dell'intervallo di tempo richiesto
    • Tieni presente che alcuni clienti possono essere rappresentati in entrambi i set di dati. Ad esempio, i lavoratori autonomi potrebbero avere sia account retail che commerciali.
  • AccountPartyLink: cronologia completa degli account detenuti dalle parti. Ciò dovrebbe coprire tutti gli account per prodotti e servizi quando una delle parti nella tabella Parte era il titolare dell'account principale in un qualsiasi momento dell'intervallo di tempo richiesto.
  • Transazione: tutte le transazioni per gli account nella tabella AccountPartyLink per l'intervallo di tempo richiesto.
  • RiskCaseEvent: tutti gli eventi del caso di rischio (vedi i valori del tipo di evento) per qualsiasi caso di rischio e parte nella tabella Party con un valore AML_PROCESS_START (inizio dell'indagine) nell'intervallo di tempo richiesto. Questa tabella potrebbe includere eventi con un orario precedente o successivo all'intervallo di tempo richiesto.
  • PartySupplementaryData: (se utilizzato) per un massimo di 100 valori party_supplementary_data_id unici, includi una cronologia completa dei valori di questi campi per tutte le parti nella tabella Party per l'intervallo di tempo richiesto.

Utilizzo di dati aggiuntivi

Consulta Dati supplementari se disponi di dati aggiuntivi sulle parti (non altrimenti coperti dallo schema) pertinenti per l'identificazione del rischio di riciclaggio di denaro.

Intervallo di tempo del set di dati

L'intervallo di tempo che deve coprire qualsiasi tabella in un set di dati può essere calcolato come segue per una determinata operazione. Devi sapere:

  • L'ora di fine. Questo è l'ultimo momento a partire dal quale vengono utilizzate le etichette e i dati per generare le funzionalità di ottimizzazione.
  • La versione del motore (vedi l'elenco delle versioni del motore) che utilizzerai.
  • L'operazione che eseguirai: ottimizzazione, addestramento, previsione o backtest.
  • Per le operazioni di previsione o backtest, il numero di periodi per cui verrà eseguita l'operazione, da specificare nella chiamata API.

Informazioni sulla durata dell'ambito dei dati

Innanzitutto, devi calcolare il numero di periodi che verranno utilizzati per l'operazione. Si tratta del numero di mesi consecutivi che terminano nell'ultimo mese di calendario completo prima dell'ora di fine specificata, per i quali l'AI per l'antiriciclaggio valuterà le funzionalità del modello.

  • Per le operazioni di previsione e backtest, questo è il numero di periodi di previsione o backtest specificati nella chiamata API.
  • Per le altre operazioni, dipende dalla versione del motore e dall'operazione. Ad esempio, le versioni del motore v004.010 utilizzano 18 periodi per l'ottimizzazione e 15 per l'addestramento.

Successivamente, devi calcolare la finestra di analisi per ogni tabella. Questo è il numero massimo di mesi di dati necessari da questa tabella per consentire all'AI per l'antiriciclaggio di calcolare le funzionalità del modello per un determinato periodo.

  • Ad esempio, per le versioni del motore v004.010, si tratta di 13 mesi per le tabelle Transaction e AccountPartyLink, 12 mesi per la tabella RiskCaseEvent e 0 mesi per le tabelle Party e PartySupplementaryData.

Il set di dati dovrà coprire la finestra temporale per tutti i periodi utilizzati dall'operazione scelta. Questo valore può variare in base alla versione del motore, ma in genere è 18 per l'ottimizzazione, 15 per l'addestramento e configurabile per la previsione o il backtesting. Puoi calcolare il numero di mesi di calendario completi di dati precedenti all'ora di fine necessari per una determinata operazione con la seguente formula:

  • numero di periodi + finestra temporale -1

Basandosi sull'esempio precedente per le versioni del motore v004.010, avrai bisogno di un massimo di 30 mesi di dati per qualsiasi operazione di AI AML.

  • 18 + 13 - 1 = 30 mesi di dati delle tabelle Transaction e AccountPartyLink,
  • 18 + 12 - 1 = 29 mesi di dati della tabella Eventi casi di rischio, nonché eventi più recenti per i casi di rischio nella tabella.
  • e 18 + 0 - 1 = 17 mesi di dati dalle tabelle Party e PartySupplementaryData.

Ti consigliamo di avere un unico set di dati che copra almeno 36 mesi quando esegui un primo test di esempio di AML AI. per consentire tutte le operazioni precedenti e alcuni mesi aggiuntivi per valutare il modello oltre i tre mesi minimi per il backtest.