Entender o escopo e a duração dos dados

A IA antilavagem de dinheiro é configurada para avaliar o risco de lavagem de dinheiro para uma linha de negócios por vez com conjuntos de dados, versões de mecanismo e modelos separados para bancos de varejo e comerciais.

Ao criar um conjunto de dados para uso com uma LoB, é necessário incluir várias tabelas. Cada tabela precisa abranger um período suficiente. Esta página oferece uma visão geral das tabelas necessárias e mostra como determinar o período que cada uma deve abranger.

Tabelas a serem usadas

O conjunto de dados do BigQuery usado com a IA de AML precisa conter as seguintes tabelas:

  • Parte: todas as partes relevantes para essa unidade de negócios.
    • Unidade de negócios de varejo: todos os clientes de banco de varejo que tiveram contas em qualquer momento no período exigido.
    • Unidade de negócios comercial: todos os clientes de banco comercial (pessoas jurídicas e físicas) que tiveram contas em algum momento no período exigido.
    • Alguns clientes podem estar representados nos dois conjuntos de dados. Por exemplo, pessoas autônomas podem ter contas de varejo e comerciais.
  • AccountPartyLink: histórico completo de quais contas foram mantidas por quais partes. Isso deve abranger todas as contas de produtos e serviços quando qualquer parte na tabela "Parte" era o titular principal da conta em qualquer momento no período necessário.
  • Transação: todas as transações de contas na tabela "AccountPartyLink" para o período necessário.
  • RiskCaseEvent: todos os eventos de caso de risco (consulte os valores do tipo de evento) para qualquer caso de risco e parte na tabela "Parte" com um AML_PROCESS_START (início da investigação) no período obrigatório. Essa tabela pode incluir eventos com um horário anterior ou posterior ao período necessário.
  • PartySupplementaryData: (se usado) para 0 a 100 valores exclusivos de party_supplementary_data_id, inclua um histórico completo dos valores desses campos para todas as partes na tabela "Party" no período necessário.

Como usar outros dados

Consulte Dados complementares se você tiver mais dados sobre as partes (não cobertos no esquema) relevantes para identificar o risco de lavagem de dinheiro.

Intervalo de tempo do conjunto de dados

O período que qualquer tabela em um conjunto de dados deve abranger pode ser calculado da seguinte forma para qualquer operação. Você precisa saber:

  • O horário de término. É o horário mais recente em que os rótulos e os dados são usados para gerar recursos de ajuste.
  • A versão do mecanismo (consulte a lista de versões do mecanismo) que você vai usar.
  • A operação que você vai realizar: ajuste, treinamento, previsão ou backtest.
  • Para operações de previsão ou backtest, o número de períodos em que você vai realizar a operação, a ser especificado na chamada de API.

Entender a duração do escopo de dados

Primeiro, calcule o número de períodos que a operação vai usar. É o número de meses consecutivos que terminam no último mês civil completo antes do horário de término especificado, para os quais a IA antilavagem de dinheiro vai avaliar os recursos do modelo.

  • Para operações de previsão e backtest, esse é o número de períodos de previsão ou backtest especificados na chamada de API.
  • Para outras operações, isso depende da versão do mecanismo e da operação. Por exemplo, as versões do motor v004.010 usam 18 períodos para ajuste e 15 para treinamento.

Em seguida, calcule a janela de lookback para cada tabela. Esse é o número máximo de meses de dados necessários da tabela para que a IA de AML calcule os recursos do modelo para um determinado período.

  • Por exemplo, para as versões do mecanismo v004.010, são 13 meses para as tabelas Transaction e AccountPartyLink, 12 meses para a tabela RiskCaseEvent e 0 meses para as tabelas Party e PartySupplementaryData.

O conjunto de dados precisa abranger a janela de lookback de todos os períodos usados pela operação escolhida. Isso pode variar de acordo com a versão do mecanismo, mas geralmente é 18 para ajuste, 15 para treinamento e configurável para previsão ou backtesting. Você pode calcular o número de meses civis completos de dados antes do horário de término necessários para uma determinada operação com a seguinte fórmula:

  • número de períodos + janela de lookback -1

Com base no exemplo acima para versões do mecanismo v004.010, você vai precisar de até 30 meses de dados para qualquer operação de IA de AML.

  • 18 + 13 - 1 = 30 meses de dados das tabelas "Transaction" e "AccountPartyLink".
  • 18 + 12 - 1 = 29 meses de dados da tabela "Eventos de caso de risco" e todos os eventos mais recentes de casos de risco na tabela.
  • E 18 + 0 - 1 = 17 meses de dados das tabelas "Party" e "PartySupplementaryData".

Recomendamos ter um único conjunto de dados que abranja pelo menos 36 meses ao realizar um primeiro teste de amostra da IA de AML. Isso permite todas as operações acima e alguns meses adicionais para avaliar o modelo além do mínimo de três para backtesting.