Umfang und Dauer der Daten

AML AI ist so eingerichtet, dass das Geldwäscherisiko für jeweils einen Geschäftsbereich mit separaten Datasets, Engine-Versionen und Modellen für das Privatkundengeschäft und das Firmenkundengeschäft bewertet wird.

Wenn Sie ein Dataset für die Verwendung mit einer LoB erstellen, müssen Sie mehrere Tabellen einfügen. Jede Tabelle sollte einen ausreichenden Zeitraum abdecken. Auf dieser Seite finden Sie einen Überblick über die benötigten Tabellen und erfahren, wie Sie den Zeitraum für die einzelnen Tabellen festlegen.

Zu verwendende Tabellen

Das BigQuery-Dataset, das mit AML AI verwendet wird, sollte die folgenden Tabellen enthalten:

  • Partei: Alle für diesen Geschäftsbereich relevanten Parteien.
    • Retail LoB (Einzelhandelsgeschäftsbereich): Alle Kunden im Privatkundengeschäft, die zu einem beliebigen Zeitpunkt im erforderlichen Zeitraum Konten hatten.
    • Commercial LoB: Alle Geschäftskunden (juristische und natürliche Personen), die zu einem beliebigen Zeitpunkt im erforderlichen Zeitraum Konten hatten
    • Beachten Sie, dass einige Kunden in beiden Datasets enthalten sein können. Beispiel: Selbstständige haben möglicherweise sowohl Einzelhandels- als auch Geschäftskonten.
  • AccountPartyLink: Vollständiger Verlauf der Konten, die von welchen Rechtssubjekten geführt wurden. Dies sollte alle Konten für Produkte und Dienste abdecken, wenn eine Partei in der Tabelle „Partei“ zu einem beliebigen Zeitpunkt im erforderlichen Zeitraum der primäre Kontoinhaber war.
  • Transaktion: Alle Transaktionen für Konten in der Tabelle „AccountPartyLink“ für den erforderlichen Zeitraum.
  • RiskCaseEvent: Alle Ereignisse für Risikofälle (siehe Werte für den Ereignistyp) für alle Risikofälle und Rechtssubjekte in der Tabelle „Party“ mit einem AML_PROCESS_START (Beginn der Untersuchung) im erforderlichen Zeitraum. Diese Tabelle kann Ereignisse mit einer Ereigniszeit enthalten, die vor oder nach dem erforderlichen Zeitraum liegt.
  • PartySupplementaryData: (Falls verwendet) Für 0 bis 100 eindeutige party_supplementary_data_id-Werte muss ein vollständiger Verlauf der Werte dieser Felder für alle Parteien in der Tabelle „Party“ für den erforderlichen Zeitraum enthalten sein.

Zusätzliche Daten verwenden

Weitere Informationen finden Sie unter Zusätzliche Daten, wenn Sie zusätzliche Daten zu Parteien haben, die für die Ermittlung des Risikos von Geldwäsche relevant sind und nicht anderweitig im Schema abgedeckt werden.

Zeitraum des Datasets

Der Zeitraum, den eine Tabelle in einem Dataset abdecken sollte, kann für jeden Vorgang so berechnet werden: Sie benötigen folgende Informationen:

  • Die Endzeit. Dies ist der späteste Zeitpunkt, ab dem Labels verwendet werden und ab dem Daten zum Generieren von Funktionen für die Optimierung verwendet werden.
  • Die zu verwendende Engine-Version (siehe Liste der Engine-Versionen).
  • Der Vorgang, den Sie ausführen möchten: Optimieren, trainieren, vorhersagen oder Backtest.
  • Bei Vorhersage- oder Backtestvorgängen die Anzahl der Zeiträume, für die der Vorgang ausgeführt wird. Sie muss im API-Aufruf angegeben werden.

Zeitraum des Datenbereichs

Zuerst müssen Sie die Anzahl der Zeiträumen ermitteln, die für den Vorgang verwendet werden. Dies ist die Anzahl der aufeinanderfolgenden Monate, die im letzten vollen Kalendermonat vor dem angegebenen Endzeitpunkt enden und für die AML AI Modell-Features auswertet.

  • Für Vorhersage- und Backtestvorgänge ist dies die Anzahl der Vorhersage- oder Backtestzeiträume, die im API-Aufruf angegeben sind.
  • Bei anderen Vorgängen hängt dies von der Engine-Version und dem Vorgang ab. Bei Engine-Versionen wie v004.010 werden beispielsweise 18 Zeiträume für die Optimierung und 15 für das Training verwendet.

Als Nächstes sollten Sie den Beobachtungszeitraum für jede Tabelle festlegen. Dies ist die maximale Anzahl von Monaten an Daten, die aus dieser Tabelle benötigt werden, damit AML AI Modell-Features für einen bestimmten Zeitraum berechnen kann.

  • Bei Engine-Versionen wie v004.010 beträgt dieser Zeitraum beispielsweise 13 Monate für die Tabellen „Transaction“ und „AccountPartyLink“, 12 Monate für die Tabelle „RiskCaseEvent“ und 0 Monate für die Tabellen „Party“ und „PartySupplementaryData“.

Der Datensatz muss den Rückschauzeitraum für alle von der ausgewählten Operation verwendeten Zeiträume abdecken. Das kann je nach Engine-Version variieren, liegt aber in der Regel bei 18 für die Optimierung, 15 für das Training und ist für Vorhersagen oder Backtesting konfigurierbar. Mit der folgenden Formel können Sie die Anzahl der vollständigen Kalendermonate mit Daten vor dem Endzeitpunkt berechnen, die für einen bestimmten Vorgang erforderlich sind:

  • Anzahl der Zeiträume + Lookback-Window – 1

Basierend auf dem obigen Beispiel für v004.010-Engine-Versionen benötigen Sie für jeden AML AI-Vorgang bis zu 30 Monate an Daten.

  • 18 + 13 – 1 = 30 Monate mit Daten aus den Tabellen „Transaction“ und „AccountPartyLink“.
  • 18 + 12 – 1 = 29 Monate mit Daten aus der Tabelle „Risk Case Events“ sowie alle neueren Ereignisse für Risikofälle in der Tabelle.
  • Das sind 18 + 0 – 1 = 17 Monate mit Daten aus den Tabellen „Party“ und „PartySupplementaryData“.

Wir empfehlen, für einen ersten Beispieltest von AML AI einen einzelnen Datensatz mit Daten aus mindestens 36 Monaten zu verwenden. So können alle oben genannten Vorgänge ausgeführt werden und es bleiben einige zusätzliche Monate für die Bewertung des Modells über die mindestens drei Monate für Backtesting hinaus.