모델 평가

이 페이지는 다음 주 엔진 버전 그룹 내의 엔진 버전에 유효합니다. 다른 엔진 버전의 페이지를 보려면 이 페이지 상단의 선택기를 사용하세요.

요약하면 엔진 버전 v003에서 v004 (최대 v004.008)로 변경된 사항은 다음과 같습니다.

백테스트 출력에 ObservedRecallValuesPerTypology 측정항목이 추가되었습니다.
partiesCount 및 identifiedPartiesCount을 ObservedRecallValues 측정항목 값에 추가했습니다.

개요

백테스트 결과는 지정된 기간의 모델 성능 요약을 제공합니다. 백테스트 기간 내 모든 고객을 대상으로 예측하고 사용 가능한 위험 이벤트를 기준으로 모델 성능을 평가하여 생성됩니다.

백테스트 결과는 학습에 사용된 것과 다른 기간 범위에서 모델 성능을 측정하거나 시간 경과에 따라 성능 저하를 확인하는 데 사용할 수 있습니다.

백테스트 방법

BacktestResult 리소스를 만들려면 백테스트 결과 만들기 및 관리를 참조하세요.

특히 다음을 선택해야 합니다.

백테스트에 사용할 데이터:

데이터 세트와 데이터 세트 기간 내의 종료 시간을 지정합니다.

학습은 전체 월을 기준으로 라벨과 특성을 사용하지만 선택한 종료 시점의 월은 제외합니다. 자세한 내용은 데이터 세트 기간 범위를 참조하세요.

백테스트에 사용할 라벨이 지정된 데이터의 월 수(즉, 백테스트 기간 수)를 지정합니다.

PerformanceTarget 필드를 사용하여 테스트의 일부로 평가할 당사자 수를 지정합니다.
모델에 따라 예상되는 조사 분량:

partyInvestigationsPerPeriodHint을 지정합니다. 백테스트는 지정한 금액을 기준으로 다양한 월별 조사 분량에서 AML AI 모델을 평가합니다. 자세한 내용은 백테스트 출력을 참고하세요.
일관된 데이터 세트를 사용하여 만든 모델:

모델 만들기를 참조하세요.

백테스트 기간

backtestPeriods 필드는 이 모델의 성능 평가에서 특성과 라벨을 사용할 연속 월 수를 지정합니다.

백테스트 데이터에는 다음이 적용됩니다.

평가에 사용된 월 수는 지정된 endTime 직전의 전체 월 수입니다. 예를 들어 endTime이 2023-04-15T23:21:00Z이고 backtestPeriods가 5이면 2023년 3월, 2023년 2월, 2023년 1월, 2022년 12월, 2022년 11월의 라벨이 사용됩니다.
프로덕션 사용을 위해 모델을 평가할 때는 백테스트에 사용 가능한 최신 데이터를 사용해야 합니다.
백테스트 기간을 3 이상으로 설정해야 합니다. 백테스트 기간 중 2개월은 반복 알림을 고려하여 예약되고 나머지 개월은 성능 평가에 대한 양성 라벨을 생성하는 데 사용됩니다.

참고: 원하는 평가의 정확성에 따라 5개 이상의 백테스트 기간을 사용합니다. 백테스트 기간을 5개 사용하면 양성 라벨을 생성하는 데 기간 3개가 사용됩니다.
과적합이 발생할 위험이 있으므로 학습 및 백테스트에 겹치는 월을 사용하지 마세요. 백테스트 및 학습 종료 시간이 최소 backtestPeriods 이상 떨어져 있어야 합니다. 즉, 다음과 같습니다.

(백테스트 결과 종료 시간 월) >= (모델 종료 시간 월) + backtestPeriods

원하는 경우 모델의 예측 결과를 생성하고 모델 성능에 대한 당사자 수준의 자체 분석을 수행할 수도 있습니다.

백테스트 결과

백테스트 결과 메타데이터에는 다음 측정항목이 포함됩니다. 특히 이러한 측정항목은 다음을 보여줍니다.

별도의 기간의 라벨을 다양한 조사 볼륨이나 위험 점수 기준점의 라벨과 비교한 모델 성능

참고: 재현율 측정항목은 특정 모델에 대한 알림을 받을 수 있는 과거의 AML_EXIT 이벤트의 공유만을 보여주며, 실시간 테스트 진행을 결정하는 데 사용됩니다. 이 모델에서 알림을 받은 고객 모두 이전에 조사되지 않았으므로 실제 성능이 훨씬 더 우수할 것으로 예상됩니다.
데이터 세트 일관성을 평가하는 데 사용할 수 있는 측정(예: 여러 작업에서 특성 계열의 누락 값 비교)

측정항목 이름	측정항목 설명	측정항목 값 예시
ObservedRecallValues	백테스트를 위해 지정된 데이터 세트에서 측정된 재현율 측정항목입니다. API에는 이러한 20개의 측정이 0(포함되지 않음)에서 2 * `partyInvestigationsPerPeriodHint`까지 서로 다른 작동 지점에 고르게 분산되어 있습니다. API는 최종 재현율 측정을 `partyInvestigationsPerPeriodHint`에 추가합니다. 재현율 값과 함께 분자와 분모도 각각 `partiesCount` 및 `identifiedPartiesCount`로 제공합니다.	{ "recallValues": [ { "partyInvestigationsPerPeriod": 5000, "recallValue": 0.80, "partiesCount": 60, "identifiedPartiesCount": 48, "scoreThreshold": 0.42, }, ... ... { "partyInvestigationsPerPeriod": 8000, "recallValue": 0.85, "partiesCount": 60, "identifiedPartiesCount": 51, "scoreThreshold": 0.30, }, ], }
ObservedRecallValuesPerTypology	백테스트를 위해 지정된 데이터 세트에서 측정된 위험 유형 수준의 재현율 측정항목입니다. 측정은 `ObservedRecallValues`와 동일한 접근 방식을 따릅니다.	{ "recallValuesPerTypology": [ { "partyInvestigationsPerPeriod": 5000, "riskTypology": "risk_typology_id_1", "recallValue": 0.80, "partiesCount": 60, "identifiedPartiesCount": 48, "scoreThreshold": 0.42, }, { "partyInvestigationsPerPeriod": 8000, "riskTypology": "risk_typology_id_1", "recallValue": 0.90, "partiesCount": 60, "identifiedPartiesCount": 54, "scoreThreshold": 0.30, }, ... ... { "partyInvestigationsPerPeriod": 8000, "riskTypology": "risk_typology_id_2", "recallValue": 0.75, "partiesCount": 4 "identifiedPartiesCount": 3, "scoreThreshold": 0.30, }, ], }
누락	각 특성 계열의 모든 특성에서 누락된 값의 비중입니다. 이상적으로 모든 AML AI 특성 계열의 누락은 0에 가깝습니다. 해당 특성 계열의 기반이 되는 데이터를 통합에 사용할 수 없는 경우 예외가 발생할 수 있습니다. 조정, 학습, 평가, 예측에서 어느 한 특성 계열 값의 커다란 변화는 사용된 데이터 세트의 불일치를 나타낼 수 있습니다.	{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "missingnessValue": 0.00, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "missingnessValue": 0.45, }, ], }
편향	학습과 예측 또는 백테스트 데이터 세트 간의 편향을 보여주는 측정항목입니다. 계열 편향은 해당 계열 내 특성 중요도별로 가중치가 적용된 특성 계열 내에서 특성 값 분포 변화를 나타냅니다. 최대 편향은 해당 계열 내 특성의 최대 편향을 나타냅니다. 편향 값의 범위는 계열의 특성 값 분포에 중대한 변화가 없음을 나타내는 0부터 가장 중요한 변화를 나타내는 1까지입니다. 계열 편향 또는 최대 편향 값이 크면 모델 성능에 영향을 줄 수 있는 큰 변화가 데이터 구조에 있음을 나타냅니다. 계열 편향은 모델에서 계열 특성을 사용하지 않으면 -1 값을 사용합니다. 편향 값이 크면 다음 중 하나를 수행해야 합니다. 해당 특성 계열에서 사용하는 데이터의 변화를 조사하고(모델 거버넌스 지원 자료 참조) 입력 데이터 문제를 해결합니다. 최신 데이터로 모델을 다시 학습시킵니다. 몇 개월 동안 편향 측정항목의 자연 변동을 관찰하여 계열 및 최대 편향 값에 조치할 기준을 설정해야 합니다.	{ "featureFamilies": [ { "featureFamily": "unusual_wire_credit_activity", "familySkewValue": 0.10, "maxSkewValue": 0.14, }, ... ... { "featureFamily": "party_supplementary_data_id_3", "familySkewValue": 0.11, "maxSkewValue": 0.11, }, ], }