모델 평가

이 페이지는 다음 주 엔진 버전 그룹 내의 엔진 버전에 유효합니다. 다른 엔진 버전의 페이지를 보려면 이 페이지 상단의 선택기를 사용하세요.

요약하면 이 페이지의 변경사항과 v004.010 비교는 다음과 같습니다.

  • partyCountExceedingThresholdPerPeriodHint가 대체 실적 타겟으로 추가되었습니다.
  • 룩백 버퍼를 삭제하여 재현율 측정항목을 간소화하여 지정된 모든 백테스트 기간에서 더 투명하게 평가할 수 있습니다.
  • 이제 ObservedRecallValues 출력에 새 필드 partyCountExceedingThresholdPerPeriod가 포함됩니다.

개요

백테스트 결과는 지정된 기간의 모델 성능 요약을 제공합니다. 백테스트 기간 내 모든 고객을 대상으로 예측하고 사용 가능한 위험 이벤트를 기준으로 모델 성능을 평가하여 생성됩니다.

백테스트 결과는 학습에 사용된 것과 다른 기간 범위에서 모델 성능을 측정하거나 시간 경과에 따라 성능 저하를 확인하는 데 사용할 수 있습니다.

백테스트 방법

BacktestResult 리소스를 만들려면 백테스트 결과 만들기 및 관리를 참조하세요.

특히 다음을 선택해야 합니다.

  • 백테스트에 사용할 데이터:

    데이터 세트와 데이터 세트 기간 내의 종료 시간을 지정합니다.

    학습은 전체 월을 기준으로 라벨과 특성을 사용하지만 선택한 종료 시점의 월은 제외합니다. 자세한 내용은 데이터 세트 기간 범위를 참조하세요.

  • 백테스트 기간:

    백테스트에 사용할 라벨이 지정된 데이터의 월 수(즉, 백테스트 기간 수)를 지정합니다.

  • 실적 타겟:

    PerformanceTarget 필드를 사용하여 평가를 위한 작동점을 설정하는 방법을 지정합니다. 다음 중 정확히 하나를 제공해야 합니다.

    • partyInvestigationsPerPeriodHint: 월별로 수행되는 조사 수를 대략적으로 지정합니다. 이 옵션은 정상 상태 근사치를 사용하여 조사량을 추정합니다.
    • partyCountExceedingThresholdPerPeriodHint: 위험 임곗값 이상을 기록해야 하는 고유 당사자의 월별 평균 수를 지정합니다. 이 옵션은 작동 지점을 설정하는 더 직접적이고 투명한 방법을 제공합니다.

    백테스팅은 지정한 힌트를 중심으로 다양한 볼륨에서 AML AI 모델을 평가합니다. 자세한 내용은 백테스트 출력을 참고하세요.

  • 일관된 데이터 세트를 사용하여 만든 모델:

    모델 만들기를 참조하세요.

백테스트 기간

backtestPeriods 필드는 이 모델의 성능 평가에서 특성과 라벨을 사용할 연속 월 수를 지정합니다.

백테스트 데이터에는 다음이 적용됩니다.

  • 평가에 사용된 월 수는 지정된 endTime 직전의 전체 월 수입니다. 예를 들어 endTime2023-04-15T23:21:00Z이고 backtestPeriods5이면 2023년 3월, 2023년 2월, 2023년 1월, 2022년 12월, 2022년 11월의 라벨이 사용됩니다.
  • 프로덕션 사용을 위해 모델을 평가할 때는 백테스트에 사용 가능한 최신 데이터를 사용해야 합니다.
  • 백테스트 기간을 3 이상으로 설정해야 합니다.
  • 엔진 버전 v004.011부터는 단순화된 재현율 측정항목에 정상 상태 근사치를 위한 전환 확인 버퍼가 더 이상 필요하지 않으므로 지정된 모든 백테스트 기간이 성능 평가에 사용됩니다.

  • 과적합이 발생할 위험이 있으므로 학습 및 백테스트에 겹치는 월을 사용하지 마세요. 백테스트 및 학습 종료 시간이 최소 backtestPeriods 이상 떨어져 있어야 합니다. 즉, 다음과 같습니다.

    (백테스트 결과 종료 시간 월) >= (모델 종료 시간 월) + backtestPeriods

원하는 경우 모델의 예측 결과를 생성하고 모델 성능에 대한 당사자 수준의 자체 분석을 수행할 수도 있습니다.

백테스트 결과

백테스트 결과 메타데이터에는 다음 측정항목이 포함됩니다. 특히 이러한 측정항목은 다음을 보여줍니다.

  • 별도의 기간의 라벨을 다양한 작동 지점 (조사 볼륨)이나 위험 점수 기준점의 라벨과 비교한 모델 성능

  • 데이터 세트 일관성을 평가하는 데 사용할 수 있는 측정(예: 여러 작업에서 특성 계열의 누락 값 비교)

측정항목 이름 측정항목 설명 측정항목 값 예시
ObservedRecallValues 백테스트를 위해 지정된 데이터 세트에서 측정된 재현율 측정항목입니다. API에는 이러한 20개의 측정이 0 (포함되지 않음)에서 2 * partyInvestigationsPerPeriodHint 또는 partyCountExceedingThresholdPerPeriodHint까지 서로 다른 작동 지점에 고르게 분산되어 있습니다. 이는 BacktestResults를 만드는 데 입력으로 사용된 두 필드 중 어느 필드에 따라 달라집니다. API는 지정된 힌트에 최종 재현율 측정을 추가합니다.

재현율 값과 함께 분자와 분모를 각각 partiesCountidentifiedPartiesCount로 제공합니다. 또한 기준점을 초과하는 당사자 수를 partyCountExceedingThresholdPerPeriod로 제공합니다.
{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "partyCountExceedingThresholdPerPeriod": 10000,
      "recallValue": 0.80,
      "partiesCount": 60,
      "identifiedPartiesCount": 48,
      "scoreThreshold": 0.42,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "partyCountExceedingThresholdPerPeriod": 16000,
      "recallValue": 0.85,
      "partiesCount": 60,
      "identifiedPartiesCount": 51,
      "scoreThreshold": 0.30,
    },
  ],
}
ObservedRecallValuesPerTypology 백테스트를 위해 지정된 데이터 세트에서 측정된 위험 유형 수준의 재현율 측정항목입니다. 측정은 ObservedRecallValues와 동일한 접근 방식을 따릅니다.
{
  "recallValuesPerTypology": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "partyCountExceedingThresholdPerPeriod": 10000,
      "riskTypology": "risk_typology_id_1",
      "recallValue": 0.80,
      "partiesCount": 60,
      "identifiedPartiesCount": 48,
      "scoreThreshold": 0.42,
    },
    {
      "partyInvestigationsPerPeriod": 8000,
      "partyCountExceedingThresholdPerPeriod": 16000,
      "riskTypology": "risk_typology_id_1",
      "recallValue": 0.90,
      "partiesCount": 60,
      "identifiedPartiesCount": 54,
      "scoreThreshold": 0.30,
    },
    ...
    ...
    {
      "partyInvestigationsPerPeriod": 8000,
      "partyCountExceedingThresholdPerPeriod": 16000,
      "riskTypology": "risk_typology_id_2",
      "recallValue": 0.75,
      "partiesCount": 4
      "identifiedPartiesCount": 3,
      "scoreThreshold": 0.30,
    },
  ],
}
누락

각 특성 계열의 모든 특성에서 누락된 값의 비중입니다.

이상적으로 모든 AML AI 특성 계열의 누락은 0에 가깝습니다. 해당 특성 계열의 기반이 되는 데이터를 통합에 사용할 수 없는 경우 예외가 발생할 수 있습니다.

조정, 학습, 평가, 예측에서 어느 한 특성 계열 값의 커다란 변화는 사용된 데이터 세트의 불일치를 나타낼 수 있습니다.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}
편향

학습과 예측 또는 백테스트 데이터 세트 간의 편향을 보여주는 측정항목입니다. 계열 편향은 해당 계열 내 특성 중요도별로 가중치가 적용된 특성 계열 내에서 특성 값 분포 변화를 나타냅니다. 최대 편향은 해당 계열 내 특성의 최대 편향을 나타냅니다.

편향 값의 범위는 계열의 특성 값 분포에 중대한 변화가 없음을 나타내는 0부터 가장 중요한 변화를 나타내는 1까지입니다. 계열 편향 또는 최대 편향 값이 크면 모델 성능에 영향을 줄 수 있는 큰 변화가 데이터 구조에 있음을 나타냅니다. 계열 편향은 모델에서 계열 특성을 사용하지 않으면 -1 값을 사용합니다.

편향 값이 크면 다음 중 하나를 수행해야 합니다.

  • 해당 특성 계열에서 사용하는 데이터의 변화를 조사하고(모델 거버넌스 지원 자료 참조) 입력 데이터 문제를 해결합니다.
  • 최신 데이터로 모델을 다시 학습시킵니다.

몇 개월 동안 편향 측정항목의 자연 변동을 관찰하여 계열 및 최대 편향 값에 조치할 기준을 설정해야 합니다.

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "familySkewValue": 0.10,
      "maxSkewValue": 0.14,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "familySkewValue": 0.11,
      "maxSkewValue": 0.11,
    },
  ],
}