エンジンを構成する

このページでは、エンジンの構成の背後にあるコンセプトについて簡単に説明します。

このページは、次のメジャー エンジン バージョンのグループ内のエンジン バージョンに適用されます。他のエンジン バージョンのページを表示するには、このページの上部にあるセレクタを使用してください。

エンジン バージョン v003 から v004(v004.008 まで)への変更点の概要は次のとおりです。

  • ExpectedRecallPreTuningExpectedRecallPostTuning の指標値に partiesCountidentifiedPartiesCount を追加しました。

ハイパーパラメータでサポートされているソース

エンジンを構成するときに、モデルの作成に使用するハイパーパラメータのソースを選択できます。次のソースがサポートされています。

  • 自動チューニング: EngineConfig リソースの作成時に AML AI がハイパーパラメータを調整します(デフォルトの動作)。
  • 継承: 同じチューニング バージョン内の以前のエンジン バージョンを使用して作成された以前のエンジン構成から、ハイパーパラメータを継承します。この設定により、新しいモデル エンジン バージョンを採用するたびに再チューニングする必要がなくなります。

チューニングまたは継承のタイミング

以降のセクションでは、自動チューニングを選択する場合と、以前のエンジン構成からハイパーパラメータを継承する場合について説明します。

チューニングのタイミング

新しいエンジン構成ごとにチューニングできます。迷った場合は、常に最高のパフォーマンスが得られるようにチューニングしてください。詳細については、エンジンのチューニング方法をご覧ください。

最適なパフォーマンスを得るために、次のいずれかが発生した場合は、エンジンのチューニングを検討してください。

  • データセットのロジックに大幅な変更を加える。たとえば、次のいずれかの変更を行う場合。
    • フィールドが入力されるロジック
    • 入力される RECOMMENDED フィールドの選択
    • PartySupplementaryData テーブルで提供されるデータのロジックまたは選択
  • エンジンが新しいリージョンのモデルをトレーニングしようとしている。

ハイパーパラメータを継承する場合

新しいエンジン バージョンを採用する際の時間と費用を節約するために、同じチューニング バージョンを使用して以前のエンジンからハイパーパラメータを継承できます。再チューニングせずにエンジン バージョンを採用する方法をご覧ください。

チューニング バージョン v003 のエンジン バージョンと、2024 年 2 月 22 日より前にリリースされたエンジン バージョンは、ハイパーパラメータの継承をサポートしていませんが、これらのバージョンをハイパーパラメータのソースとして使用できます。

エンジンのチューニング方法

チューニングをトリガーするには、エンジン構成を作成して管理するをご覧ください。

特に、以下を選択する必要があります。

  • エンジンの調整に使用するデータ:

    データセットと、データセットの期間内での終了時間を指定します。

    エンジンの調整では、選択した終了時間の暦月(ただしその歴月を含まない)までの完全な暦月に基づくラベルと特徴が使用されます。詳細については、データセットの期間をご覧ください。

  • エンジンの調整に使用するエンジン バージョン:

    関連するモデルを使用する事業部門(リテールまたはコマーシャル)に一致するエンジン バージョンを選択します。

  • モデルに基づいて予想される調査量:

    partyInvestigationsPerPeriodHint を指定します。エンジンの調整、トレーニング、バックテストでこれを使用することにより、AML AI は毎月の調査量に応じてパフォーマンスを確保できます。

エンジン調整の出力

エンジンのチューニングでは、EngineConfig リソースが生成されます。このリソースは、Model リソースの作成に使用できます。

エンジン構成メタデータには、次の指標が含まれています。特に、これらの指標は次のことを示します。

  • デフォルトのハイパーパラメータを使用した場合に比べて、エンジンの調整からの想定されるパフォーマンスの向上

  • データセットの整合性を評価するために使用できる測定値(たとえば、さまざまなオペレーションのフィーチャー ファミリーの欠損値の比較など)

指標名 指標の説明 指標値の例
ExpectedRecallPreTuning エンジン バージョンのデフォルトのハイパーパラメータを使用するときにテストセットで測定される再現率の指標。

この再現率の測定では、partyInvestigationsPerPeriodHint で指定された 1 か月あたりの調査数を想定しています。

{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.72,
      "partiesCount": 100,
      "identifiedPartiesCount": 72,
      "scoreThreshold": 0.42,
    },
  ],
}
ExpectedRecallPostTuning 調整されたハイパーパラメータを使用するときにテストセットで測定される再現率の指標。

この再現率の測定では、partyInvestigationsPerPeriodHint で指定された 1 か月あたりの調査数を想定しています。

{
  "recallValues": [
    {
      "partyInvestigationsPerPeriod": 5000,
      "recallValue": 0.80,
      "partiesCount": 100,
      "identifiedPartiesCount": 80,
      "scoreThreshold": 0.43,
    },
  ],
}
欠損

各特徴ファミリーのすべての特徴の欠損値の割合。

理想的には、すべての AML AI 特徴ファミリーで、欠損が 0 に近いことが推奨されます。これらの特徴ファミリーの基礎となるデータが統合に使用できない場合、例外が発生する可能性があります。

調整、トレーニング、評価、予測の間の特徴ファミリーの値の大幅な変化は、使用されるデータセットに不整合があることを示している可能性があります。

{
  "featureFamilies": [
    {
      "featureFamily": "unusual_wire_credit_activity",
      "missingnessValue": 0.00,
    },
    ...
    ...
    {
      "featureFamily": "party_supplementary_data_id_3",
      "missingnessValue": 0.45,
    },
  ],
}

再チューニングせずにエンジン バージョンを採用する方法

以前のエンジン構成のハイパーパラメータを再利用するには、ハイパーパラメータを継承するエンジン構成を作成するセクション([エンジン構成の作成と管理] ページ)をご覧ください。特に、以下を選択する必要があります。

  • ハイパーパラメータのソースタイプ: hyperparameterSourceType として INHERITED を選択します。ソースタイプを指定しない場合、下位互換性を確保するために、ハイパーパラメータのソースタイプは TUNING に設定されます。
  • ハイパーパラメータ ソース: hyperparameterSource オブジェクトで、ソース エンジン構成の完全なリソース名を指定します。ソース エンジン構成の出力は、新しいエンジン構成に使用されます。ソース エンジン構成は、現在使用している同じチューニング エンジン バージョン内の以前のエンジン バージョンで作成されている必要があります。
  • エンジン構成に使用するエンジン バージョン: 使用するモデルの事業部門(小売またはコマーシャル)に一致するエンジン バージョンを選択します。ハイパーパラメータを継承する場合、業種はハイパーパラメータ ソースに使用される業種と一致する必要があります。

継承時の出力とリネージ

別のエンジン バージョンからハイパーパラメータを継承すると、EngineConfig リソースが作成されます。このリソースを使用して、ソース エンジン構成のハイパーパラメータを使用して Model リソースを作成できます。

リネージの場合、別のエンジン構成からハイパーパラメータを継承すると、EngineConfig リソースの次のフィールドが次のように設定されます。

  • hyperparameterSourceType: INHERITED
  • hyperparameterSource: ハイパーパラメータのソースとして使用されるエンジン構成
  • tuning: 元の tuning オブジェクト。元のエンジン調整に使用されたデータセット(primaryDataset)への参照と、トレーニング用の特徴の生成(endTime)に使用されたデータの取得元の最新の時刻が含まれます。
  • performanceTarget: 元の performanceTarget オブジェクト。指定されたモデルに基づいて予想される調査量(partyInvestigationsPerPeriodHint)を含む。
  • 元のエンジン チューニングのエンジン構成メタデータ