トピックモデルを最大限に活用するには、以下のベスト プラクティス ガイドラインに従ってください。
トピックモデルをファインチューニングする
トピックの割り当てを改善する最善の方法は、モデルをファインチューニングすることです。トピックを追加、編集、削除する際は、以下のガイドラインに沿ってトピック モデルを最適化してください。
トピックを追加または編集する
重複するトピックや類似するトピックを追加すると、トピック推論の品質に悪影響を及ぼすため、追加しないでください。トピックを作成または変更する際は、次の命名と説明のガイドラインを適用してください。
名前
「リモコンのトラブルシューティング」、「お支払いポリシーに関するお問い合わせ」など、3 ~ 6 語の短い説明的なトピックを使用します。
「セールス」などの汎用的な名前や抽象的な名前は避けてください。
必要に応じて、次のベスト プラクティスに従ってください。
Billing などのすぐに使用できるカスタム トピック名を使用します。
トピック名に簡単な説明を追加します(例: 「Billing Errors and Refunds」)。
目的の結果に基づいて、適切なモデル構成を選択します。
例
クレジット カード サポート センターは、アーカイブされたサポート通話ログでトピック モデリングを実行します。モデリングにより、会話のクラスタからトピックが作成され、「クレジット カードの限度額超過に関するお問い合わせ」という名前が付けられます。ビジネスは名前を「Credit limit inquiries」に短縮します。
説明
一般的な説明の後に、いくつかの例を挙げてください。
名前、日付、場所などの個人情報は含めないでください。
「X というトピックを含めないで」など、詳細すぎる指示はトピックの推論に悪影響を及ぼす可能性があります。
例
お客様から固定電話サービスについてお問い合わせがありました。解約を希望しているか、現在の請求について相談したい可能性があります。
お客様から請求についてお問い合わせがありました。金額や期日について知りたい場合があります。
セカンダリ トピックを削除する
トピック モデルをデプロイして分析を完了したら、[Topic Model Deployed data] ページでトピック分布を確認します。二次トピックは、一般的で一致度が高いため、デプロイされた結果で主要なトピックになる可能性があります。サンプル会話の 30% 以上に一致するトピックは、二次的なトピックである可能性が高くなります。これらのトピックを慎重に確認し、関連性がない場合は削除します。
無関係な二次トピックが存在するかどうかは、入力データに大きく依存します。[デプロイされたデータ] ページのすべての主要トピックの分布が比較的均等で、各トピックが会話の 20% 未満にしか一致しない場合は、削除するサブトピックはない可能性があります。
トレーニング データ
音声データの場合、Speech-to-Text 出力の品質はトピックモデルのパフォーマンスにとって重要です。以下のガイドラインに沿って、トレーニング データの品質を改善してください。
会話
データセットで重複する会話を使用しないようにします。
各会話には、エージェントとお客様のターンがそれぞれ 5 回ずつ、合計 10 回以上含まれている必要があります。
秘匿化された会話を使用しますが、Cloud Data Loss Prevention の秘匿化の品質を確認します。秘匿化によって音声文字変換テキストから重要な情報が削除されると、トレーニング会話の長さに影響する可能性があります。
ほとんどの会話が同じ言語で行われていることを確認します。
発言者の役割
会話が取り込まれた後、会話のスピーカーのロールが適切に割り当てられていることを確認します。
会話のターンを、お客様からのものかエージェントからのものか正確にラベル付けします。一方の役割での音声文字変換テキストしかない会話は、トレーニングで使用されません。
人間のロールには
AGENTを、仮想ロールにはAUTOMATED_AGENTを使用します。顧客ロールには
END_USERまたはCUSTOMERを使用します。