要約の自動評価(自動評価)は、手動のスプレッドシートベースの QA から離れ、要約モデルの自動化されたスケーラブルな検証へと移行するために不可欠です。この機能は、モデル バージョンのアップセルやカスタム プロンプトの変更の検証に必要な実証的証拠を提供します。
自動評価の前は、要約モデルを検証するために、人間が文字起こしを読んで要約を手動で採点する必要がありました。これは、時間と費用がかかり、主観的なプロセスでした。要約の自動評価により、要約モデルの検証が次のように改善されます。
- 規模: 約 20 ~ 30 分で数百件の会話を評価します。
- 一貫性: LLM ベースのジャッジが精度、準拠性、完全性をスコアリングします。
- 比較: モデル A がモデル B よりもパフォーマンスが高いことを示す証拠を並べて表示します。
始める前に
- 評価を実行するには、要約ジェネレータ(モデル構成)とデータセット(会話)が必要です。
- Customer Experience Insights データセットを使用するが、まだ作成していない場合は、Customer Experience Insights コンソールに移動します。文字起こしファイルが未加工の場合は、アップロード用にサポートされている形式に変換します。
2 つのデータソース
会話データを取り込むには、次の 2 つの方法があります。
| ソースのタイプ | 最適な用途... | 仕組み |
| Agent Assist Storage | ライブ/本番環境トラフィック | 期間とサンプルサイズを選択します。要約の自動評価では、システムに保存されている実際のトラフィックからランダムにサンプリングが行われます。 |
| 会話インサイト データセット | 特定のシナリオをテストする | Customer Experience Insights で作成されたキュレートされたデータセットを選択します。これは、ゴールデン セットや特定のテストケースに最適です。 |
ステップ 1: ジェネレータを作成する
- [評価] に移動し、[新しい評価] をクリックします。
- 次の詳細情報を入力します。
- 表示名: モデルのバージョンと日付を含む命名規則を使用します。
- 機能: [要約] を選択します。
- 生成ツール: テストする特定の生成ツールを選択します。
ステップ 2: 会話データセットを作成する
次のいずれかの要約データソースを選択します。
- すべての会話の新しい要約を生成する: 新しいモデル バージョンのテストにおすすめします。
- データセットから欠落している要約のみを生成する: 前の手順で選択したジェネレータに基づいて、すべての会話文字起こしに対応する要約がない場合に推奨されます。
- データセットの既存の要約を使用します。要約を生成しない: 再生成せずにすでに生成されたものを評価したり、さまざまな要約生成ツールのパフォーマンスを比較したりする場合におすすめします。
ステップ 3: Cloud Storage リソースを選択する
結果を保存するバケット内の Cloud Storage フォルダを選択します。
Agent Assist コンソールには概要レベルの結果が表示されますが、詳細な行単位のデータは CSV としてエクスポートします。これは、詳細なトラブルシューティングの信頼できる情報源です。
ステップ 4: 指標を解釈する
実行が完了すると、各評価指標のスコアを含むスコアカードが表示されます。
ドリルダウン
特定の会話の行をクリックすると、次の詳細が表示されます。
- 生の会話を含む文字起こし
- 要約候補
- 特定のスコアの要約自動評価の説明
ステップ 5: 比較モードを使用する
2 つの異なる評価実行を選択して比較できます。同じデータセットの評価モデルを比較して、同じ情報に対して比較していることを確認します。実行間でデータセットを変更すると、比較が無効になります。メタデータでデータセット ID が一致していることを必ず確認してください。
要約モデルを最新バージョンにアップグレードする証拠を確認する手順は次のとおりです。
- 現在のモデルを使用して評価 A を実行します。
- 最新のモデルを使用して、同じデータセットで評価 B を実行します。
- リストで両方の評価を選択し、[比較] をクリックします。
Agent Assist コンソールでは、スコアの高いものがハイライト表示されます。
トラブルシューティングのヒントとベスト プラクティス
- 評価用に独自の未加工テキスト ファイルをアップロードします。まず、Customer Experience Insights データセットを作成します。
- コンソールには [簡潔な状況] セクションが表示されますが、要約文には 2 番目に表示されます。サイドバーの順序は、テキスト生成の順序と完全に一致しない場合があります。最終的な構造については、テキスト コンテンツと CSV エクスポートを参照してください。
- 自動スコアについて。信頼できるが、検証する。自動評価モデルは人間のやり取りをエミュレートするように調整されていますが、エッジケースが存在します。Cloud Storage の CSV エクスポートを常に使用して、小さなサンプルを手動で監査し、自動スコアの信頼性を高めます。