Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

要約の自動評価

要約の自動評価（自動評価）は、手動のスプレッドシートベースの QA から離れ、要約モデルの自動化されたスケーラブルな検証へと移行するために不可欠です。この機能は、モデルバージョンのアップセルやカスタムプロンプトの変更の検証に必要な実証的証拠を提供します。

自動評価の前は、要約モデルを検証するために、人間が文字起こしを読んで要約を手動で採点する必要がありました。これは、時間と費用がかかり、主観的なプロセスでした。要約の自動評価により、要約モデルの検証が次のように改善されます。

始める前に

評価を実行するには、要約ジェネレータ（モデル構成）とデータセット（会話）が必要です。
Customer Experience Insights データセットを使用するが、まだ作成していない場合は、Customer Experience Insights コンソールに移動します。文字起こしファイルが未加工の場合は、アップロード用にサポートされている形式に変換します。

会話データを取り込むには、次の 2 つの方法があります。

ソースのタイプ	最適な用途...	仕組み
Agent Assist Storage	ライブ/本番環境トラフィック	期間とサンプルサイズを選択します。要約の自動評価では、システムに保存されている実際のトラフィックからランダムにサンプリングが行われます。
会話インサイトデータセット	特定のシナリオをテストする	Customer Experience Insights で作成されたキュレートされたデータセットを選択します。これは、ゴールデンセットや特定のテストケースに最適です。

[評価] に移動し、[新しい評価] をクリックします。
次の詳細情報を入力します。
- 表示名: モデルのバージョンと日付を含む命名規則を使用します。
- 機能: [要約] を選択します。
- 生成ツール: テストする特定の生成ツールを選択します。

次のいずれかの要約データソースを選択します。

すべての会話の新しい要約を生成する: 新しいモデルバージョンのテストにおすすめします。
データセットから欠落している要約のみを生成する: 前の手順で選択したジェネレータに基づいて、すべての会話文字起こしに対応する要約がない場合に推奨されます。
データセットの既存の要約を使用します。要約を生成しない: 再生成せずにすでに生成されたものを評価したり、さまざまな要約生成ツールのパフォーマンスを比較したりする場合におすすめします。

結果を保存するバケット内の Cloud Storage フォルダを選択します。

Agent Assist コンソールには概要レベルの結果が表示されますが、詳細な行単位のデータは CSV としてエクスポートします。これは、詳細なトラブルシューティングの信頼できる情報源です。

実行が完了すると、各評価指標のスコアを含むスコアカードが表示されます。

特定の会話の行をクリックすると、次の詳細が表示されます。

2 つの異なる評価実行を選択して比較できます。同じデータセットの評価モデルを比較して、同じ情報に対して比較していることを確認します。実行間でデータセットを変更すると、比較が無効になります。メタデータでデータセット ID が一致していることを必ず確認してください。

要約モデルを最新バージョンにアップグレードする証拠を確認する手順は次のとおりです。

Agent Assist コンソールでは、スコアの高いものがハイライト表示されます。

評価用に独自の未加工テキストファイルをアップロードします。まず、Customer Experience Insights データセットを作成します。
コンソールには [簡潔な状況] セクションが表示されますが、要約文には 2 番目に表示されます。サイドバーの順序は、テキスト生成の順序と完全に一致しない場合があります。最終的な構造については、テキストコンテンツと CSV エクスポートを参照してください。
自動スコアについて。信頼できるが、検証する。自動評価モデルは人間のやり取りをエミュレートするように調整されていますが、エッジケースが存在します。Cloud Storage の CSV エクスポートを常に使用して、小さなサンプルを手動で監査し、自動スコアの信頼性を高めます。