このドキュメントでは、Quality AI を最大限に活用するための Google の推奨事項について説明します。このドキュメントのガイドラインに沿って設定することで、Quality AI がビジネスニーズに最も正確で有用な情報を提供できるようになります。
スコアカード
スコアカードでは、エージェントのパフォーマンス指標と、会話に関する質問に回答するための詳細な手順を確認できます。会話データ、質問、選択肢を入力し、回答の解釈方法に関する手順を入力する必要があります。最適な結果を得るには、Quality AI コンソールの [スコアカード] ページを使用して、会話の例をアップロードします。
スコアカードを使用すると、質問をグループ化して、グループごとに個別のスコアを表示できます。それぞれに異なる質問を含む複数のスコアカードを作成して、さまざまな基準で会話を評価します。各スコアカードの品質スコアと会話スコアを確認して、個別の基準に基づいてエージェントを評価できます。
会話データ
会話データは、音声またはチャットの会話の文字起こしであり、個人を特定できる情報は編集されています。ビジネス ユニットまたはコールセンターごとに 2,000 件以上の会話をアップロードします。
音声会話の音声録音をアップロードすることもできます。最適な結果を得るには、次の仕様で音声を録音してください。
- 2 つのチャンネル
- 16,000 Hz のサンプリング レート(または 8,000 ~ 48,000 Hz)
- ロスレス エンコード: FLAC または LINEAR16
- WAV 音声ファイルのロスレス エンコード: LINEAR16 または MULAW
音声通話の音声録音のメタデータには、次の情報を含める必要があります。
- エージェントとお客様を識別するためのチャネル ラベル
- エージェント ID、名前、場所、チーム、CSAT
- 音声の言語(BCP-47 言語タグ形式。例: en-US)
質問
各スコアカード内の質問とその回答手順は、Quality AI が会話とエージェントのパフォーマンスを評価するための貴重な情報となります。自動評価の精度を最大限に高めるには、次のコンセプトを念頭に置いて質問と指示を作成します。
- 明確さ: 人間が理解できる明確な質問を作成します。
- 具体性: できるだけ具体的な回答の選択肢と手順を追加します。
- 詳細: 人間が会話を自信を持って確実に評価できるだけの詳細な指示を含めます。
- 例: 質問に対する各回答を示す実際の会話の例を提供すると、Quality AI の精度がさらに向上します。
質問にはさまざまな形式があります。以下に、役立つ質問テンプレートの例を示します。
- 「エージェントは…したか?」という質問に、具体的なアクションを答えます。この形式は、エージェントの発言を評価者が探す必要があることを示します。
- 「お客様は…しましたか?」という質問に、具体的な行動を当てはめます。この形式は、評価者がお客様の発言を探す必要があることを示します。
- 何やなぜなどの疑問詞で始めることで、会話全体を評価できます。
複数回答の質問
ユーザーは、回答が「はい」と「いいえ」のみの質問をよく作成します。ただし、質問が会話に当てはまらない場合は、N/A とします。
また、さまざまな状況で質問が「はい」または「いいえ」と解釈される可能性があり、2 つの選択肢のみでは回答に一貫性がなくなります。他のタイプの回答を必要とする質問を含めることで、AI モデルは会話をより深く理解できます。
音響分析
Quality AI は会話の文字起こしを評価しますが、音響分析は実行できません。音響分析が必要な質問は除外します。たとえば、「エージェントは明るいトーンの挨拶を使用しましたか?」という質問に、会話の文字起こしを読むだけで回答することは、人間にも Quality AI にもできません。
タグ
省略可能なタグは、関連する質問をグループ化するためのより小さなカテゴリを提供します。1 つの会話について、Quality AI は会話の総合スコアを計算します。質問は、ビジネス、顧客、コンプライアンスの 3 つのタグのいずれかを使用してグループ化できます。Quality AI は、各タグについて、そのタグが適用された質問のみを含むスコアも計算します。
手順
指示は各回答の解釈方法を定義するため、具体的で解釈の余地がないものでなければなりません。この定義により、会話の各評価で同じ回答が得られます。
形式
質問の目的の簡単な説明と、各回答の選択肢の基準の説明を含めます。つまり、各回答の選択肢が選択される正確な状況を定義する必要があります。
たとえば、「エージェントはクロスセルを行う前に、お客様の主な懸念事項に対応しましたか?」という質問に対する回答が「はい」か「いいえ」かを判断する手順は次のとおりです。
手順:
この質問の目的は、エージェントが追加の製品を販売しようとする前に、お客様の主な懸念事項に対処したかどうかを把握することです。これにより、ブランドのイメージが向上します。
エージェントが主な問題を解決してから販売を試みた場合は、「はい」とスコアを付けます。例: 「お客様のアカウント情報を更新しました。スマートホーム デバイスが破損しているとマークされていることを確認いたしました。交換品をご注文されますか?」
エージェントが主な問題を解決する前に製品を販売しようとした場合は、「No」と採点します。例: 「お客様のアカウント情報を更新する前に、5 年前に弊社からノートパソコンをご購入いただいたことを確認いたしました。新しいモデルをお試しになりますか?」
販売を試みなかった場合は「N/A」とスコアを付けます。
回答の種類
回答のタイプは、質問の構造によって異なります。このセクションでは、使用を開始する際に役立つ提案を紹介しますが、使用例をすべて網羅しているわけではありません。
Yes/No
「はい/いいえ」は、質問をすばやく評価でき、回答が他の回答タイプよりも直感的であることが多いため、最も一般的な回答タイプです。「はい」または「いいえ」で答えられる質問は、「~しましたか?」で始まり、特定の操作が行われたかどうかを尋ねる場合が多いです。これらの質問は、正誤問題として記述することもできます。
会話例では、はい/いいえの回答は、次の形式で true または false の値として記録されます。
- 「はい」の回答は
trueです。 - 「No」の回答は
falseです。
数字
数値回答は、何かの数や金額を尋ねる質問や、何かを段階的に評価する質問に役立ちます。この回答タイプが適している質問は、「~はいくつですか?」で始まることが多いです。「どのくらい...」や「...のスケールで」といった質問で、単一の回答を求めるもの。
会話例では、数値の回答は次の形式になります。
- 40.5 の答えは
40.5です。
テキスト
テキスト回答は、人間によるアノテーターの作業が最も必要になります。テキスト回答が有効な質問は、「~とは」や「~の理由」などの疑問詞で始まり、会話全体を評価する必要がある場合が多くあります。テキスト回答では回答のバリエーションが増えるため、質問の解釈方法と、各回答の選択肢を割り当てるタイミングを明確に説明する必要があります。
会話例では、テキストの回答は次の形式になります。
- [Concluded] の回答は
"CONCLUDED"です。
スコアの割り当て
質問を作成する際に、各回答の選択肢に数値のスコアを割り当てることができます。これらのスコアは、全体的な会話スコアの計算における各回答の重要度を表します。
回答選択肢のスコアの有用な範囲は 0 ~ 10 です。この範囲は、特異性のばらつきを示し、パーセンテージに相当します。スコアが 0 の回答選択肢は、会話スコアの計算に影響しません。スコアが 10 の回答選択肢は、会話スコアに最も大きな影響を与えます。つまり、スコアが 10 の回答の選択肢は、スコアが低い回答の選択肢よりも会話スコアを上げます。スコアが 5 の回答の選択肢は、スコアが 10 の回答の選択肢の半分だけ会話スコアを上げます。
なし
質問が会話に当てはまらない場合に回答の選択肢として [該当なし] を有効にするには、チェックボックスをオンにします。Quality AI が回答として [N/A] を選択した場合、その質問は会話スコアの計算から除外されます。
スコアカードの入力例
次の例は、有用なスコアカードに必要なすべての情報を追加する方法を示しています。各スコアカードには次の情報が必要です。
- 会話に関する質問。
- 質問の解釈と各回答の定義に関する手順。
- 回答のタイプ(テキスト、数値、はい/いいえ)。
- 回答タイプに基づいて可能な回答を定義する回答の選択肢(「はい」と「いいえ」、数字のリスト、テキスト レスポンスなど)。
- 各回答の選択肢で獲得できるポイントを設定するスコア。1 つの質問の最大スコアは、すべての回答選択肢の中で最も高いスコアによって決まります。
スコアカードの質問を整理するために、次の項目を含めることができますが、必須ではありません。
- 質問をカテゴリ(ビジネス、お客様、コンプライアンスなど)にグループ化するためのタグ。
例 1
- 質問: 会話の結果はどうなりましたか?
- タグ: お客様
手順: 会話の目的は、解決策または結果を次の 4 つのカテゴリ(解決済み、転送済み、リダイレクト済み、エスカレーション済み)のいずれかに分類することです。
解決済みの会話とは、問題が解決し、それ以上の対応が不要になった会話のことです。お客様の問題が解決し、会話が終了しました。
転送されたスレッドは、別の部門またはエージェントが対応する必要があるスレッドです。お客様の問題に適切に対応できるスペシャリストに転送された可能性があります。
転送された会話とは、別のチャネルで対応する必要がある会話のことです。たとえば、電話からオンライン チャット セッションにリダイレクトされたお客様がいます。
エスカレーションされた会話とは、マネージャーまたはスーパーバイザーの関与が必要な会話のことです。お客様の問題の重大性、または最初に対応したエージェントが提示した解決策に満足していないことが理由で、エスカレーションされた可能性があります。
回答の種類: テキスト
回答の選択肢 スコア 終了 1 移行済み 1 リダイレクト 1 Escalated 0 回答の選択肢として「該当なし」を追加します。選択すると、この質問は合計スコアの計算に含まれません。
例 2
- 質問: エージェントとお客様とのコミュニケーションはどの程度効果的でしたか?0 ~ 5 のスケールで評価してください。
- タグ: ビジネス、コンプライアンス、お客様
手順: スケールと条件
0、非常に悪い: コミュニケーションが取れていない、または完全に誤解している。攻撃的、侮辱的、有害な表現。敬意や共感がまったく感じられない。
1, 非常に悪い: コミュニケーションに重大な問題がある。頻繁に会話が中断されたり、相手の言葉を遮ったりする。理解や接続に手間がかからない。軽蔑的または失礼な行為。
2、Poor(不良): コミュニケーションに課題がある。誤解や不明確さが生じることがある。エンゲージメントや関心が低い。失礼な言動や配慮に欠ける言動がたまにある。
3、平均: 基本的なコミュニケーションを達成。理解し、理解されるための努力が必要。適度なレベルのエンゲージメントとつながり。一般的に敬意を払っているが、改善の余地がある。
4、良好: 明確で効果的なコミュニケーション。積極的に耳を傾け、理解する。有意義なエンゲージメントとつながり。相互の尊重と共感が示されている。
5、優良: 優れたコミュニケーションと理解。深いエンゲージメントとつながり。コラボレーションと相互サポートの意識が高い。高いレベルの敬意、共感、思いやり。
評価する際に考慮すべき要素:
明瞭さ: コミュニケーションは明確で理解しやすいものでしたか?
理解: 参加者は、積極的な傾聴と互いの視点の理解を示しましたか?
エンゲージメント: 参加者は会話に積極的に参加し、他の参加者の発言に関心を示していましたか?
敬意: 会話全体を通して、相互の敬意と配慮が示されていましたか?
共感: 参加者は互いの気持ちに共感し、理解を示しましたか?
コラボレーション: コラボレーションやチームワークは感じられましたか?それとも、参加者は互いに競い合っていると感じましたか?
結果: 会話は意図した目標を達成したか、肯定的な結果につながったか?
コンテキストが重要であることを忘れないでください。会話のコンテキストと目的を考慮します。ある設定では適切でも、別の設定では適切でない場合があります。
主観性: 評価が主観的になる可能性があります。同じ会話でも、人によって解釈が若干異なることがあります。
改善に焦点を当てる: 評価は、判断や批判の手段としてではなく、学習と改善のためのツールとして使用します。
このフレームワークは、会話を評価するための基本的なガイドラインを提供しますが、特定のニーズや目標に基づいて基準を調整できます。
回答の種類: 数値
回答の選択肢とスコア:
回答の選択肢 スコア 0 0 1 1 2 2 3 3 4 4 5 5
回答の選択肢として「該当なし」を追加します。選択すると、この質問は合計スコアの計算に含まれません。
例 3
- 質問: 担当者(エージェント)は適切な挨拶でお客様に対応しましたか?
- タグ: お客様
- 手順: 担当者(エージェント)は、常に適切な挨拶で会話を始める必要があります。これは、お客様との良好でプロフェッショナルな関係を築くうえで重要なステップとなります。冒頭は、お客様に価値を認められ、尊重されていると感じていただけるような、温かく、親しみやすく、歓迎的なトーンで始める必要があります。また、担当者(エージェント)は、挨拶が状況やお客様の文化的背景に適していることを確認する必要があります。適切なオープニングと挨拶で会話を始めることで、担当者は好印象を与え、信頼関係を築き、お客様とのやり取りを成功させるための基盤を築くことができます。
- 回答の種類: はい/いいえ
回答の選択肢とスコア:
回答の選択肢 スコア 「はい」 1 「いいえ」 0
回答の選択肢として「該当なし」を追加します。選択すると、この質問は合計スコアの計算に含まれません。
会話の例を追加する
会話の例は、質問の解釈を明確にするのに役立ちます。AI モデルを調整してカスタマイズするには、各質問に回答が割り当てられた会話の例が必要です。AI モデルは実際の会話データから学習するため、Customer Experience Insights の既存の会話から例を取得します。会話の例を提示しない場合、Quality AI は質問に対する想定される回答を認識していない基盤モデルを使用します。
AI モデルのパフォーマンスを向上させるには、少なくとも次のものを含めます。
- 質問ごとに 100 個の会話例
- 回答の選択肢ごとに 40 個の会話例
1 つの質問に対して 100 件未満の会話例を提供した場合、AI モデルはその特定の質問を正確にスコアリングする方法を学習しません。会話の例は保存され、十分な例が揃うとモデルが学習します。1 つの会話で、モデルに複数の質問のスコアリング方法を教えることができます。また、会話の例を追加することで、質問のスコアリング精度をさらに高めることができます。
スコアカードの各質問について、各回答の選択肢を示す会話の割合を含めます。次の例は、2 つの回答候補を示すために含める会話の数を示しています。この特定の分割は必須ではありません。
スコアカードの質問が「エージェントは顧客に共感を示しましたか?」で、その質問に対する回答が「はい」または「いいえ」の場合、次の両方を含めます。
| 問題 | 回答例 | 会話のシェア |
|---|---|---|
| エージェントはお客様に共感を示しましたか? | 「はい」 | 75% |
| 「いいえ」 | 25% |
会話の形式の例
会話の例には、各会話、スコアカード、質問の識別子と、想定される回答を少なくとも含める必要があります。回答の選択肢、スコア、指示を会話の例に含めることもできます。会話の例は FeedbackLabel リソースとしてアップロードされます。API を使用して会話例を編集する方法については、設定ガイドをご覧ください。
CSV
会話の例は CSV ファイルでアップロードする必要があります。CSV ファイルの 1 行目はヘッダーにする必要があります。また、ファイルには次のカテゴリを含める必要があります。
- ConversationId
- QaScorecardId
- QaQuestionId
- QaAnswerLabel、または QaAnswerScore や QaAnswerValue などの個別のフィールド
Quality AI は、上記の ID が入力された会話テンプレートの例を自動的に作成できます。サンプル会話に使用するスコアカードを選択したり、テンプレートをフィルタして一部の会話のみを含めたりできます。テンプレートの作成と会話例のアップロードの手順については、Quality AI 設定ガイドをご覧ください。
CSV の会話ファイルの例には、さまざまな形式があります。たとえば、はい/いいえの回答は true または false の値に対応し、数値はそのまま残り、テキストの回答は引用符で囲まれます。つまり、true は「はい/いいえ」の回答タイプとして表示され、選択された回答は「はい」になります。一方、"Yes" は、回答の選択肢として [はい] が選択されたテキスト回答タイプとして表示されます。次の例は、CSV の形式の例を示しています。
- 個々のヘッダー
QaAnswerValueにはスコアが割り当てられません。ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue convo_id,scorecard_test_id,question_id_q3,"NO" convo_id,scorecard_test_id,question_id_q6,"YES" convo_id,scorecard_test_id,question_id_q6,true convo_id,scorecard_test_id,question_id_q6,false convo_id,scorecard_test_id,question_id_q6,40.5
QaAnswerValueヘッダーとQaAnswerScoreヘッダーの両方を含みます。ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue,QaAnswerScore convo_id,scorecard_test_id,question_id_q3,"NO",score: 1.0 convo_id,scorecard_test_id,question_id_q6,"YES",score: 1.0
QaAnswerLabelヘッダーにはスコアと回答の両方が含まれますが、カンマで区切られていません。ConversationId,QaScorecardId,QaQuestionId,QaAnswerLabel convo_id,scorecard_test_id,question_id_q3,score: 1.0 "NO" convo_id,scorecard_test_id,question_id_q6,score: 0.5 40.5 convo_id,scorecard_test_id,question_id_q6,na_value:true convo_id,scorecard_test_id,question_id_q3,true
テーブル
スプレッドシート内の会話例の視覚的な形式は、次の表に示すように、各行に 1 つの回答を識別するための情報が含まれ、各列に個別の識別情報が含まれるテーブルです。
| 会話 ID | スコアカード ID | 質問 ID | 回答 |
|---|---|---|---|
| 44748735396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 44748735396 | 5727080762913918243 | 3576133206121890384 | "NO" |
| 3495523396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 3495523396 | 5727080762913918243 | 3576133206121890384 | "NO" |
会話を評価する
人間のアノテーターは、スコアカードの質問と手順を使用して会話を手動で評価し、会話例の各質問に対する正解を判断します。複数のユーザーが同じ会話を評価する場合、質問ごとに異なる回答をすることがあります。評価の不整合により、ML プロセスにノイズと混乱が生じます。会話内で、同じ質問または類似した質問が複数の異なる回答に関連付けられている場合、Quality AI は質問と回答のマッピングを学習できません。
1 つの会話に対して複数のユーザーが同じ質問に回答すると、次のいずれかの理由で回答に一貫性がなくなることがあります。
- アノテーター間で解釈が異なる主観的な質問。
- 詳細が不十分なルーブリックや、ガイドラインが不明確なルーブリック。
- 質問、回答の選択肢、手順のさまざまなバージョン(例:
- 最初は「はい」と「いいえ」の回答オプションのみで始め、後で「なし-a」、「なし-b」、「なし-c」のオプションを使用して、より詳細なアプローチに変更できます。
- ただし、yes/no アプローチを no-a、no-b、no-c オプションと組み合わせると、モデルが混乱します。
- 認知負荷が大きい評価タスク。
一貫性を測定する
会話例の一貫性を測定するには、複数のアノテーターに同じ会話を個別に評価してもらいます。次に、コーエンのカッパ係数を使用して、それらの間の合意を計算します。コーエンのカッパ係数が 0.2 以上になるようにします。一貫性が低い場合は、次のいずれかの方法をお試しください。
- 解釈の余地が少なくなるように、質問と指示を調整します。
- アノテーター間でコミュニケーションを取り、不一致を解消して、単一のグレーディング基準に合意します。
- アノテーター間の整合性を継続的にモニタリングします。
- 回答が採点基準と頻繁に異なるアノテーターに、追加のトレーニングを提供します。