品質 AI 最佳做法

本文列出 Google 建議的最佳做法，協助您充分運用 Quality AI。遵循本文的規範，可確保 Quality AI 盡可能提供最準確實用的資訊，滿足您的業務需求。

評量表

評分表提供代理程式的成效指標，以及如何回答對話相關問題的詳細說明。您必須輸入對話資料、問題和可能的答案選項，以及解讀這些答案的說明。如要獲得最佳成效，請使用 Quality AI 控制台的「評量表」頁面，上傳範例對話。

評分表可讓您將問題分組，並查看各組的分數。建立多個評分表，每個評分表都有不同的問題，以便根據不同條件評估對話。接著，您就能查看每份評分表的品質和對話分數，並根據不同條件評估服務專員。

對話資料

對話資料是語音或即時通訊對話的轉錄稿，當中會遮蓋個人識別資訊。為每個業務單位或客服中心上傳至少 2,000 筆對話。

你也可以上傳語音對話的錄音檔。如要獲得最佳效果，請使用下列規格錄製音訊：

兩個頻道
取樣率為 16,000 Hz (或 8,000 至 48,000 Hz)
無損編碼：FLAC 或 LINEAR16
WAV 音訊檔案的無損編碼：LINEAR16 或 MULAW

語音通話錄音的中繼資料應包含下列資訊：

管道標籤，用於識別服務專員和顧客
服務專員 ID、姓名、地點、團隊和客戶滿意度
音訊語言，以 BCP-47 語言標記表示，例如「en-US」

問題

在每個評量表中，問題和回答問題的說明可提供有價值的資訊，供 Quality AI 評估對話和服務專員的成效。為盡量提高自動評估的準確度，請根據下列概念撰寫問題和指示：

清楚明瞭：撰寫清楚易懂的問題。
具體性：盡量新增具體的答案選項和指示。
詳細資料：請提供詳細的指示，讓真人能夠自信且可靠地評估對話。
範例：如果提供實際對話的範例，說明每個問題的答案，Quality AI 的準確度會更高。

問題的形式相當多元，以下是一些實用的問題範本：

「服務專員是否…？」並列出特定動作。這個格式表示評估人員必須尋找代理程式說的內容。
「顧客是否…？」並列出特定動作。這個格式表示評估人員必須尋找顧客說的內容。
以「什麼」或「為什麼」等疑問詞開頭，有助於評估整段對話。

複選題

使用者經常只會回答「是」或「否」，不過，問題可能不適用於對話，因此需要填寫「不適用」。

或者，在各種情況下，這個問題可能會被解讀為「是」或「否」，導致回覆不一致，且只有兩個選項。如果對話中包含需要其他類型答案的問題，AI 模型就能更深入瞭解對話內容。

聲學分析

Quality AI 會評估對話轉錄稿，但無法執行聲學分析。排除需要聲學分析的問題。舉例來說，無論是真人或 Quality AI，都無法單純透過閱讀對話記錄，回答「專員是否以歡快的語氣問候？」這個問題。

標記

選用標記可提供較小的類別，將相關問題歸為一組。對於單一對話，品質 AI 會計算整體對話分數。你可以使用三種標籤之一將問題分組：商家、顧客或法規遵循。針對每個標記，Quality AI 也會計算分數，其中只會納入套用該標記的問題。

操作說明

指示會定義如何解讀每個答案，因此指示必須明確，不得有解讀空間。這項定義可確保每次評估對話時，都會得到相同的答案。

格式

簡要說明問題的用途，然後說明每個可能答案選項的評估標準。也就是說，您必須定義在何種情況下，使用者會選擇每個答案。

舉例來說，以下指示適用於「在交叉銷售前，專員是否已解決顧客的主要問題？」這類是非題。

指示：

這項問題的目的是瞭解服務專員是否先解決客戶的主要問題，再嘗試銷售其他產品。這能為品牌帶來更正面的體驗。

如果服務專員解決主要問題後嘗試銷售，請評分「是」。示例：「我剛更新了你的帳戶資訊。據瞭解，你已將智慧住宅裝置標示為故障。要訂購更換裝置嗎？」
如果服務專員在解決主要問題前嘗試銷售產品，請評為「否」。示例：「在更新您的帳戶資訊前，我看到您五年前曾向我們購買筆電。要試試我們的新模型嗎？"
如果沒有銷售嘗試，則分數為「不適用」。

答案類型

答案類型取決於問題結構。本節提供建議，協助您開始使用，但並未列出所有用途。

是/否

是/否是最常見的答案類型，因為您可以快速評估這些問題，而且答案通常比其他答案類型更直覺。如果問題適合以「是/否」回答，通常會以「是否...」開頭，詢問特定動作是否發生。這些問題也可以改寫為是非題。

在範例對話中，系統會將「是/否」答案記錄為 true 或 false 值，格式如下：

「是」的答案為 true。
答案是「否」false。

Numbers

如果問題要求提供某項事物的數量、金額，或請你使用量表評估某項事物，則數值型答案會很有幫助。這類問題通常以「有多少...」開頭，「有多...」或「以...為量表」，並要求你決定單一答案。

在範例對話中，數字答案的格式如下：

40.5 的答案是 40.5。

文字

文字答案最需要人工註解者投入心力。適合以文字回覆的問題通常會以疑問詞開頭，例如「什麼...」或「為什麼...」，且通常需要評估整個對話。文字答案可鼓勵受訪者提供更多元的回答，因此說明必須清楚解釋如何解讀問題，以及何時應指派每個答案選項。

在範例對話中，文字答案的格式如下：

「已結案」的答案為 "CONCLUDED"。

設定分數

建立問題時，您可以為每個答案選項指派分數。這些分數代表每個答案選項在計算整體對話分數時的重要性。

答案選項分數的實用範圍為 0 到 10 分。這個範圍可提供一些具體程度的變化，且可與百分比相比較。如果答案選項的分數為 0，不會影響對話分數的計算。如果答案選項的分數為 10 分，對對話分數的影響最大。換句話說，如果答案選項的評分是 10 分，對話分數的升幅會比其他評分較低的答案選項更大。如果答案選項的分數為 5 分，對話分數的升幅會是 10 分答案的一半。

不適用

如果問題不適用於對話，請按一下核取方塊，啟用「不適用」做為答案選項。如果品質 AI 選擇「不適用」做為答案，系統會從對話分數計算中移除該問題。

評量表輸入內容範例

以下範例說明如何新增實用評分表所需的所有資訊。每張評量表都需要下列資訊：

對話的任何問題。
解讀問題和定義每個答案選項的操作說明。
答案類型 (可以是文字、數字或「是/否」)。
根據答案類型定義可能答案的選項 (可以是「是」和「否」、數字清單或一些文字回應)。
分數：設定每個答案選項可獲得的分數。單一問題的最高分數取決於所有答案選項中的最高分數。

您可以加入下列項目，協助整理評量表上的問題，但並非必要：

使用標記將問題歸類 (可分為業務、顧客或法規遵循)。

範例 1

問題：對話結果為何？
標記：顧客
指示：任何對話的目標都是達成解決方案或結果，而這些解決方案或結果可歸類為四種可能類別之一：已結束、已轉移、已重新導向或已升級。
- 已結束的對話是指已成功解決問題，不需要採取任何進一步行動的對話。客戶的問題已解決，對話已結束。
- 轉移的對話是指需要由其他部門或服務專員處理的對話。系統可能已將顧客轉接給專員，以便提供更完善的協助。
- 需要由其他管道處理的對話會遭到重新導向。舉例來說，顧客可能從電話通話重新導向至線上即時通訊工作階段。
- 需要經理或主管介入的對話即為升級對話。客戶的問題可能很嚴重，或是對最初服務專員提供的解決方案不滿意，因此要求升級處理。
答案類型：文字

答案選項分數

已結束 1

已轉移 1

已轉飛其他目的地 1

已提報 0

新增「不適用」做為答案選項。如果選取這個選項，系統就不會將問題計入總分。

答案選項	分數
已結束	1
已轉移	1
已轉飛其他目的地	1
已提報	0

範例 2

問題：以 0 到 5 分為範圍，您認為服務專員與顧客的溝通效果如何？
標籤：業務、法規遵循、客戶
說明：規模和條件
- 0 分 (極差)：無法溝通或完全誤解。令人反感、濫用或有害的語言。完全缺乏尊重或同理心。
- 1 分 (非常差)：溝通有重大困難。經常打斷對方或同時說話。輕鬆瞭解或連結。輕蔑或不尊重的行為。
- 2. 溝通不良：溝通上遭遇一些挑戰。偶爾會出現誤解或不清楚的情況。參與度或興趣有限。偶爾出現不尊重或不體貼的言論。
- 3 分：可進行基本溝通。需要花費一些心力才能理解和被理解。互動和連結程度中等。大致上尊重他人，但仍有進步空間。
- 4 分 (良好)：溝通清晰有效。積極傾聽並瞭解對方想法。建立有意義的互動和連結。展現相互尊重和同理心。
- 5 分 (極佳)：溝通和理解能力極佳。深度參與和連結。具備強烈的協作意識和互助精神。高度尊重、同理心和同情心。
評估時應考量的因素：
- 清晰度：溝通內容是否清楚易懂？
- 理解：參與者是否展現積極聆聽的態度，並理解彼此的觀點？
- 參與度：參與者是否積極參與對話，並對其他人的發言內容感興趣？
- 尊重：對話過程中，雙方是否展現相互尊重和體諒？
- 同理心：參與者是否展現同理心，並瞭解彼此的感受？
- 協作：參與者是否感受到協作和團隊合作的氛圍，還是覺得彼此在競爭？
- 結果：對話是否達成預期目標或帶來正面結果？
請注意：背景資訊很重要。請考量對話情境和目的。在某個情境中適用的內容，在另一個情境中可能就不相符了。

主觀性：評估結果可能帶有主觀性。不同的人對同一段對話的解讀可能略有不同。

著重於改善：將評估視為學習和改善的工具，而非僅僅是評斷或批評的方式。

這個架構提供評估對話的基本指南，但您可以根據特定需求和目標調整評估標準。
答案類型：數字
答案選項和分數：

答案選項分數

0 0

1 1

2 2

3 3

4 4

5 5

答案選項	分數
0	0
1	1
2	2
3	3
4	4
5	5

新增「不適用」做為答案選項。如果選取這個選項，系統就不會將問題計入總分。

範例 3

問題：代表 (服務專員) 是否以適當的開場白向顧客打招呼？
標記：顧客
指示：代表 (代理) 應一律以適當的開場白和問候語開始對話。這是與顧客建立良好專業關係的重要步驟。開場白應親切友善，營造出重視和尊重顧客的氛圍。服務專員也應確保問候語符合情境和顧客的文化背景。服務專員只要以適當的開場白和問候語展開對話，就能給顧客留下好印象、建立良好關係，並為順利互動奠定基礎。
答案類型：是/否
答案選項和分數：

答案選項分數

「是」 1

「否」 0

答案選項	分數
「是」	1
「否」	0

新增「不適用」做為答案選項。如果選取這個選項，系統就不會將問題計入總分。

新增對話範例

對話範例有助於釐清問題的解讀方式。如要校正及自訂 AI 模型，必須提供範例對話，並為每個問題指派答案。AI 模型會從實際對話資料學習，因此請從 Customer Experience Insights 的現有對話中擷取範例。如果您未提供任何範例對話，Quality AI 會使用基礎模型，而這類模型不知道問題的預期答案。

如要提升 AI 模型效能，請至少加入下列內容：

每個問題 100 個對話範例
每個答案選項 40 個對話範例

如果單一問題的範例對話少於 100 則，AI 模型就無法學習如何準確評估該問題。系統會儲存範例對話，並在數量足夠時讓模型學習。只要一次對話，模型就能學會如何為多個問題評分，而且只要新增更多對話範例，就能進一步提升任何問題的評分準確度。

請在評量表的每個問題中，附上對話百分比，說明每個答案選項。以下範例顯示您可能納入的對話數量，用來說明兩種可能的答案選項。這項分割並非必要。

如果評分表上的問題是「服務專員是否對顧客展現同理心？」，且該問題的答案為「是」或「否」，請同時加入下列項目：

問題	可能的答案	對話比重
服務專員是否對顧客展現同理心？	「是」	75%
	「否」	25%

對話格式範例

對話範例至少須包含每段對話、評分表和問題的 ID，以及預期答案。範例對話也可以包含答案選項、分數和說明。上傳的範例對話會做為 FeedbackLabel 資源。如要瞭解如何使用 API 編輯範例對話，請參閱「設定指南」。

CSV

您必須以 CSV 檔案上傳範例對話。CSV 檔案的第一行必須是標題，且檔案必須包含下列類別：

ConversationId
QaScorecardId
QaQuestionId
QaAnswerLabel 或個別欄位，例如 QaAnswerScore 和 QaAnswerValue

Quality AI 會自動建立範例對話範本，並填入上述 ID。您可以選擇要使用哪個評分表來評估範例對話，並篩選範本，只納入部分對話。如需建立範本及上傳範例對話的操作說明，請參閱「品質 AI 設定指南」。

CSV 範例對話檔案的格式不一，舉例來說，是/否答案會對應至 True 或 False 值，數字則維持不變，文字答案則會加上引號。也就是說，true 會顯示為「是/否」答案類型，且選取的答案選項為「是」。另一方面，"Yes" 會顯示為文字答案類型，並選取「是」做為答案選項。以下範例說明幾種可能的 CSV 格式。

個別標頭 QaAnswerValue 未指派分數。

ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue
convo_id,scorecard_test_id,question_id_q3,"NO"
convo_id,scorecard_test_id,question_id_q6,"YES"
convo_id,scorecard_test_id,question_id_q6,true
convo_id,scorecard_test_id,question_id_q6,false
convo_id,scorecard_test_id,question_id_q6,40.5

包括 QaAnswerValue 和 QaAnswerScore 標頭。

ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue,QaAnswerScore
convo_id,scorecard_test_id,question_id_q3,"NO",score: 1.0
convo_id,scorecard_test_id,question_id_q6,"YES",score: 1.0

QaAnswerLabel 標頭包含分數和答案，但兩者之間沒有以半形逗號分隔。

ConversationId,QaScorecardId,QaQuestionId,QaAnswerLabel
convo_id,scorecard_test_id,question_id_q3,score: 1.0 "NO"
convo_id,scorecard_test_id,question_id_q6,score: 0.5 40.5
convo_id,scorecard_test_id,question_id_q6,na_value:true
convo_id,scorecard_test_id,question_id_q3,true

資料表

在試算表中，範例對話的視覺格式是表格，每個資料列包含識別單一答案的資訊，每個資料欄則包含個別識別資訊，如下表所示：

對話 ID	評量表 ID	問題 ID	答案
44748735396	5727080762913918243	4097398336657302301	`"YES"`
44748735396	5727080762913918243	3576133206121890384	`"NO"`
3495523396	5727080762913918243	4097398336657302301	`"YES"`
3495523396	5727080762913918243	3576133206121890384	`"NO"`

評估對話

真人註解者會使用評分卡問題和說明手動評估對話，並判斷範例對話中每個問題的正確答案。如果多位使用者評估同一段對話，有時會對每個問題提供不同答案。評估結果不一致會為機器學習程序帶來雜訊和混淆。在對話中，如果相同或類似的問題與多個不同答案相關聯，品質 AI 就無法學習問題與答案之間的對應關係。

如果多位使用者在同一項對話中回答相同問題，可能會因為下列原因導致回答內容不一致：

主觀問題，導致註解者有不同解讀。
詳細資料不足或規範不明確的評量表。
問題、答案選項或指示的不同版本，例如：
- 你可以先只提供「是/否」答案選項，之後再改用更精細的方法，提供「否-a」、「否-b」和「否-c」選項。
- 不過，如果將是/否方法與 no-a、no-b 和 no-c 選項合併，模型就會感到困惑。
需要大量認知負荷的評估工作。

評估一致性

如要評估範例對話的一致性，請要求多位註解者獨立評估同一段對話。然後使用 Cohen's kappa 係數計算兩者之間的協議。您希望 Cohen's kappa 係數不低於 0.2。如果一致性偏低，請嘗試下列其中一種做法：

修正問題和指示，減少解讀空間。
標註者之間可以溝通，解決差異並達成單一評分標準。
持續監控註解者之間的意見一致性。
如果註解者的答案經常與評分標準不同，請提供額外訓練。