本文列出 Google 建議的最佳做法,協助您充分運用 Quality AI。遵循本文的規範,可確保 Quality AI 盡可能提供最準確實用的資訊,滿足您的業務需求。
評量表
評分表提供代理程式的成效指標,以及如何回答對話相關問題的詳細說明。您必須輸入對話資料、問題和可能的答案選項,以及解讀這些答案的說明。如要獲得最佳成效,請使用 Quality AI 控制台的「評量表」頁面,上傳範例對話。
評分表可讓您將問題分組,並查看各組的分數。建立多個評分表,每個評分表都有不同的問題,以便根據不同條件評估對話。接著,您就能查看每份評分表的品質和對話分數,並根據不同條件評估服務專員。
對話資料
對話資料是語音或即時通訊對話的轉錄稿,當中會遮蓋個人識別資訊。為每個業務單位或客服中心上傳至少 2,000 筆對話。
你也可以上傳語音對話的錄音檔。如要獲得最佳效果,請使用下列規格錄製音訊:
- 兩個頻道
- 取樣率為 16,000 Hz (或 8,000 至 48,000 Hz)
- 無損編碼:FLAC 或 LINEAR16
- WAV 音訊檔案的無損編碼:LINEAR16 或 MULAW
語音通話錄音的中繼資料應包含下列資訊:
- 管道標籤,用於識別服務專員和顧客
- 服務專員 ID、姓名、地點、團隊和客戶滿意度
- 音訊語言,以 BCP-47 語言標記表示,例如「en-US」
問題
在每個評量表中,問題和回答問題的說明可提供有價值的資訊,供 Quality AI 評估對話和服務專員的成效。為盡量提高自動評估的準確度,請根據下列概念撰寫問題和指示:
- 清楚明瞭:撰寫清楚易懂的問題。
- 具體性:盡量新增具體的答案選項和指示。
- 詳細資料:請提供詳細的指示,讓真人能夠自信且可靠地評估對話。
- 範例:如果提供實際對話的範例,說明每個問題的答案,Quality AI 的準確度會更高。
問題的形式相當多元,以下是一些實用的問題範本:
- 「服務專員是否…?」並列出特定動作。 這個格式表示評估人員必須尋找代理程式說的內容。
- 「顧客是否…?」並列出特定動作。 這個格式表示評估人員必須尋找顧客說的內容。
- 以「什麼」或「為什麼」等疑問詞開頭,有助於評估整段對話。
複選題
使用者經常只會回答「是」或「否」,不過,問題可能不適用於對話,因此需要填寫「不適用」。
或者,在各種情況下,這個問題可能會被解讀為「是」或「否」,導致回覆不一致,且只有兩個選項。如果對話中包含需要其他類型答案的問題,AI 模型就能更深入瞭解對話內容。
聲學分析
Quality AI 會評估對話轉錄稿,但無法執行聲學分析。排除需要聲學分析的問題。舉例來說,無論是真人或 Quality AI,都無法單純透過閱讀對話記錄,回答「專員是否以歡快的語氣問候?」這個問題。
標記
選用標記可提供較小的類別,將相關問題歸為一組。對於單一對話,品質 AI 會計算整體對話分數。你可以使用三種標籤之一將問題分組:商家、顧客或法規遵循。針對每個標記,Quality AI 也會計算分數,其中只會納入套用該標記的問題。
操作說明
指示會定義如何解讀每個答案,因此指示必須明確,不得有解讀空間。這項定義可確保每次評估對話時,都會得到相同的答案。
格式
簡要說明問題的用途,然後說明每個可能答案選項的評估標準。也就是說,您必須定義在何種情況下,使用者會選擇每個答案。
舉例來說,以下指示適用於「在交叉銷售前,專員是否已解決顧客的主要問題?」這類是非題。
指示:
這項問題的目的是瞭解服務專員是否先解決客戶的主要問題,再嘗試銷售其他產品。這能為品牌帶來更正面的體驗。
如果服務專員解決主要問題後嘗試銷售,請評分「是」。示例:「我剛更新了你的帳戶資訊。據瞭解,你已將智慧住宅裝置標示為故障。要訂購更換裝置嗎?」
如果服務專員在解決主要問題前嘗試銷售產品,請評為「否」。示例:「在更新您的帳戶資訊前,我看到您五年前曾向我們購買筆電。要試試我們的新模型嗎?"
如果沒有銷售嘗試,則分數為「不適用」。
答案類型
答案類型取決於問題結構。本節提供建議,協助您開始使用,但並未列出所有用途。
是/否
是/否是最常見的答案類型,因為您可以快速評估這些問題,而且答案通常比其他答案類型更直覺。如果問題適合以「是/否」回答,通常會以「是否...」開頭,詢問特定動作是否發生。這些問題也可以改寫為是非題。
在範例對話中,系統會將「是/否」答案記錄為 true 或 false 值,格式如下:
- 「是」的答案為
true。 - 答案是「否」
false。
Numbers
如果問題要求提供某項事物的數量、金額,或請你使用量表評估某項事物,則數值型答案會很有幫助。這類問題通常以「有多少...」開頭,「有多...」或「以...為量表」,並要求你決定單一答案。
在範例對話中,數字答案的格式如下:
- 40.5 的答案是
40.5。
文字
文字答案最需要人工註解者投入心力。適合以文字回覆的問題通常會以疑問詞開頭,例如「什麼...」或「為什麼...」,且通常需要評估整個對話。文字答案可鼓勵受訪者提供更多元的回答,因此說明必須清楚解釋如何解讀問題,以及何時應指派每個答案選項。
在範例對話中,文字答案的格式如下:
- 「已結案」的答案為
"CONCLUDED"。
設定分數
建立問題時,您可以為每個答案選項指派分數。這些分數代表每個答案選項在計算整體對話分數時的重要性。
答案選項分數的實用範圍為 0 到 10 分。這個範圍可提供一些具體程度的變化,且可與百分比相比較。如果答案選項的分數為 0,不會影響對話分數的計算。如果答案選項的分數為 10 分,對對話分數的影響最大。換句話說,如果答案選項的評分是 10 分,對話分數的升幅會比其他評分較低的答案選項更大。如果答案選項的分數為 5 分,對話分數的升幅會是 10 分答案的一半。
不適用
如果問題不適用於對話,請按一下核取方塊,啟用「不適用」做為答案選項。如果品質 AI 選擇「不適用」做為答案,系統會從對話分數計算中移除該問題。
評量表輸入內容範例
以下範例說明如何新增實用評分表所需的所有資訊。每張評量表都需要下列資訊:
- 對話的任何問題。
- 解讀問題和定義每個答案選項的操作說明。
- 答案類型 (可以是文字、數字或「是/否」)。
- 根據答案類型定義可能答案的選項 (可以是「是」和「否」、數字清單或一些文字回應)。
- 分數:設定每個答案選項可獲得的分數。單一問題的最高分數取決於所有答案選項中的最高分數。
您可以加入下列項目,協助整理評量表上的問題,但並非必要:
- 使用標記將問題歸類 (可分為業務、顧客或法規遵循)。
範例 1
- 問題:對話結果為何?
- 標記:顧客
指示:任何對話的目標都是達成解決方案或結果,而這些解決方案或結果可歸類為四種可能類別之一:已結束、已轉移、已重新導向或已升級。
已結束的對話是指已成功解決問題,不需要採取任何進一步行動的對話。客戶的問題已解決,對話已結束。
轉移的對話是指需要由其他部門或服務專員處理的對話。系統可能已將顧客轉接給專員,以便提供更完善的協助。
需要由其他管道處理的對話會遭到重新導向。舉例來說,顧客可能從電話通話重新導向至線上即時通訊工作階段。
需要經理或主管介入的對話即為升級對話。客戶的問題可能很嚴重,或是對最初服務專員提供的解決方案不滿意,因此要求升級處理。
答案類型:文字
答案選項 分數 已結束 1 已轉移 1 已轉飛其他目的地 1 已提報 0 新增「不適用」做為答案選項。如果選取這個選項,系統就不會將問題計入總分。
範例 2
- 問題:以 0 到 5 分為範圍,您認為服務專員與顧客的溝通效果如何?
- 標籤:業務、法規遵循、客戶
說明:規模和條件
0 分 (極差):無法溝通或完全誤解。令人反感、濫用或有害的語言。完全缺乏尊重或同理心。
1 分 (非常差):溝通有重大困難。經常打斷對方或同時說話。輕鬆瞭解或連結。輕蔑或不尊重的行為。
2. 溝通不良:溝通上遭遇一些挑戰。偶爾會出現誤解或不清楚的情況。參與度或興趣有限。偶爾出現不尊重或不體貼的言論。
3 分:可進行基本溝通。需要花費一些心力才能理解和被理解。互動和連結程度中等。大致上尊重他人,但仍有進步空間。
4 分 (良好):溝通清晰有效。積極傾聽並瞭解對方想法。建立有意義的互動和連結。展現相互尊重和同理心。
5 分 (極佳):溝通和理解能力極佳。深度參與和連結。具備強烈的協作意識和互助精神。高度尊重、同理心和同情心。
評估時應考量的因素:
清晰度:溝通內容是否清楚易懂?
理解:參與者是否展現積極聆聽的態度,並理解彼此的觀點?
參與度:參與者是否積極參與對話,並對其他人的發言內容感興趣?
尊重:對話過程中,雙方是否展現相互尊重和體諒?
同理心:參與者是否展現同理心,並瞭解彼此的感受?
協作:參與者是否感受到協作和團隊合作的氛圍,還是覺得彼此在競爭?
結果:對話是否達成預期目標或帶來正面結果?
請注意:背景資訊很重要。請考量對話情境和目的。在某個情境中適用的內容,在另一個情境中可能就不相符了。
主觀性:評估結果可能帶有主觀性。不同的人對同一段對話的解讀可能略有不同。
著重於改善:將評估視為學習和改善的工具,而非僅僅是評斷或批評的方式。
這個架構提供評估對話的基本指南,但您可以根據特定需求和目標調整評估標準。
答案類型:數字
答案選項和分數:
答案選項 分數 0 0 1 1 2 2 3 3 4 4 5 5
新增「不適用」做為答案選項。如果選取這個選項,系統就不會將問題計入總分。
範例 3
- 問題:代表 (服務專員) 是否以適當的開場白向顧客打招呼?
- 標記:顧客
- 指示:代表 (代理) 應一律以適當的開場白和問候語開始對話。 這是與顧客建立良好專業關係的重要步驟。 開場白應親切友善,營造出重視和尊重顧客的氛圍。 服務專員也應確保問候語符合情境和顧客的文化背景。服務專員只要以適當的開場白和問候語展開對話,就能給顧客留下好印象、建立良好關係,並為順利互動奠定基礎。
- 答案類型:是/否
答案選項和分數:
答案選項 分數 「是」 1 「否」 0
新增「不適用」做為答案選項。如果選取這個選項,系統就不會將問題計入總分。
新增對話範例
對話範例有助於釐清問題的解讀方式。如要校正及自訂 AI 模型,必須提供範例對話,並為每個問題指派答案。AI 模型會從實際對話資料學習,因此請從 Customer Experience Insights 的現有對話中擷取範例。如果您未提供任何範例對話,Quality AI 會使用基礎模型,而這類模型不知道問題的預期答案。
如要提升 AI 模型效能,請至少加入下列內容:
- 每個問題 100 個對話範例
- 每個答案選項 40 個對話範例
如果單一問題的範例對話少於 100 則,AI 模型就無法學習如何準確評估該問題。系統會儲存範例對話,並在數量足夠時讓模型學習。只要一次對話,模型就能學會如何為多個問題評分,而且只要新增更多對話範例,就能進一步提升任何問題的評分準確度。
請在評量表的每個問題中,附上對話百分比,說明每個答案選項。以下範例顯示您可能納入的對話數量,用來說明兩種可能的答案選項。這項分割並非必要。
如果評分表上的問題是「服務專員是否對顧客展現同理心?」,且該問題的答案為「是」或「否」,請同時加入下列項目:
| 問題 | 可能的答案 | 對話比重 |
|---|---|---|
| 服務專員是否對顧客展現同理心? | 「是」 | 75% |
| 「否」 | 25% |
對話格式範例
對話範例至少須包含每段對話、評分表和問題的 ID,以及預期答案。範例對話也可以包含答案選項、分數和說明。上傳的範例對話會做為 FeedbackLabel 資源。如要瞭解如何使用 API 編輯範例對話,請參閱「設定指南」。
CSV
您必須以 CSV 檔案上傳範例對話。CSV 檔案的第一行必須是標題,且檔案必須包含下列類別:
- ConversationId
- QaScorecardId
- QaQuestionId
- QaAnswerLabel 或個別欄位,例如 QaAnswerScore 和 QaAnswerValue
Quality AI 會自動建立範例對話範本,並填入上述 ID。您可以選擇要使用哪個評分表來評估範例對話,並篩選範本,只納入部分對話。如需建立範本及上傳範例對話的操作說明,請參閱「品質 AI 設定指南」。
CSV 範例對話檔案的格式不一,舉例來說,是/否答案會對應至 True 或 False 值,數字則維持不變,文字答案則會加上引號。也就是說,true 會顯示為「是/否」答案類型,且選取的答案選項為「是」。另一方面,"Yes" 會顯示為文字答案類型,並選取「是」做為答案選項。以下範例說明幾種可能的 CSV 格式。
- 個別標頭
QaAnswerValue未指派分數。ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue convo_id,scorecard_test_id,question_id_q3,"NO" convo_id,scorecard_test_id,question_id_q6,"YES" convo_id,scorecard_test_id,question_id_q6,true convo_id,scorecard_test_id,question_id_q6,false convo_id,scorecard_test_id,question_id_q6,40.5
- 包括
QaAnswerValue和QaAnswerScore標頭。ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue,QaAnswerScore convo_id,scorecard_test_id,question_id_q3,"NO",score: 1.0 convo_id,scorecard_test_id,question_id_q6,"YES",score: 1.0
QaAnswerLabel標頭包含分數和答案,但兩者之間沒有以半形逗號分隔。ConversationId,QaScorecardId,QaQuestionId,QaAnswerLabel convo_id,scorecard_test_id,question_id_q3,score: 1.0 "NO" convo_id,scorecard_test_id,question_id_q6,score: 0.5 40.5 convo_id,scorecard_test_id,question_id_q6,na_value:true convo_id,scorecard_test_id,question_id_q3,true
資料表
在試算表中,範例對話的視覺格式是表格,每個資料列包含識別單一答案的資訊,每個資料欄則包含個別識別資訊,如下表所示:
| 對話 ID | 評量表 ID | 問題 ID | 答案 |
|---|---|---|---|
| 44748735396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 44748735396 | 5727080762913918243 | 3576133206121890384 | "NO" |
| 3495523396 | 5727080762913918243 | 4097398336657302301 | "YES" |
| 3495523396 | 5727080762913918243 | 3576133206121890384 | "NO" |
評估對話
真人註解者會使用評分卡問題和說明手動評估對話,並判斷範例對話中每個問題的正確答案。如果多位使用者評估同一段對話,有時會對每個問題提供不同答案。評估結果不一致會為機器學習程序帶來雜訊和混淆。在對話中,如果相同或類似的問題與多個不同答案相關聯,品質 AI 就無法學習問題與答案之間的對應關係。
如果多位使用者在同一項對話中回答相同問題,可能會因為下列原因導致回答內容不一致:
- 主觀問題,導致註解者有不同解讀。
- 詳細資料不足或規範不明確的評量表。
- 問題、答案選項或指示的不同版本,例如:
- 你可以先只提供「是/否」答案選項,之後再改用更精細的方法,提供「否-a」、「否-b」和「否-c」選項。
- 不過,如果將是/否方法與 no-a、no-b 和 no-c 選項合併,模型就會感到困惑。
- 需要大量認知負荷的評估工作。
評估一致性
如要評估範例對話的一致性,請要求多位註解者獨立評估同一段對話。然後使用 Cohen's kappa 係數計算兩者之間的協議。您希望 Cohen's kappa 係數不低於 0.2。如果一致性偏低,請嘗試下列其中一種做法:
- 修正問題和指示,減少解讀空間。
- 標註者之間可以溝通,解決差異並達成單一評分標準。
- 持續監控註解者之間的意見一致性。
- 如果註解者的答案經常與評分標準不同,請提供額外訓練。