品質 AI 最佳做法

本文列出 Google 建議的最佳做法,協助您充分運用 Quality AI。遵循本文的規範,可確保 Quality AI 盡可能提供最準確實用的資訊,滿足您的業務需求。

評量表

評分表提供代理程式的成效指標,以及如何回答對話相關問題的詳細說明。您必須輸入對話資料、問題和可能的答案選項,以及解讀這些答案的說明。如要獲得最佳成效,請使用 Quality AI 控制台的「評量表」頁面,上傳範例對話。

評分表可讓您將問題分組,並查看各組的分數。建立多個評分表,每個評分表都有不同的問題,以便根據不同條件評估對話。接著,您就能查看每份評分表的品質和對話分數,並根據不同條件評估服務專員。

對話資料

對話資料是語音或即時通訊對話的轉錄稿,當中會遮蓋個人識別資訊。為每個業務單位或客服中心上傳至少 2,000 筆對話。

你也可以上傳語音對話的錄音檔。如要獲得最佳效果,請使用下列規格錄製音訊:

  • 兩個頻道
  • 取樣率為 16,000 Hz (或 8,000 至 48,000 Hz)
  • 無損編碼:FLAC 或 LINEAR16
  • WAV 音訊檔案的無損編碼:LINEAR16 或 MULAW

語音通話錄音的中繼資料應包含下列資訊:

  • 管道標籤,用於識別服務專員和顧客
  • 服務專員 ID、姓名、地點、團隊和客戶滿意度
  • 音訊語言,以 BCP-47 語言標記表示,例如「en-US」

問題

在每個評量表中,問題和回答問題的說明可提供有價值的資訊,供 Quality AI 評估對話和服務專員的成效。為盡量提高自動評估的準確度,請根據下列概念撰寫問題和指示:

  • 清楚明瞭:撰寫清楚易懂的問題。
  • 具體性:盡量新增具體的答案選項和指示。
  • 詳細資料:請提供詳細的指示,讓真人能夠自信且可靠地評估對話。
  • 範例:如果提供實際對話的範例,說明每個問題的答案,Quality AI 的準確度會更高。

問題的形式相當多元,以下是一些實用的問題範本:

  1. 「服務專員是否…?」並列出特定動作。 這個格式表示評估人員必須尋找代理程式說的內容。
  2. 「顧客是否…?」並列出特定動作。 這個格式表示評估人員必須尋找顧客說的內容。
  3. 以「什麼」或「為什麼」等疑問詞開頭,有助於評估整段對話。

複選題

使用者經常只會回答「是」或「否」,不過,問題可能不適用於對話,因此需要填寫「不適用」

或者,在各種情況下,這個問題可能會被解讀為「是」或「否」,導致回覆不一致,且只有兩個選項。如果對話中包含需要其他類型答案的問題,AI 模型就能更深入瞭解對話內容。

聲學分析

Quality AI 會評估對話轉錄稿,但無法執行聲學分析。排除需要聲學分析的問題。舉例來說,無論是真人或 Quality AI,都無法單純透過閱讀對話記錄,回答「專員是否以歡快的語氣問候?」這個問題。

標記

選用標記可提供較小的類別,將相關問題歸為一組。對於單一對話,品質 AI 會計算整體對話分數。你可以使用三種標籤之一將問題分組:商家、顧客或法規遵循。針對每個標記,Quality AI 也會計算分數,其中只會納入套用該標記的問題。

操作說明

指示會定義如何解讀每個答案,因此指示必須明確,不得有解讀空間。這項定義可確保每次評估對話時,都會得到相同的答案。

格式

簡要說明問題的用途,然後說明每個可能答案選項的評估標準。也就是說,您必須定義在何種情況下,使用者會選擇每個答案。

舉例來說,以下指示適用於「在交叉銷售前,專員是否已解決顧客的主要問題?」這類是非題。

指示:

這項問題的目的是瞭解服務專員是否先解決客戶的主要問題,再嘗試銷售其他產品。這能為品牌帶來更正面的體驗。

  • 如果服務專員解決主要問題後嘗試銷售,請評分「是」。示例:「我剛更新了你的帳戶資訊。據瞭解,你已將智慧住宅裝置標示為故障。要訂購更換裝置嗎?」

  • 如果服務專員在解決主要問題前嘗試銷售產品,請評為「否」。示例:「在更新您的帳戶資訊前,我看到您五年前曾向我們購買筆電。要試試我們的新模型嗎?"

  • 如果沒有銷售嘗試,則分數為「不適用」。

答案類型

答案類型取決於問題結構。本節提供建議,協助您開始使用,但並未列出所有用途。

是/否

是/否是最常見的答案類型,因為您可以快速評估這些問題,而且答案通常比其他答案類型更直覺。如果問題適合以「是/否」回答,通常會以「是否...」開頭,詢問特定動作是否發生。這些問題也可以改寫為是非題。

在範例對話中,系統會將「是/否」答案記錄為 true 或 false 值,格式如下:

  • 「是」的答案為 true
  • 答案是「否」false

Numbers

如果問題要求提供某項事物的數量、金額,或請你使用量表評估某項事物,則數值型答案會很有幫助。這類問題通常以「有多少...」開頭,「有多...」或「以...為量表」,並要求你決定單一答案。

在範例對話中,數字答案的格式如下:

  • 40.5 的答案是 40.5

文字

文字答案最需要人工註解者投入心力。適合以文字回覆的問題通常會以疑問詞開頭,例如「什麼...」或「為什麼...」,且通常需要評估整個對話。文字答案可鼓勵受訪者提供更多元的回答,因此說明必須清楚解釋如何解讀問題,以及何時應指派每個答案選項。

在範例對話中,文字答案的格式如下:

  • 「已結案」的答案為 "CONCLUDED"

設定分數

建立問題時,您可以為每個答案選項指派分數。這些分數代表每個答案選項在計算整體對話分數時的重要性。

答案選項分數的實用範圍為 0 到 10 分。這個範圍可提供一些具體程度的變化,且可與百分比相比較。如果答案選項的分數為 0,不會影響對話分數的計算。如果答案選項的分數為 10 分,對對話分數的影響最大。換句話說,如果答案選項的評分是 10 分,對話分數的升幅會比其他評分較低的答案選項更大。如果答案選項的分數為 5 分,對話分數的升幅會是 10 分答案的一半。

不適用

如果問題不適用於對話,請按一下核取方塊,啟用「不適用」做為答案選項。如果品質 AI 選擇「不適用」做為答案,系統會從對話分數計算中移除該問題。

評量表輸入內容範例

以下範例說明如何新增實用評分表所需的所有資訊。每張評量表都需要下列資訊:

  • 對話的任何問題。
  • 解讀問題和定義每個答案選項的操作說明。
  • 答案類型 (可以是文字、數字或「是/否」)。
  • 根據答案類型定義可能答案的選項 (可以是「是」和「否」、數字清單或一些文字回應)。
  • 分數:設定每個答案選項可獲得的分數。單一問題的最高分數取決於所有答案選項中的最高分數。

您可以加入下列項目,協助整理評量表上的問題,但並非必要:

  • 使用標記將問題歸類 (可分為業務、顧客或法規遵循)。

範例 1

  • 問題:對話結果為何?
  • 標記:顧客
  • 指示:任何對話的目標都是達成解決方案或結果,而這些解決方案或結果可歸類為四種可能類別之一:已結束、已轉移、已重新導向或已升級。

    • 已結束的對話是指已成功解決問題,不需要採取任何進一步行動的對話。客戶的問題已解決,對話已結束。

    • 轉移的對話是指需要由其他部門或服務專員處理的對話。系統可能已將顧客轉接給專員,以便提供更完善的協助。

    • 需要由其他管道處理的對話會遭到重新導向。舉例來說,顧客可能從電話通話重新導向至線上即時通訊工作階段。

    • 需要經理或主管介入的對話即為升級對話。客戶的問題可能很嚴重,或是對最初服務專員提供的解決方案不滿意,因此要求升級處理。

  • 答案類型:文字

    答案選項 分數
    已結束 1
    已轉移 1
    已轉飛其他目的地 1
    已提報 0

    新增「不適用」做為答案選項。如果選取這個選項,系統就不會將問題計入總分。

範例 2

  • 問題:以 0 到 5 分為範圍,您認為服務專員與顧客的溝通效果如何?
  • 標籤:業務、法規遵循、客戶
  • 說明:規模和條件

    • 0 分 (極差):無法溝通或完全誤解。令人反感、濫用或有害的語言。完全缺乏尊重或同理心。

    • 1 分 (非常差):溝通有重大困難。經常打斷對方或同時說話。輕鬆瞭解或連結。輕蔑或不尊重的行為。

    • 2. 溝通不良:溝通上遭遇一些挑戰。偶爾會出現誤解或不清楚的情況。參與度或興趣有限。偶爾出現不尊重或不體貼的言論。

    • 3 分:可進行基本溝通。需要花費一些心力才能理解和被理解。互動和連結程度中等。大致上尊重他人,但仍有進步空間。

    • 4 分 (良好):溝通清晰有效。積極傾聽並瞭解對方想法。建立有意義的互動和連結。展現相互尊重和同理心。

    • 5 分 (極佳):溝通和理解能力極佳。深度參與和連結。具備強烈的協作意識和互助精神。高度尊重、同理心和同情心。

    評估時應考量的因素:

    • 清晰度:溝通內容是否清楚易懂?

    • 理解:參與者是否展現積極聆聽的態度,並理解彼此的觀點?

    • 參與度:參與者是否積極參與對話,並對其他人的發言內容感興趣?

    • 尊重:對話過程中,雙方是否展現相互尊重和體諒?

    • 同理心:參與者是否展現同理心,並瞭解彼此的感受?

    • 協作:參與者是否感受到協作和團隊合作的氛圍,還是覺得彼此在競爭?

    • 結果:對話是否達成預期目標或帶來正面結果?

    請注意:背景資訊很重要。請考量對話情境和目的。在某個情境中適用的內容,在另一個情境中可能就不相符了。

    主觀性:評估結果可能帶有主觀性。不同的人對同一段對話的解讀可能略有不同。

    著重於改善:將評估視為學習和改善的工具,而非僅僅是評斷或批評的方式。

    這個架構提供評估對話的基本指南,但您可以根據特定需求和目標調整評估標準。

  • 答案類型:數字

  • 答案選項和分數

    答案選項 分數
    0 0
    1 1
    2 2
    3 3
    4 4
    5 5

新增「不適用」做為答案選項。如果選取這個選項,系統就不會將問題計入總分。

範例 3

  • 問題:代表 (服務專員) 是否以適當的開場白向顧客打招呼?
  • 標記:顧客
  • 指示:代表 (代理) 應一律以適當的開場白和問候語開始對話。 這是與顧客建立良好專業關係的重要步驟。 開場白應親切友善,營造出重視和尊重顧客的氛圍。 服務專員也應確保問候語符合情境和顧客的文化背景。服務專員只要以適當的開場白和問候語展開對話,就能給顧客留下好印象、建立良好關係,並為順利互動奠定基礎。
  • 答案類型:是/否
  • 答案選項和分數

    答案選項 分數
    「是」 1
    「否」 0

新增「不適用」做為答案選項。如果選取這個選項,系統就不會將問題計入總分。

新增對話範例

對話範例有助於釐清問題的解讀方式。如要校正及自訂 AI 模型,必須提供範例對話,並為每個問題指派答案。AI 模型會從實際對話資料學習,因此請從 Customer Experience Insights 的現有對話中擷取範例。如果您未提供任何範例對話,Quality AI 會使用基礎模型,而這類模型不知道問題的預期答案。

如要提升 AI 模型效能,請至少加入下列內容:

  • 每個問題 100 個對話範例
  • 每個答案選項 40 個對話範例

如果單一問題的範例對話少於 100 則,AI 模型就無法學習如何準確評估該問題。系統會儲存範例對話,並在數量足夠時讓模型學習。只要一次對話,模型就能學會如何為多個問題評分,而且只要新增更多對話範例,就能進一步提升任何問題的評分準確度。

請在評量表的每個問題中,附上對話百分比,說明每個答案選項。以下範例顯示您可能納入的對話數量,用來說明兩種可能的答案選項。這項分割並非必要。

如果評分表上的問題是「服務專員是否對顧客展現同理心?」,且該問題的答案為「是」或「否」,請同時加入下列項目:

問題 可能的答案 對話比重
服務專員是否對顧客展現同理心? 「是」 75%
「否」 25%

對話格式範例

對話範例至少須包含每段對話、評分表和問題的 ID,以及預期答案。範例對話也可以包含答案選項、分數和說明。上傳的範例對話會做為 FeedbackLabel 資源。如要瞭解如何使用 API 編輯範例對話,請參閱「設定指南」。

CSV

您必須以 CSV 檔案上傳範例對話。CSV 檔案的第一行必須是標題,且檔案必須包含下列類別:

  • ConversationId
  • QaScorecardId
  • QaQuestionId
  • QaAnswerLabel 或個別欄位,例如 QaAnswerScoreQaAnswerValue

Quality AI 會自動建立範例對話範本,並填入上述 ID。您可以選擇要使用哪個評分表來評估範例對話,並篩選範本,只納入部分對話。如需建立範本及上傳範例對話的操作說明,請參閱「品質 AI 設定指南」。

CSV 範例對話檔案的格式不一,舉例來說,是/否答案會對應至 True 或 False 值,數字則維持不變,文字答案則會加上引號。也就是說,true 會顯示為「是/否」答案類型,且選取的答案選項為「是」。另一方面,"Yes" 會顯示為文字答案類型,並選取「是」做為答案選項。以下範例說明幾種可能的 CSV 格式。

  • 個別標頭 QaAnswerValue 未指派分數。
    ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue
    convo_id,scorecard_test_id,question_id_q3,"NO"
    convo_id,scorecard_test_id,question_id_q6,"YES"
    convo_id,scorecard_test_id,question_id_q6,true
    convo_id,scorecard_test_id,question_id_q6,false
    convo_id,scorecard_test_id,question_id_q6,40.5
    
  • 包括 QaAnswerValueQaAnswerScore 標頭。
    ConversationId,QaScorecardId,QaQuestionId,QaAnswerValue,QaAnswerScore
    convo_id,scorecard_test_id,question_id_q3,"NO",score: 1.0
    convo_id,scorecard_test_id,question_id_q6,"YES",score: 1.0
    
  • QaAnswerLabel 標頭包含分數和答案,但兩者之間沒有以半形逗號分隔。
    ConversationId,QaScorecardId,QaQuestionId,QaAnswerLabel
    convo_id,scorecard_test_id,question_id_q3,score: 1.0 "NO"
    convo_id,scorecard_test_id,question_id_q6,score: 0.5 40.5
    convo_id,scorecard_test_id,question_id_q6,na_value:true
    convo_id,scorecard_test_id,question_id_q3,true
    

資料表

在試算表中,範例對話的視覺格式是表格,每個資料列包含識別單一答案的資訊,每個資料欄則包含個別識別資訊,如下表所示:

對話 ID 評量表 ID 問題 ID 答案
44748735396 5727080762913918243 4097398336657302301 "YES"
44748735396 5727080762913918243 3576133206121890384 "NO"
3495523396 5727080762913918243 4097398336657302301 "YES"
3495523396 5727080762913918243 3576133206121890384 "NO"

評估對話

真人註解者會使用評分卡問題和說明手動評估對話,並判斷範例對話中每個問題的正確答案。如果多位使用者評估同一段對話,有時會對每個問題提供不同答案。評估結果不一致會為機器學習程序帶來雜訊和混淆。在對話中,如果相同或類似的問題與多個不同答案相關聯,品質 AI 就無法學習問題與答案之間的對應關係。

如果多位使用者在同一項對話中回答相同問題,可能會因為下列原因導致回答內容不一致:

  • 主觀問題,導致註解者有不同解讀。
  • 詳細資料不足或規範不明確的評量表。
  • 問題、答案選項或指示的不同版本,例如:
    • 你可以先只提供「是/否」答案選項,之後再改用更精細的方法,提供「否-a」、「否-b」和「否-c」選項。
    • 不過,如果將是/否方法與 no-a、no-b 和 no-c 選項合併,模型就會感到困惑。
  • 需要大量認知負荷的評估工作。

評估一致性

如要評估範例對話的一致性,請要求多位註解者獨立評估同一段對話。然後使用 Cohen's kappa 係數計算兩者之間的協議。您希望 Cohen's kappa 係數不低於 0.2。如果一致性偏低,請嘗試下列其中一種做法:

  • 修正問題和指示,減少解讀空間。
  • 標註者之間可以溝通,解決差異並達成單一評分標準。
  • 持續監控註解者之間的意見一致性。
  • 如果註解者的答案經常與評分標準不同,請提供額外訓練。