請按照下列最佳做法指南,充分發揮主題模型效益。
微調主題模型
如要改善主題指派作業,最好的方法是微調模型。新增、編輯及移除主題時,請遵循下列準則,盡量提升主題模型的成效。
新增或編輯主題
請避免新增重複或相似的主題,否則會對主題推論品質造成負面影響。建立或變更主題時,請遵守下列命名和說明指引。
名稱
請使用簡短的描述性主題,字數為三到六個字,例如「遙控器疑難排解」或「帳單政策相關問題」。
避免使用籠統或抽象的名稱,例如「銷售」。
建議您遵循下列最佳做法:
使用現成的自訂主題名稱,例如「帳單」。
在主題名稱中加入簡短說明,例如「帳單錯誤和退款」。
根據所需結果選擇合適的模型設定。
範例
信用卡支援中心會對封存的支援通話記錄執行主題建模,模型會從一組對話建立主題,並將其命名為「信用卡額度超過上限的查詢」。商家將名稱縮短為「信用額度查詢」。
說明
先提供一般說明,再舉幾個例子。
請避免加入姓名、日期或地點等個人資訊。
過於詳細的指示 (例如「不要加入 X 主題」) 可能會對主題推斷造成負面影響。
範例
顧客想瞭解固網電話服務。他們可能想取消訂閱或諮詢目前的帳單。
顧客想詢問帳單。他們可能想知道金額或到期日。
移除次要主題
部署主題模型並完成分析後,請在「Topic Model Deployed data」(已部署主題模型資料) 頁面中查看主題分布情形。次要主題可能在部署結果中成為主要主題,因為這類主題很常見,且比對結果更準確。如果主題與高比例 (超過 30%) 的樣本對話相符,則可能為次要主題。請仔細檢查這些主題,並刪除不相關的主題。
是否有不相關的次要主題,取決於輸入資料。如果「已部署資料」頁面上的所有主要主題分布相對平均,且每個主題只符合一小部分 (不到 20%) 的對話,則可能沒有要刪除的次要主題。
訓練資料
如果是語音資料,語音轉文字輸出內容的品質對主題模型的效能至關重要。請遵守下列規範,提升訓練資料品質。
對話
請勿在資料集中使用重複的對話。
每段對話應至少包含 10 個回合,其中 5 個回合來自服務專員,5 個回合來自顧客。
使用經過遮蓋的對話,但請檢查 Cloud Data Loss Prevention 的遮蓋品質。有時,遮蓋功能會從轉錄稿中移除重要資訊,這可能會影響訓練對話的長度。
請確認幾乎所有對話都使用同一種語言。
講者角色
確認對話擷取完畢後,已正確指派對話的說話者角色。
準確標示對話輪替,指出是來自顧客或服務專員。如果對話只有一個角色,就不會用於訓練。
人類角色請使用
AGENT,虛擬角色則使用AUTOMATED_AGENT。請使用
END_USER或CUSTOMER指派顧客角色。