建立主題模型的最佳做法

請按照下列最佳做法指南,充分發揮主題模型效益。

微調主題模型

如要改善主題指派作業,最好的方法是微調模型。新增、編輯及移除主題時,請遵循下列準則,盡量提升主題模型的成效。

新增或編輯主題

請避免新增重複或相似的主題,否則會對主題推論品質造成負面影響。建立或變更主題時,請遵守下列命名和說明指引。

名稱

  • 請使用簡短的描述性主題,字數為三到六個字,例如「遙控器疑難排解」或「帳單政策相關問題」

  • 避免使用籠統或抽象的名稱,例如「銷售」

建議您遵循下列最佳做法:

  • 使用現成的自訂主題名稱,例如「帳單」

  • 在主題名稱中加入簡短說明,例如「帳單錯誤和退款」。

  • 根據所需結果選擇合適的模型設定。

範例

信用卡支援中心會對封存的支援通話記錄執行主題建模,模型會從一組對話建立主題,並將其命名為「信用卡額度超過上限的查詢」。商家將名稱縮短為「信用額度查詢」

說明

  • 先提供一般說明,再舉幾個例子。

  • 請避免加入姓名、日期或地點等個人資訊。

  • 過於詳細的指示 (例如「不要加入 X 主題」) 可能會對主題推斷造成負面影響。

範例
  • 顧客想瞭解固網電話服務。他們可能想取消訂閱或諮詢目前的帳單。

  • 顧客想詢問帳單。他們可能想知道金額或到期日。

移除次要主題

部署主題模型並完成分析後,請在「Topic Model Deployed data」(已部署主題模型資料) 頁面中查看主題分布情形。次要主題可能在部署結果中成為主要主題,因為這類主題很常見,且比對結果更準確。如果主題與高比例 (超過 30%) 的樣本對話相符,則可能為次要主題。請仔細檢查這些主題,並刪除不相關的主題。

是否有不相關的次要主題,取決於輸入資料。如果「已部署資料」頁面上的所有主要主題分布相對平均,且每個主題只符合一小部分 (不到 20%) 的對話,則可能沒有要刪除的次要主題。

訓練資料

如果是語音資料,語音轉文字輸出內容的品質對主題模型的效能至關重要。請遵守下列規範,提升訓練資料品質。

對話

  • 請勿在資料集中使用重複的對話。

  • 每段對話應至少包含 10 個回合,其中 5 個回合來自服務專員,5 個回合來自顧客。

  • 使用經過遮蓋的對話,但請檢查 Cloud Data Loss Prevention 的遮蓋品質。有時,遮蓋功能會從轉錄稿中移除重要資訊,這可能會影響訓練對話的長度。

  • 請確認幾乎所有對話都使用同一種語言。

講者角色

確認對話擷取完畢後,已正確指派對話的說話者角色

  • 準確標示對話輪替,指出是來自顧客或服務專員。如果對話只有一個角色,就不會用於訓練。

  • 人類角色請使用 AGENT,虛擬角色則使用 AUTOMATED_AGENT

  • 請使用 END_USERCUSTOMER 指派顧客角色。