建立主題模型的最佳做法

請按照下列最佳做法指南，充分發揮主題模型效益。

微調主題模型

如要改善主題指派作業，最好的方法是微調模型。新增、編輯及移除主題時，請遵循下列準則，盡量提升主題模型的成效。

新增或編輯主題

請避免新增重複或相似的主題，否則會對主題推論品質造成負面影響。建立或變更主題時，請遵守下列命名和說明指引。

名稱

請使用簡短的描述性主題，字數為三到六個字，例如「遙控器疑難排解」或「帳單政策相關問題」。
避免使用籠統或抽象的名稱，例如「銷售」。

建議您遵循下列最佳做法：

使用現成的自訂主題名稱，例如「帳單」。
在主題名稱中加入簡短說明，例如「帳單錯誤和退款」。
根據所需結果選擇合適的模型設定。

範例

信用卡支援中心會對封存的支援通話記錄執行主題建模，模型會從一組對話建立主題，並將其命名為「信用卡額度超過上限的查詢」。商家將名稱縮短為「信用額度查詢」。

說明

先提供一般說明，再舉幾個例子。
請避免加入姓名、日期或地點等個人資訊。
過於詳細的指示 (例如「不要加入 X 主題」) 可能會對主題推斷造成負面影響。

範例

顧客想瞭解固網電話服務。他們可能想取消訂閱或諮詢目前的帳單。
顧客想詢問帳單。他們可能想知道金額或到期日。

移除次要主題

部署主題模型並完成分析後，請在「Topic Model Deployed data」(已部署主題模型資料) 頁面中查看主題分布情形。次要主題可能在部署結果中成為主要主題，因為這類主題很常見，且比對結果更準確。如果主題與高比例 (超過 30%) 的樣本對話相符，則可能為次要主題。請仔細檢查這些主題，並刪除不相關的主題。

是否有不相關的次要主題，取決於輸入資料。如果「已部署資料」頁面上的所有主要主題分布相對平均，且每個主題只符合一小部分 (不到 20%) 的對話，則可能沒有要刪除的次要主題。

訓練資料

如果是語音資料，語音轉文字輸出內容的品質對主題模型的效能至關重要。請遵守下列規範，提升訓練資料品質。

對話

請勿在資料集中使用重複的對話。
每段對話應至少包含 10 個回合，其中 5 個回合來自服務專員，5 個回合來自顧客。
使用經過遮蓋的對話，但請檢查 Cloud Data Loss Prevention 的遮蓋品質。有時，遮蓋功能會從轉錄稿中移除重要資訊，這可能會影響訓練對話的長度。
請確認幾乎所有對話都使用同一種語言。

講者角色

確認對話擷取完畢後，已正確指派對話的說話者角色。

準確標示對話輪替，指出是來自顧客或服務專員。如果對話只有一個角色，就不會用於訓練。
人類角色請使用 AGENT，虛擬角色則使用 AUTOMATED_AGENT。
請使用 END_USER 或 CUSTOMER 指派顧客角色。

建立主題模型的最佳做法 透過集合功能整理內容 你可以依據偏好儲存及分類內容。