對話資料集包含對話轉錄稿資料,可用於訓練智慧回覆或摘要自訂模型。智慧回覆功能會使用對話轉錄稿,為與使用者對話的真人服務專員提供文字回覆建議。摘要自訂模型會根據對話資料集進行訓練,這類資料集包含轉錄稿和註解資料。系統會使用註解產生對話摘要,並在對話結束後提供給真人服務專員。
建立資料集的方法有兩種:使用控制台教學課程工作流程,或在控制台中手動建立資料集 (依序點選「資料」「資料集」分頁標籤)。建議您優先使用控制台教學課程。如要使用控制台教學課程,請前往 Agent Assist 控制台,然後點選要測試的功能下方的「開始使用」按鈕。
本頁說明如何手動建立資料集。
事前準備
按照 Dialogflow 設定操作說明,在 Google Cloud Platform 專案中啟用 Dialogflow。
建議您先閱讀 Agent Assist 基本概念頁面,再開始本教學課程。
如果您使用自己的轉錄稿資料導入智慧回覆功能,請確認轉錄稿為
JSON格式,並以指定格式儲存在 Google Cloud Storage bucket 中。對話資料集必須包含至少 30,000 則對話,否則模型訓練會失敗。一般來說,對話越多,模型品質越好。建議您移除訊息少於 20 則或對話輪次少於 3 次 (參與者發言的次數) 的對話。此外,我們也建議您移除任何機器人訊息或系統自動產生的訊息 (例如「服務專員已進入聊天室」)。建議您上傳至少 3 個月的對話,盡可能涵蓋各種用途。對話資料集中的對話數量上限為 1,000,000。如果您要使用自己的轉錄稿和註解資料實作摘要功能,請確保轉錄稿採用指定格式,並儲存在 Google Cloud Storage bucket 中。建議的訓練註解數量下限為 1000 個。強制執行的最低數量為 100。
前往 Agent Assist 控制台。 選取 Google Cloud Platform 專案,然後按一下頁面最左側邊緣的「資料」選單選項。「資料」選單會顯示所有資料。系統會顯示兩個分頁,分別是「對話資料集」和「知識庫」。
按一下「對話資料集」分頁標籤,然後按一下對話資料集頁面右上方的「+ 建立新資料集」按鈕。
建立對話資料集
輸入新資料集的「名稱」,和「說明」(選填)。在「對話資料」欄位中,輸入包含對話轉錄稿的儲存空間值區 URI。Agent Assist 支援使用
*符號進行萬用字元比對。URI 應採用下列格式:gs://<bucket name>/<object name>例如:
gs://mydata/conversationjsons/conv0*.json gs://mydatabucket/test/conv.json點選「建立」。現在,新的資料集會顯示在「對話資料集」分頁下「資料」選單頁面的資料集清單中。
後續步驟
使用 Agent Assist 主控台,根據一或多個對話資料集訓練智慧回覆或摘要模型。