評估是測試代理程式效能的重要工具,可確保代理程式在特定情況下正常運作。這項功能可讓您自動執行測試、在變更後找出迴歸問題,並評估代理的回覆品質,進而提升代理品質。
如要開始評估,請按一下代理程式建構工具頂端的「評估」按鈕。
評估概念
測試案例:每個測試案例都是特定的獨立測試情境或提示,用於評估代理程式的效能。您可以建立兩種不同類型的測試案例:
- 情境:這項 AI 輔助功能可協助您啟動測試,並確保測試涵蓋範圍全面。您描述使用者的目標,系統就會自動模擬使用者並產生對話,測試代理程式是否能妥善處理該情境。情境是實驗的實用方式,有助於定義黃金對話。
- 黃金:適合迴歸測試。您提供「理想」的特定對話路徑,評估作業會檢查代理程式的行為是否符合這個理想路徑,包括工具呼叫。
執行:評估執行代表針對您測試的代理效能,完整執行一組黃金和情境測試案例。每次執行可包含一或多個測試案例。
結果:測試案例「結果」是指在單次執行中,特定測試案例的單次執行結果。如果在單一評估執行期間多次執行測試案例 (例如檢查一致性、不穩定性等),每次執行都會產生個別結果。結果會以矩形圖示顯示在每個測試案例資料列的欄中,如果執行失敗會顯示紅色 X,如果通過則會顯示綠色勾號。
標記:測試案例可使用標記分組,方便管理。
建立測試案例
如要為代理程式建立及存取測試案例,請按一下代理程式建立工具頂端的「評估」按鈕。您可以建立及管理黃金或情境測試案例。
情境
情境式測試案例會使用 AI,根據您定義的高階使用者目標,自動生成各種對話。使用這些測試案例時,您不必提供特定的黃金對話,而是選取產生的情境,或是描述必須測試的特定情境。這項強大工具可協助您探索極端情況,並測試代理程式的穩定性,不必手動編寫所有可能的對話路徑。
這些情境運作良好後,即可將其儲存為黃金對話。
如要建立情境,請按照下列步驟操作:
- 按一下「建立情境」。系統會建議多種情境。
- 您可以根據選取項目生成情境,也可以從頭建立新情境。
查看情境清單時,點選情境即可列出詳細資料和對話清單。
如要將情境儲存為黃金對話,請按照下列步驟操作:
- 選取情境。
- 按一下右上角的選單按鈕。
- 選取「儲存為黃金對話」。
情境使用者目標
每個情境都有使用者目標,說明使用者在使用代理程式應用程式時的目標。例如:
Securely book a specific room at a chosen hotel and receive a confirmation.
CX Agent Studio 會根據使用者目標,自動生成用於評估的對話。
情境變數
定義情境時,您可以提供情境應使用的變數。
情境預期
如要執行評估,請定義測試案例的預期結果。
期望值可分為兩種:
- 訊息:預期的使用者或代理程式訊息。
- 工具呼叫:包含預期輸入和輸出的工具呼叫。
期望值可包含下列條件:
- 必要條件
- 不得有
- 工具呼叫後
- 變數值
如要建立期望值:
- 按一下特定情境,開啟詳細資料。
- 在「期望」部分,按一下「查看全部」。
- 按照介面指示為情境建立期望值。
金黃
這些測試案例可用於定義迴歸測試的理想對話路徑,確保更新代理程式時,核心和重要對話路徑不會中斷。您可以透過多種方式建立黃金對話:
如要從模擬器匯入對話,請按照下列步驟操作:
- 使用模擬器發起對話。
- 按一下模擬器右上角的三個垂直圓點,開啟模擬器選單。
- 按一下「另存為黃金版」。
- 輸入黃金測試案例的名稱,然後按一下「儲存」。現在會顯示在「評估」分頁中。
如要根據對話記錄建立測試案例,請按照下列步驟操作:
- 前往「Evaluation」分頁,然後依序點選「+ Add test case」->「Golden」。
- 按一下「從對話記錄中選取」。
- 在隨即顯示的視窗中,選取要儲存為黃金測試案例的對話。您可以選擇依對話 ID 搜尋。
- 如果已啟用遮蓋功能,請先檢查專員回覆和變數是否已遮蓋,再繼續處理缺少資訊的問題。
- 按一下「新增」。
如要從頭建立測試案例,請按照下列步驟操作:
- 前往「Evaluation」分頁,然後依序點選「+ Add test case」->「Golden」。
- 按一下「從頭開始建立」。
- 在隨即顯示的視窗中,為測試案例新增「顯示名稱」。
- 視需要新增使用者輸入內容和代理程式預期內容的文字。按一下「+ 新增使用者輸入內容」和「+ 新增服務專員期望」,即可新增回覆。按一下「+ 新增輪次」,即可在測試案例中新增對話輪次。
- 按一下「建立」,將黃金測試案例新增至測試案例清單。
如要從情境測試案例的模擬對話建立測試案例,請按照下列步驟操作:
- 前往評估執行結果頁面。
- 按一下所選對話右側的選單圖示 (縱向排列的三個點),然後點選「儲存為黃金對話」。
如要從檔案批次上傳測試案例,請按照下列步驟操作:
如要瞭解檔案格式和 CSV 範本的詳細資訊,請參閱「黃金測試案例 CSV 格式」頁面。
黃金期望
如要執行評估,請定義黃金測試案例的預期結果。期望是指您預期代理程式在對話中的特定時間點會達成的具體結果。評估期間,系統會根據這些預期行為比較實際的代理程式行為。
期望值可以是下列其中一種類型:
- 訊息:代理程式預期傳送給使用者的文字回應。評估會檢查代理程式的回覆是否符合這項預期。
- 工具呼叫:預期代理程式會呼叫特定工具並傳回回應。您也可以為工具呼叫指定預期的輸入引數。
- 轉交給服務專員:預期服務專員會將對話轉交給真人服務專員或其他機器人。
如要建立期望值:
- 按一下特定黃金測試案例,開啟詳細資料。
- 在「詳細資料」部分,按一下「查看黃金」。
- 按照介面上的操作說明新增或修改期望值。
評估設定
在測試案例清單的標題列中,您可以設定評估設定:
- 金毛獵犬:
- 黃金通過/失敗條件: 設定模擬對話是否通過的邏輯。
- 回合等級:
這些規則會判斷每個回合。
如果未達到任何門檻,系統就會將特定指標標示為紅色,表示失敗。
- 語意相似度: 語意相似度的門檻值。
- 工具正確度: 工具正確度的門檻值。
- 幻覺: 如果停用這項功能,系統會從通過/未通過的結果中排除幻覺。
- 期望程度:
這些規則會判斷回合內的期望。
如果未達到任何門檻,系統就會將特定指標標示為紅色,表示失敗。
- 工具正確度: 工具正確度的門檻值。
- 黃金執行方法: 選擇單純或穩定的重播驗證。
- 工具偽造: 使用模擬資料,而非實際的正式版 API 呼叫。
- Scenarios:
- 情境通過/失敗條件: 設定模擬對話是否通過的邏輯。
- 對話發起者: 設定對話發起者,可以是使用者或模型。
- 工具偽造: 使用模擬資料,而非實際的正式版 API 呼叫。
- 音訊評估
- 音訊評估記錄
執行評估作業
如要執行評估,您可以按一下測試案例列中的執行按鈕,也可以選取並執行多個測試案例。
如果您已儲存多個版本,可以選取要使用的代理程式版本,或自動將草稿代理程式儲存為新版本以供執行。
評估執行完畢後,系統會更新指標並顯示結果。
按一下特定執行評估,即可查看執行的詳細結果。除了標準指標外,還會顯示下列指標:
- 轉彎失敗
- 所有對話輪次詳細資料的分頁清單,包括實際和預期的代理程式回應。
如果是黃金測試案例,您可能會看到「穩定重播」一詞,說明測試是在一致的環境中執行 (即沒有變更環境/輸入)。
使用 AI 改善測試案例 (搶先體驗)
您也可以選擇使用 AI 協助排解執行作業問題,並建議提升代理程式品質的方法。如果執行次數 (執行次數) 達到 3 次以上,AI 建議會更準確。 如要啟用 AI,請選取要評估的測試案例,然後按一下「執行所選項目」。 在彈出的視窗中,勾選「透過 AI 找出問題」旁的方塊。
執行完成後,結果頁面會顯示 AI 建議。
Gemini 會自動生成可下載的 loss_report,其中會摘要說明代理程式的成效,並指出可改善的領域。
所有使用者都能查看 AI 建議的修正方式,但只有發起執行作業的使用者,才能根據結果採取行動。
按一下「詢問 Gemini」,與輔助代理互動。 您會先看到損失報表,其中說明模型或代理程式的高階問題。你可以要求輔助代理程式說明報表, 系統會摘要報表內容,並可能建議修正方式。 套用修正內容後,你可以要求輔助代理程式再次執行評估。
指標
每個測試案例結果都包含一組指標,可根據您選取的測試案例評估代理程式的成效。系統會在輪次層級或預期 (對話) 層級計算指標,如控制台所示。
在所有情況下,您都可以在「評估」分頁的「設定」選單中,自訂執行階段傳遞所需的參數值。
工具正確性
針對黃金和情境測試案例計算。這項指標會根據預期的工具呼叫及其預期的參數值,反映相符的預期參數百分比。如果錯過工具呼叫,分數為 0 分;如果工具呼叫沒有輸入參數,分數為 1 分 (如有)。如果在黃金評估期間進行非預期的工具呼叫,結果會視為失敗,但這不會影響工具正確性值。
使用者目標達成率
計算情境。使用者目標達成率是二元指標,專為使用者模擬評估而設計。這項指標會評估模擬使用者是否認為自己已達成目標 (0 代表否,1 代表是)。輸入內容是根據模擬使用者設定和對話轉錄稿定義的 user_goal。如果提供的 user_goal 未指定明確或隱含目標,則輸出分數為 -1。
幻覺
適用於黃金和情境測試案例。 系統會計算每個生成的輪次,得出幻覺分數。 這項指標會反映代理程式是否提出代理程式情境無法證實的聲明 (0 代表否,1 代表是)。內容包括對話中先前的任何回合、工作階段變數、工具呼叫和代理程式指令。這項指標只會針對包含工具呼叫的回合計算。 不會偵測工具呼叫中的錯覺; 系統會假設做為內容提供的工具呼叫正確無誤。 為盡量減少誤報,如果回覆不含事實陳述,或只包含已知的常識,指標可能會傳回「不適用」的分數。
您可以在評估設定中啟用及停用錯覺。
語意比對
針對「黃金」測試案例計算。這項指標會評估觀察到的服務專員話語與預期服務專員話語的相符程度。語意比對是在回合層級計算。傳回的值介於 0 (完全不一致或矛盾) 到 4 (完全一致)。
情境預期
計算情境。這項指標會評估模擬使用者是否對服務專員的行為感到滿意 (0 代表不滿意,1 代表滿意)。系統支援兩種模擬使用者期望:
- 工具呼叫預期結果:計算方式與工具呼叫正確性類似,但有以下例外狀況:
- 結果為 0 (否) 或 1 (是)。
- 系統不會懲處非預期的工具呼叫。期望是用來指定一組工具呼叫,這些呼叫對於對話是否能滿足模擬使用者的期望至關重要。
- 當工具呼叫輸入值符合預期時,系統會在執行階段攔截呼叫,並以模擬傳回值取代。
- 預期代理商回覆:檢查對話中是否有任何代理商回覆包含預期字串。
完成工作
計算情境。任務完成度是衡量對話品質的指標。這項指標會共同評估使用者是否達成目標,以及代理程式行為是否正確。定義如下:
User_Goal_Satisfied AND no_hallucinations_detected AND Expectations Satisfied
職位
模擬使用者角色是模擬的使用者角色,您可以自訂這些角色,並搭配情境測試案例,用於測試代理程式。這項功能有助於確保代理程式能適當與執行階段可能遇到的各類型人類使用者互動。
如未選取角色,系統會為每個情境結果隨機選取角色。
這項功能適用於文字和音訊輸入內容。
建立職務角色
- 如要建立目標對象,請前往「評估」分頁,然後點按「設定」圖示旁的「目標對象管理」。
- 按一下「+ 新增目標對象」。
- 在彈出式選單中,輸入「名稱」、「使用者個性」,以及任何額外的「使用者情境」 (例如年齡、地點、通話原因等)。
- 按一下「+ 新增」。
如要使用人物角色執行評估作業,請按照下列步驟操作:
- 返回「評估」主頁面,然後選取一或多個情境測試案例。按一下「執行所選項目」。
- 在彈出式視窗中,從「目標對象」下拉式選單選取剛建立的目標對象,然後按一下「執行」。