資料儲存庫

資料儲存庫工具會使用資料儲存庫,從您的資料中為使用者的問題尋找答案。資料儲存庫是一組參照您資料的網站、文件或第三方系統資料。

使用者向代理程式提問時,代理程式會從指定的來源內容中搜尋答案,並將搜尋結果統整為連貫的代理程式回覆。此外,代理程式也會提供回覆來源的支援連結,供使用者進一步瞭解。針對特定問題,代理程式最多可提供五個答案片段。

資料儲存庫來源

你可以使用下列不同來源的資料:

受限存取資料儲存庫來源

Google 提供許多額外的第一方和第三方資料儲存庫來源,做為受限存取功能。如要查看可用的來源並要求存取權,請參閱「其他資料儲存庫來源」。

網站內容

新增網站內容做為來源時,您可以新增及排除多個網站。指定網站時,您可以使用個別網頁或 * 做為模式的萬用字元。系統會處理所有 HTML 和 PDF 內容。

使用網站內容做為來源時,請務必驗證網域

限制:

  • 來自公開網址的檔案必須已由 Google 搜尋索引器檢索,才會存在於搜尋索引中。您可以使用 Google Search Console 檢查這項資訊。
  • 最多可為 200,000 個網頁建立索引。如果資料儲存庫包含更多網頁,索引作業會在該時間點失敗,但系統會保留已建立索引的內容。

匯入資料

您可以從 BigQuery 或 Cloud Storage 匯入資料。這些資料可以是常見問題集形式或非結構化,且可包含中繼資料不含中繼資料

可用的資料匯入選項如下:

  • 新增/更新資料:將提供的文件新增至資料儲存庫。如果新文件與現有文件具有相同 ID,新文件會取代舊文件。
  • 覆寫現有資料:刪除所有現有資料,並上傳新資料。 這個動作無法復原。

常見問題資料儲存庫

資料存放區可以保存常見問題的解答。如果系統高度確信使用者問題與上傳的問題相符,服務專員就會直接回覆該問題,不進行任何修改。你可以為代理程式顯示的每個問題和答案組合提供標題和網址。

以 CSV 格式將資料上傳至資料儲存庫。每個檔案都必須包含描述資料欄的標題列。

例如:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

您可以省略 titleurl 欄:

"answer","question"
"42","What is the meaning of life?"

上傳期間,您可以選取資料夾,系統會將每個檔案處理為 CSV 檔案,不受副檔名限制。

限制:

  • , 後方多餘的空格字元會導致錯誤。
  • 空白行 (即使位於檔案結尾) 會導致錯誤。

非結構化資料儲存庫

非結構化資料儲存庫可包含下列格式的內容:

  • HTML
  • PDF
  • TXT
  • CSV

您可以從其他專案的 Cloud Storage bucket 匯入檔案。如要這麼做,請明確授予匯入程序的存取權。按照錯誤訊息中的指示操作,訊息會顯示需要讀取 bucket 權限的使用者名稱,才能執行匯入作業。

限制:

  • 文字格式的檔案大小上限為 2.5 MB,其他格式則為 100 MB。

含中繼資料的資料儲存庫

您可以提供標題和 URL 做為中繼資料。在對話期間,服務專員可以提供這項資訊,協助使用者快速連結至 Google 搜尋索引器無法存取的內部網頁。

如要匯入含有中繼資料的內容,請提供一或多個 JSON Lines 檔案。這個檔案的每一行都會說明一個文件。您不會直接上傳實際文件,而是會在 JSON Lines 檔案中提供連結至 Cloud Storage 路徑的 URIs

如要提供 JSON Lines 檔案,請提供含有這些檔案的 Cloud Storage 資料夾。請勿將任何其他檔案放入這個資料夾。

欄位說明:

欄位 類型 說明
id 字串 文件的專屬 ID。
content.mimeType 字串 文件的 MIME 類型。支援「application/pdf」和「text/html」。
content.uri 字串 Cloud Storage 中文件的 URI。
structData 字串 單行 JSON 物件,可選擇性包含 titleurl 欄位。

例如:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

沒有中繼資料的資料儲存庫

這類內容沒有中繼資料,而是提供個別文件的 URI 連結。內容類型取決於副檔名。

剖析和分塊設定

視資料來源而定,您可以設定 Agent Search 定義的剖析和分塊設定

使用 Cloud Storage 做為資料儲存庫文件

如果內容不公開,建議儲存在 Cloud Storage。建立資料儲存庫文件時,請以 gs://bucket-name/folder-name 格式提供 Cloud Storage 物件的網址。資料夾中的每個文件都會新增至資料儲存庫。

建立 Cloud Storage bucket 時,請注意下列事項:

按照 Cloud Storage 快速入門指南建立 bucket 並上傳檔案。

語言

如需支援的語言,請參閱語言參考資料中的資料儲存庫欄。

為獲得最佳效能,請以單一語言建立資料存放區。

建立資料儲存庫後,您可以選擇指定資料儲存庫語言。設定資料儲存庫語言後,您可以將資料儲存庫連結至設定為其他語言的代理。舉例來說,您可以建立連結至英文代理程式的法文資料儲存庫。

支援的地區

如要瞭解支援的區域,請參閱區域參考資料

(存取受限) 其他資料儲存來源

下表列出其他資料儲存庫類型,這些類型屬於受限存取功能。如要申請存取權,請填寫存取權申請表單。申請核准後,您在 Vertex AI Agent Builder 中建立資料儲存庫時,就會看到這些選項。

第三方資料儲存庫來源

資料儲存庫來源 說明
Box 從貴機構的 Box 網站匯入資料。
Confluence Cloud 從 Confluence Cloud 工作區匯入資料。
Dropbox 從 Dropbox 儲存空間匯入資料。
EntraID 從貴機構的 EntraID 系統匯入資料。
Jira Cloud 從 Jira 工作管理系統匯入資料。
OneDrive 從貴機構的 OneDrive 儲存空間匯入資料。
Microsoft Outlook 從 Microsoft Outlook 匯入資料。
Salesforce 從 Salesforce 匯入資料。
ServiceNow 從 ServiceNow 匯入資料。
SharePoint 從貴機構的 SharePoint 系統匯入資料。
Slack 從 Slack 匯入資料。
Microsoft Teams 從 Microsoft Teams 匯入資料。

使用連接器設定第三方資料儲存庫

本節說明如何使用第三方資料設定資料儲存庫。如需各第三方資料來源的具體操作說明,請參閱 生成式 AI App Builder 說明文件。

識別資訊提供者

身分識別提供者可讓您管理使用者、群組和驗證。設定第三方資料儲存庫時,您可以使用 Google 識別資訊提供者或第三方識別資訊提供者。

Google 識別資訊提供者:

  • 服務專員會使用 Google 憑證登入。這是任何電子郵件地址,或是使用 Google 做為身分識別提供者 (例如 Google Workspace) 的任何帳戶。@gmail.com如果使用者直接使用 Google Cloud 與代理程式交談,系統會自動內建 Google 身分,因此會略過這個步驟。
  • 您可以使用 Identity and Access Management (IAM) 指派 Google 帳戶的存取權。

第三方識別資訊提供者:

  • 服務專員使用非 Google 憑證登入,例如 Microsoft 電子郵件地址。
  • 您必須使用 Google Cloud 建立工作團隊集區,其中包含非 Google 身分識別提供者。接著,您可以使用 IAM 授予整個集區或集區內個別使用者的存取權。
  • 這個方法無法用於 Google Cloud 在@google.com機構下設定的任何專案。

連接器

第三方資料儲存庫是透過連接器實作。每個連結器可包含多個資料儲存庫,這些儲存庫會以實體形式儲存在 Dialogflow CX 系統中。

  • 建立資料儲存庫前,請先在「Google Cloud 」>「Agent Builder」>「設定」中,為每個區域設定單一識別資訊提供者。該區域的所有資料儲存庫都會使用相同的識別資訊提供者。您可以選擇工作團隊集區中的 Google 識別資訊或第三方識別資訊。如果 Google 憑證位於工作團隊集區中,系統會視為不同的識別資訊。舉例來說,test@gmail.comworkforcePools/test-pool/subject/test@gmail.com 是不同的識別資訊。
    • 建立工作團隊集區 (如有需要)。
    • 前往「Agent Builder」 「設定」,然後選取「Google 身分」或「第三方身分」。 按一下「儲存」,將身分儲存至該區域。
    • 現在您可以在該區域建立資料儲存庫。
  • 每個資料儲存庫都會將存取控制清單 (ACL) 資料與每個文件一併儲存。這項記錄會追蹤哪些使用者或群組有權讀取哪些實體。在執行階段,只有當回覆來自使用者或群組有權讀取的實體時,使用者或群組成員才會收到代理程式的回覆。如果使用者無權讀取資料儲存庫中的任何實體,代理程式就會傳回空白回覆。
  • 由於資料儲存庫中的資料是第三方執行個體的副本,因此需要定期重新整理。您可以設定以小時或天為單位的重新整理間隔。
  • 設定資料儲存庫並點選「建立」後,資料儲存庫最多可能需要一小時才會顯示在資料儲存庫清單中。

資料儲存庫追蹤

這項功能包含兩個部分:

  1. 在代理程式模擬器中顯示資料儲存庫內部執行追蹤記錄和步驟延遲。
  2. 將資料儲存庫內部執行追蹤記錄和步驟延遲時間匯出至 Cloud Logging 和 BigQuery。

在模擬器中查看資料

如要在代理程式模擬器中顯示追蹤和執行資料,請點選代理程式回覆右側的展開箭頭,展開對話輪次的詳細資料。

「執行」分頁會顯示內部資料儲存庫執行追蹤記錄,包括:

  • 原始使用者輸入內容。
  • 資料儲存庫引擎重新撰寫的查詢。
  • 執行步驟的品質信號,例如安全檢查狀態、穩定性檢查狀態、事實依據檢查結果和安全檢查狀態。
  • 從資料儲存庫搜尋結果中擷取片段。
  • 程式碼片段的支援文件清單。

「延遲時間」分頁會顯示各種資料儲存庫執行步驟的時間圖。步驟清單會因資料儲存庫的設定方式和執行流程而異。顯示的資料可能包括:

  • 常見問題比對:執行常見問題比對步驟。
  • 查詢重寫:重寫原始使用者查詢。
  • 搜尋:執行程式碼片段搜尋。
  • 摘要:總結回覆內容。
  • 安全檢查:執行安全檢查步驟。

查看其他位置的追蹤資料

  • 如果為對話式代理設定對話記錄記錄,您可以在「對話記錄」中查看資料儲存庫追蹤記錄。
  • 如果使用記錄設定對話式代理程式,您可以在雲端Logs Explorer中查看追蹤記錄和延遲時間。
  • 如果您使用 BigQuery Export 設定對話式代理程式,可以在匯出的 BigQuery 資料表中查看追蹤記錄和延遲時間。

後續步驟

如要瞭解如何建立及使用虛擬服務專員的資料儲存庫,請參閱資料儲存庫工具說明文件