資料儲存庫

資料儲存庫會由資料儲存庫工具使用,從您的資料中找出使用者問題的答案。資料儲存庫是網站、文件或第三方系統資料的集合,其中每個項目都會參照您的資料。

當使用者向代理程式提問時,代理程式會從指定的來源內容中搜尋答案,並將搜尋結果統整為連貫的代理程式回覆。還會提供回覆來源的支援連結,方便使用者進一步瞭解。代理程式最多可針對特定問題提供五個答案片段。

資料儲存庫來源

您可以提供下列不同來源的資料:

  • 網站網址: 從網域或網頁清單中自動檢索網站內容
  • BigQuery:從 BigQuery 資料表匯入資料
  • Cloud Storage: 從 Cloud Storage bucket 匯入資料
  • AlloyDB: 從 AlloyDB 叢集匯入資料。
  • Bigtable: 從 Bigtable 資料表匯入資料。
  • Firestore: 從 Firestore 集合匯入資料。
  • Cloud SQL: 從 Cloud SQL 資料表匯入資料。
  • Spanner: 從 Spanner 資料表匯入資料。

受限存取資料存放區來源

Google 提供許多額外的第一方和第三方資料儲存庫來源,做為受限存取功能。如要查看可用來源清單及要求存取權,請參閱本頁的「其他資料儲存區來源」一節。

網站內容

新增網站內容做為來源時, 可以新增及排除多個網站。 指定網站時,您可以使用個別網頁或 * 做為模式的萬用字元。系統會處理所有 HTML 和 PDF 內容。

使用網站內容做為來源時,請務必驗證網域

限制:

  • 來自公開網址的檔案必須已由 Google 搜尋索引器檢索,這樣這些檔案才會存在於搜尋索引中。您可以使用 Google Search Console 檢查此結果。
  • 最多可建立 200,000 個頁面的索引。如果資料存放區包含更多網頁,索引作業就會在該時間點失敗。已建立索引的內容將保留。

匯入資料

您可以從 BigQuery 或 Cloud Storage 匯入資料。這類資料可以是常見問題非結構化資料,也可以包含中繼資料不含中繼資料

可用的資料匯入選項如下:

  • 新增/更新資料: 提供的文件會新增至資料儲存庫。 如果新文件與舊文件 ID 相同,新文件就會取代舊文件。
  • 覆寫現有資料: 刪除所有舊資料, 然後上傳新資料。 這項操作無法復原。

常見問題資料儲存庫

常見問題資料存放區可存放常見問題的解答。 如果系統高度確信使用者問題與上傳的問題相符,代理程式就會傳回該問題的答案,不會進行任何修改。你可以為代理程式顯示的每個問答組合提供標題和網址。

資料必須以 CSV 格式上傳至資料存放區。每個檔案都必須有標題列,說明各個資料欄。

例如:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

titleurl 欄為選用欄位,可以省略:

"answer","question"
"42","What is the meaning of life?"

上傳期間,您可以選取資料夾,系統會將每個檔案視為 CSV 檔案,無論副檔名為何。

限制:

  • , 後方多餘的空格字元會導致錯誤。
  • 空白行 (即使位於檔案結尾) 會導致錯誤。

非結構化資料儲存庫

非結構化資料儲存庫可包含下列格式的內容:

  • HTML
  • PDF
  • TXT
  • CSV

您可以從其他專案的 Cloud Storage bucket 匯入檔案,但這種情況並不常見。如要這麼做,您必須明確授予匯入程序存取權。按照錯誤訊息中的指示操作,其中會包含需要讀取值區權限的使用者名稱,才能執行匯入作業。

限制:

  • 文字格式的檔案大小上限為 2.5 MB,其他格式則為 100 MB。

含中繼資料的資料儲存庫

標題和 URL 可做為中繼資料提供。 當代理程式與使用者對話時,可以向使用者提供這項資訊。這有助於使用者快速連結至 Google 搜尋索引器無法存取的內部網頁。

如要匯入含中繼資料的內容,請提供一或多個 JSON Lines 檔案。這個檔案的每一行都說明一個文件。您不會直接上傳實際文件,而是URIs在 JSON Lines 檔案中提供 Cloud Storage 路徑的連結。

如要提供 JSON Lines 檔案,請提供包含這些檔案的 Cloud Storage 資料夾。請勿將任何其他檔案放入這個資料夾。

欄位說明:

欄位 類型 說明
id 字串 文件的專屬 ID。
content.mimeType 字串 文件的 MIME 類型。支援「application/pdf」和「text/html」。
content.uri 字串 Cloud Storage 中文件的 URI。
structData 字串 單行 JSON 物件,可選擇性包含 titleurl 欄位。

例如:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

沒有中繼資料的資料儲存庫

這類內容沒有中繼資料。而是提供個別文件的 URI 連結。內容類型取決於副檔名。

剖析和分塊設定

視資料來源而定,您或許可以設定 Vertex AI Search 定義的剖析和區塊設定

使用 Cloud Storage 做為資料儲存區文件

如果內容不公開,建議將內容儲存在 Cloud Storage。建立資料存放區文件時,請以以下形式提供 Cloud Storage 物件的網址: gs://bucket-name/folder-name。 資料夾中的每個文件都會新增至資料儲存庫。

建立 Cloud Storage 值區時,請注意下列事項:

按照 Cloud Storage 快速入門操作說明建立 bucket 並上傳檔案。

語言

如需支援的語言,請參閱語言參考資料中的資料儲存庫欄。

為獲得最佳成效,建議您以單一語言建立資料存放區。

建立資料儲存庫後,您可以選擇指定資料儲存庫語言。 設定資料儲存庫語言後,您可以將資料儲存庫連結至以其他語言設定的代理。舉例來說,您可以建立連結至英文代理程式的法文資料儲存庫。

支援的地區

如要查看支援的區域,請參閱區域參考資料

(存取受限) 其他資料儲存來源

下表列出其他資料儲存類型。這些功能屬於存取限制功能,如要申請存取權,請填寫許可清單表單。核准後,您在 Vertex AI Agent Builder 中建立新資料儲存庫時,就會看到這些選項。

第三方資料儲存來源

資料儲存庫來源 說明
(預覽版) AODocs 從 AODocs 文件管理系統匯入資料。
Box 從貴機構的 Box 網站匯入資料。
Confluence Cloud 從 Confluence Cloud 工作區匯入資料。
(預先發布版) Confluence Data Center 從 Confluence Data Center 工作區匯入資料。
Dropbox 從 Dropbox 儲存空間匯入資料。
EntraID 從貴機構的 EntraID 系統匯入資料。
(預先發布版) HubSpot 從貴機構的 HubSpot 網站匯入資料。
Jira Cloud 從 Jira 工作管理系統匯入資料。
(預先發布版) Jira Data Center 從 Jira Data Center 網站匯入資料。
(預先發布版) Marketo 從貴機構的 Marketo 行銷系統匯入資料。
(預覽版) Notion 從貴機構的 Notion 工作區匯入資料。
OneDrive 從貴機構的 OneDrive 儲存空間匯入資料。
Microsoft Outlook 從 Microsoft Outlook 匯入資料。
Salesforce 從 Salesforce 匯入資料。
ServiceNow 從 ServiceNow 匯入資料。
SharePoint 從貴機構的 SharePoint 系統匯入資料。
(預先發布版) Shopify 從貴機構的 Shopify 系統匯入資料。
Slack 從 Slack 匯入資料。
Microsoft Teams 從 Microsoft Teams 匯入資料。
(預覽) WordPress 從貴機構的 WordPress 網站匯入資料。

使用連接器設定第三方資料存放區

本節說明如何使用第三方資料設定資料儲存庫。如需各第三方資料來源的具體操作說明,請參閱生成式 AI 說明文件

識別資訊提供者

身分識別供應商可讓您管理使用者、群組和驗證。設定第三方資料存放區時,您可以選擇使用 Google 識別資訊提供者或第三方識別資訊提供者。

Google 識別資訊提供者:

  • 代理程式的所有使用者都必須使用 Google 憑證登入。可以是任何@gmail.com電子郵件地址,也可以是使用 Google 做為身分識別提供者 (例如 Google Workspace) 的任何帳戶。如果使用者直接透過 Google Cloud 與代理程式交談,系統會自動內建 Google 身分,因此會略過這個步驟。
  • 您可以使用 IAM 指派 Google 帳戶的存取權。

第三方識別資訊提供者:

  • 服務專員會使用非 Google 憑證登入,例如 Microsoft 電子郵件地址。
  • 您必須使用 Google Cloud 包含非 Google 識別資訊提供者的工作團隊集區。接著,您可以使用 IAM 授予整個集區或集區內個別使用者的存取權。
  • 這個方法無法用於在 Google Cloud @google.com機構下設定的任何專案。

連接器

第三方資料儲存庫是透過連接器實作。每個連結器可包含多個資料儲存庫,這些資料儲存庫會以實體的形式儲存在對話式代理程式 (Dialogflow CX) 系統中。

  • 建立資料儲存庫前,請務必先在「Google Cloud 」->「Agent Builder」->「Settings」中,為每個區域設定單一身分識別提供者。該區域中的所有資料儲存區都會使用相同的身分識別提供者。您可以選擇 Google 身分,也可以選擇工作團隊集區中的第三方身分。如果相同的 Google 憑證位於工作團隊集區中,系統會將其視為不同身分。舉例來說,test@gmail.comworkforcePools/test-pool/subject/test@gmail.com 會被視為不同身分。

    • 視需要建立工作團隊集區
    • 依序前往「Agent Builder」>「設定」,然後選取「Google 身分」或「第三方身分」。按一下「儲存」,將身分儲存至區域。
    • 您現在可以在該區域建立資料儲存庫。
  • 每個資料儲存庫都會將存取控制清單 (ACL) 資料與每份文件一併儲存。這份記錄會列出哪些使用者或群組具有哪些實體的讀取權。在執行階段,使用者或群組成員只會收到代理程式的回覆,而這些回覆的來源是使用者有讀取權限的實體。如果使用者沒有資料存放區中任何實體的讀取權限,代理程式會傳回空白回應。

  • 由於資料存放區中的資料是第三方執行個體的副本,因此需要定期重新整理。您可以設定以小時或天為單位的更新間隔。

  • 設定資料儲存庫並點選「建立」後,資料儲存庫最多可能需要一小時才會顯示在資料儲存庫清單中。

資料儲存庫追蹤

這項功能包含兩個部分:

  1. 在代理程式模擬器中顯示資料儲存庫內部執行追蹤記錄和步驟延遲。
  2. 將追蹤記錄和延遲時間資料匯出至 Cloud Logging 和 BigQuery。

在模擬器中查看資料

如要在代理程式資料中顯示追蹤和執行資料,請按一下代理程式回覆右側的展開符號,展開對話輪次的詳細資料。

「執行」分頁會顯示內部資料存放區執行追蹤記錄,包括下列資訊:

  • 原始使用者輸入內容。
  • 資料儲存庫引擎重新撰寫的查詢。
  • 包括安全檢查狀態、穩定性檢查狀態、基礎檢查結果和安全檢查狀態。
  • 從資料儲存庫搜尋結果中尋找摘要。
  • 摘要的來源文件清單。

「延遲時間」分頁會顯示各種資料存放區執行步驟的時間圖表。步驟清單可能因資料存放區的設定方式和執行流程而異。顯示的資料可能包括:

  • 常見問題比對:資料儲存庫已執行常見問題比對步驟。
  • 查詢改寫:資料儲存庫改寫了原始使用者查詢。
  • 搜尋:資料儲存庫執行了摘要搜尋。
  • 摘要:資料儲存庫摘要說明瞭回覆內容。
  • 安全檢查:資料存放區已執行安全檢查步驟。

查看其他位置的追蹤資料

  • 如果對話式代理已設定對話記錄記錄,您也可以在「對話記錄」中查看資料儲存庫追蹤記錄。

  • 如果對話式代理程式已設定 Cloud Logging,您也可以在 Cloud Logs Explorer 中查看追蹤記錄和延遲時間。

  • 如果對話式代理程式已設定匯出至 BigQuery,您也可以在匯出的 BigQuery 資料表中查看追蹤記錄和延遲時間。

後續步驟

如需建立資料儲存庫並搭配代理程式使用的操作說明,請參閱資料儲存庫工具文件。