データストア

データストアは、 データストア ツール がエンドユーザーの質問に対する回答をデータから見つけるために使用されます。 データストアはウェブサイト、ドキュメント、サードパーティ システムのデータのコレクションで、それぞれがデータを参照します。

エンドユーザーがエージェントに質問すると、エージェントは特定のソース コンテンツから回答を検索し、見つかった結果を簡潔なエージェント レスポンスに要約します。 また、エンドユーザーが詳細を確認できるように、レスポンスのソースへのサポート リンクも提供します。 エージェントは、特定の質問に対して最大 5 つの回答スニペットを提供できます。

データストアのソース

データには、次のさまざまなソースを指定できます。

アクセスが制限されたデータストアのソース

Google は、アクセスが制限された機能として、ファーストパーティとサードパーティのデータストア ソースを多数提供しています。利用可能なソースのリストを表示してアクセスをリクエストするには、このページの追加のデータストア ソースのセクションをご覧ください。

ウェブサイトのコンテンツ

ウェブサイトのコンテンツをソースとして追加する場合は、複数のサイトを追加または除外できます。 サイトを指定するときに、パターンのワイルドカードとして個々のページまたは * を使用できます。 すべての HTML と PDF のコンテンツが処理されます。

ウェブサイトのコンテンツをソースとして使用する場合は、ドメインの所有権を確認する必要があります。

制限事項:

  • 公開 URL からのファイルは、検索インデックスに存在するように、Google 検索インデクサによってクロールされている必要があります。これは Google Search Consoleで確認できます。
  • 最大 200,000 ページがインデックスに登録されます。データストアにこれ以上のページ数が含まれている場合、その時点でインデックス登録は失敗します。すでにインデックスに登録されているコンテンツは残ります。

データのインポート

BigQuery または Cloud Storage からデータをインポートできます。このデータは、よくある質問形式 または非構造化形式にすることができ、メタデータあり またはメタデータなしとすることができます。

次のデータ インポートのオプション を使用できます。

  • データの追加 / 更新: 提供されたドキュメントがデータストアに追加されます。 新しいドキュメントの ID が古いドキュメントと同じ場合、古いドキュメントは新しいドキュメントで置き換えられます。
  • 既存のデータをオーバーライド: 古いデータがすべて削除され、新しいデータがアップロードされます。 この操作は元に戻せません。

FAQ データストア

FAQ データストアは、よくある質問(FAQ)の回答を保持できます。 ユーザーの質問がアップロードされた質問と高い信頼性で一致すると、エージェントはその質問に対する回答を変更せずに返します。 エージェントで表示される質問と回答のペアごとにタイトルと URL を指定できます。

データは CSV 形式でデータストアにアップロードする必要があります。各ファイルには、列を記述するヘッダー行が必要です。

次に例を示します。

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

title 列と url 列は省略可能です。

"answer","question"
"42","What is the meaning of life?"

アップロード プロセス中に、フォルダを選択します。ここでは、拡張子に関係なく各ファイルが CSV ファイルとして扱われます。

制限事項:

  • , の後に余分なスペース文字があると、エラーが発生します。
  • 空行(ファイルの末尾でも)があると、エラーが発生します。

非構造化データストア

非構造化データストアには、次の形式のコンテンツを含めることができます。

  • HTML
  • PDF
  • TXT
  • CSV

別のプロジェクトの Cloud Storage バケットからファイルをインポートすることは可能ですが、あまり一般的ではありません。これを行うには、インポート プロセスに明示的なアクセス権を付与する必要があります。エラー メッセージの指示に従ってください。エラー メッセージには、インポートを実行するためにバケットへの読み取りアクセス権が必要なユーザーの名前が含まれています。

制限事項:

  • テキストベースの形式のファイルの最大サイズは 2.5 MB、その他の形式の場合は 100 MB です。

メタデータを含むデータストア

タイトルと URL をメタデータとして指定できます。 エージェントがユーザーと会話中、エージェントはユーザーにこの情報を提供します。 これによりユーザーは、Google 検索インデクサがアクセスできない内部ウェブページにすばやくリンクできます。

メタデータを含むコンテンツをインポートするには、JSON Lines ファイルを 1 つ以上指定する必要があります。このファイルの各行に 1 つのドキュメントを記述します。実際のドキュメントを直接アップロードしません。Cloud Storage パスにリンクする URIs が、JSON Lines ファイルで指定されます。

JSON Lines ファイルを指定するには、これらのファイルが含まれている Cloud Storage フォルダを指定する必要があります。このフォルダには他のファイルを保存しないでください。

フィールドの説明

フィールド タイプ 説明
id 文字列 ドキュメントの一意の識別子。
content.mimeType 文字列 ドキュメントの MIME タイプ。「application/pdf」と「text/html」がサポートされています。
content.uri 文字列 Cloud Storage 内のドキュメントの URI。
structData 文字列 省略可能な title フィールドと url フィールドを含む単一行の JSON オブジェクト。

次に例を示します。

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

メタデータなしのデータストア

このタイプのコンテンツにはメタデータがありません。代わりに、個々のドキュメントへの URI リンクを指定します。コンテンツ タイプは、ファイル拡張子によって決まります。

解析とチャンク化の設定

データソースによっては、 Vertex AI Search で定義されている 解析とチャンク化の設定 を構成できる場合があります。

データストア ドキュメントに Cloud Storage を使用する

コンテンツが公開されていない場合は、コンテンツを Cloud Storageに保存することをおすすめします。 データストア ドキュメントを作成するときは、Cloud Storage オブジェクトの URL を gs://bucket-name/folder-name の形式で指定します。フォルダ内の各ドキュメントがデータストアに追加されます。

Cloud Storage バケットを作成する場合は、次の手順を行います。

Cloud Storage クイックスタートの手順に沿って、バケットを作成し、ファイルをアップロードします。

言語

サポートされている言語については、 言語リファレンスの データストア列を参照してください。

最適なパフォーマンスを得るには、データストアを 1 つの言語で作成することをおすすめします。

データストアを作成したら、必要に応じてデータストアの言語を指定できます。 データストアの言語を設定すると、別の言語用に構成されたエージェントにデータストアを接続できます。たとえば、英語のエージェントに接続されるフランス語のデータストアを作成できます。

サポートされるリージョン

サポートされるリージョンについては、 リージョン リファレンスをご覧ください。

(アクセスが制限された)追加のデータストア ソース

追加のデータストア タイプを次の表に示します。これらは、アクセスが制限された機能として使用できます。許可リスト フォームに記入して、アクセスをリクエストできます。承認されると、Vertex AI Agent Builder で新しいデータストアを作成するときに、これらのオプションが表示されます。

サードパーティのデータストア ソース

データストアのソース 説明
Box 組織の Box サイトからデータをインポートします。
Confluence Cloud Confluence Cloud ワークスペースからデータをインポートします。
Dropbox Dropbox ストレージからデータをインポートします。
EntraID 組織の EntraID システムからデータをインポートします。
Jira Cloud Jira タスク管理システムからデータをインポートします。
OneDrive 組織の OneDrive ストレージからデータをインポートします。
Microsoft Outlook Microsoft Outlook からデータをインポートします。
Salesforce Salesforce からデータをインポートします。
ServiceNow ServiceNow からデータをインポートします。
SharePoint 組織の SharePoint システムからデータをインポートします。
Slack Slack からデータをインポートします。
Microsoft Teams Microsoft Teams からデータをインポートします。

コネクタを使用してサードパーティのデータストアを設定する

このセクションでは、サードパーティのデータを使用してデータストアを設定するプロセスについて説明します。各サードパーティのデータソースに固有の手順については、 生成 AI のドキュメントをご覧ください

ID プロバイダ

ID プロバイダを使用すると、ユーザー、グループ、認証を管理できます。サードパーティのデータストアを設定する場合は、Google ID プロバイダまたはサードパーティの ID プロバイダを使用できます。

Google ID プロバイダ:

  • エージェントのユーザーは、Google 認証情報を使用してログインする必要があります。これは、@gmail.com メールアドレスまたは Google を ID プロバイダとして使用するアカウント(Google Workspace など)にすることができます。ユーザーが を使用してエージェントと会話する場合、Google ID がシステムに自動的に組み込まれるため、この手順はスキップされます。 Google Cloud
  • IAM を使用して Google アカウントへのアクセス権を割り当てることができます

サードパーティの ID プロバイダ:

コネクタ

サードパーティのデータストアは、コネクタを使用して実装されます。 各コネクタには複数のデータストアを含めることができ、これらのデータストアは Dialogflow CX システムにエンティティとして保存されます。

注: 認証にはユーザー アカウントのみがサポートされています。コネクタではサービス アカウントはサポートされていません。

  • データストアを作成する前に、各リージョンに単一の ID プロバイダをGoogle Cloud [エージェント ビルダー] -> [設定]で設定する必要があります。そのリージョン内のすべてのデータストアで同じ ID プロバイダが使用されます。Workforce プールで Google ID またはサードパーティの ID を選択できます。同じ Google 認証情報でも、Workforce プールにある場合は別の ID とみなされます。たとえば、test@gmail.com は とは異なる ID とみなされます。workforcePools/test-pool/subject/test@gmail.com

  • 各データストアは、アクセス制御リスト(ACL)データを各ドキュメントとともに保存します。これは、どのユーザーまたはグループがどのエンティティに対する読み取りアクセス権を持っているかの記録です。実行時に、ユーザーまたはグループ メンバーは、読み取りアクセス権を持つエンティティをソースとするエージェントからのレスポンスのみ を受け取ります。ユーザーがデータストア内のエンティティに対する読み取りアクセス権を持っていない場合、エージェントは空のレスポンスを返します。

  • データストア内のデータはサードパーティ インスタンスのコピーであるため、定期的に更新する必要があります。更新間隔は、時間単位または日単位で構成できます。

  • データストアを構成して [作成] をクリックすると、データストアがデータストアのリストに表示されるまでに最大で 1 時間かかることがあります。

データストアのトレース

この機能には次の 2 つの部分があります。

  1. エージェント シミュレータでのデータストアの内部実行トレースとステップ レイテンシの表示。
  2. トレースとレイテンシのデータを Cloud Logging と BigQuery にエクスポートする。

シミュレータでデータを表示する

トレースと実行データをエージェント データに表示するには、エージェントのレスポンスの右側にある展開アイコンをクリックして、会話ターンの詳細を開きます。

[実行] タブには、次の情報を含む内部データストアの実行トレースが表示されます。

  • 元のユーザー入力。
  • データストア エンジンによって書き換えられたクエリ。
  • セキュリティ チェックのステータス、安定性チェックのステータス、グラウンディング チェックの結果、安全性チェックのステータスなど、さまざまな実行ステップでの品質シグナル。
  • データストア検索からの検索スニペット。
  • スニペットのソースとなったサポート ドキュメントのリスト。

[レイテンシ] タブには、さまざまなデータストア実行ステップの時間グラフが表示されます。ステップのリストは、データストアの構成方法と実行フローによって異なります。表示されるデータには次のものがあります。

  • FAQ の一致: データストアで FAQ の一致ステップが実行されました。
  • クエリの書き換え: データストアが元のユーザークエリを書き換えました。
  • 検索: データストアでスニペット検索が実行されました。
  • 要約: データストアがレスポンスを要約しました。
  • 安全性チェック: データストアで安全性チェック ステップが実行されました。

他の場所でトレースデータを表示する

  • 会話エージェントが 会話履歴ロギングで構成されている場合は、 [**会話履歴**] でデータストアのトレースを表示することもできます。

  • 会話エージェントが Cloud Loggingで構成されている場合は、Cloud ログ エクスプローラでトレースとレイテンシを表示することもできます。

  • 会話エージェントが BigQuery エクスポートで構成されている場合は、 エクスポートされた BigQuery テーブルでトレースとレイテンシを表示することもできます。

次のステップ

データストアを作成してエージェントで使用する手順については、 データストア ツールの ドキュメントをご覧ください。