データストアは、データストア ツールがエンドユーザーの質問に対する回答をデータから見つけるために使用されます。データストアは、ウェブサイト、ドキュメント、サードパーティ システムのデータのコレクションであり、それぞれがデータを参照します。
エンドユーザーがエージェントに質問すると、エージェントは特定のソース コンテンツから回答を検索し、見つかった結果を簡潔なエージェント レスポンスに要約します。また、エンドユーザーが詳細を確認できるように、回答のソースへのサポートリンクも提供します。エージェントは、特定の質問に対して最大 5 つの回答スニペットを提供できます。
データストアのソース
データにはさまざまなソースを使用できます。
- ウェブサイトの URL: ドメインまたはウェブページのリストからウェブサイトのコンテンツを自動的にクロールします。
- BigQuery: BigQuery テーブルからデータをインポートします。
- Cloud Storage: Cloud Storage バケットからデータをインポートします。
- AlloyDB: AlloyDB for PostgreSQL クラスタからデータをインポートします。
- Bigtable: Bigtable テーブルからデータをインポートします。
- Firestore: Firestore コレクションからデータをインポートします。
- Cloud SQL: Cloud SQL テーブルからデータをインポートします。
- Spanner: Spanner テーブルからデータをインポートします。
アクセスが制限されたデータストアのソース
Google は、制限付きアクセス機能として、ファーストパーティとサードパーティのデータストア ソースを多数提供しています。利用可能なソースを確認してアクセスをリクエストするには、追加のデータストア ソースをご覧ください。
ウェブサイトのコンテンツ
ウェブサイトのコンテンツをソースとして追加する場合は、複数のサイトを追加または除外できます。サイトを指定するときに、パターンのワイルドカードとして個々のページまたは * を使用できます。すべての HTML と PDF のコンテンツが処理されます。
ウェブサイトのコンテンツをソースとして使用する場合は、ドメインの所有権を確認する必要があります。
制限事項:
- 公開 URL からのファイルは、検索インデックスに存在するように、Google 検索インデクサによってクロールされている必要があります。これは Google Search Console で確認できます。
- 最大 200,000 ページがインデックスに登録されます。データストアにこれ以上のページ数が含まれている場合、その時点でインデックス登録は失敗しますが、すでにインデックスに登録されているコンテンツは残ります。
データのインポート
BigQuery または Cloud Storage からデータをインポートできます。このデータは、FAQ 形式または非構造化とすることができ、メタデータありまたはメタデータなしとすることができます。
次のデータ インポートのオプションを使用できます。
- データの追加/更新: 提供されたドキュメントをデータストアに追加します。新しいドキュメントの ID が既存のドキュメントの ID と同じ場合、新しいドキュメントは古いドキュメントを置き換えます。
- 既存のデータをオーバーライド: 既存のデータをすべて削除し、新しいデータをアップロードします。この操作は取り消せません。
よくある質問のデータストア
データストアには、よくある質問の回答を保持できます。ユーザーの質問がアップロードされた質問と高い信頼性で一致すると、エージェントはその質問に対する回答を変更せずに返します。エージェントで表示される質問と回答のペアごとにタイトルと URL を指定できます。
データを CSV 形式でデータストアにアップロードします。各ファイルには、列を説明するヘッダー行を含める必要があります。
次に例を示します。
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
title 列と url 列は省略できます。
"answer","question"
"42","What is the meaning of life?"
アップロード プロセス中に、フォルダを選択します。ここでは、ファイル拡張子に関係なく各ファイルが CSV ファイルとして処理されます。
制限事項:
,の後に余分なスペース文字があると、エラーが発生します。- 空白行(ファイルの末尾にある場合も含む)があるとエラーが発生します。
非構造化データストア
非構造化データストアには、次の形式のコンテンツを含めることができます。
HTMLPDFTXTCSV
別のプロジェクトの Cloud Storage バケットからファイルをインポートできます。これを行うには、インポート プロセスに明示的なアクセス権を付与します。エラー メッセージの指示に従ってください。エラー メッセージには、インポートを実行するためにバケットへの読み取りアクセス権が必要なユーザーの名前が含まれています。
制限事項:
- テキストベースの形式のファイルの最大サイズは 2.5 MB、その他の形式の場合は 100 MB です。
メタデータを含むデータストア
タイトルと URL をメタデータとして提供できます。会話中に、エージェントはこの情報を提供して、Google 検索インデクサがアクセスできない内部ウェブページにユーザーがすばやくリンクできるようにします。
メタデータを含むコンテンツをインポートするには、JSON Lines ファイルを 1 つ以上指定する必要があります。このファイルの各行は 1 つのドキュメントを表します。実際のドキュメントを直接アップロードしません。Cloud Storage パスにリンクする URIs が、JSON Lines ファイルで指定されます。
JSON Lines ファイルを指定するには、これらのファイルが含まれている Cloud Storage フォルダを指定します。このフォルダには他のファイルを入れないでください。
フィールドの説明
| フィールド | タイプ | 説明 |
|---|---|---|
| id | 文字列 | ドキュメントの一意の識別子。 |
| content.mimeType | 文字列 | ドキュメントの MIME タイプ。「application/pdf」と「text/html」がサポートされています。 |
| content.uri | 文字列 | Cloud Storage 内のドキュメントの URI。 |
| structData | 文字列 | title フィールドと url フィールド(省略可)を含む単一行の JSON オブジェクト。 |
次に例を示します。
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
メタデータなしのデータストア
このタイプのコンテンツにはメタデータはありません。代わりに、個々のドキュメントへの URI リンクを指定します。コンテンツ タイプはファイル拡張子によって決まります。
解析とチャンク化の構成
データソースに応じて、エージェント検索で定義されている解析とチャンクの設定を構成できます。
データストア ドキュメントに対する Cloud Storage の使用
コンテンツが公開されていない場合は、Cloud Storage にコンテンツを保存することをおすすめします。データストア ドキュメントを作成するときは、Cloud Storage オブジェクトの URL を gs://bucket-name/folder-name の形式で指定します。フォルダ内の各ドキュメントがデータストアに追加されます。
Cloud Storage バケットを作成する場合は、次の手順を行います。
- エージェントに使用するプロジェクトを選択します。
- Standard Storage クラスを使用します。
- バケットのロケーションをエージェントと同じロケーションに設定します。
Cloud Storage クイックスタートの手順に沿って、バケットを作成し、ファイルをアップロードします。
言語
サポートされている言語については、言語リファレンスのデータストア列をご覧ください。
最適なパフォーマンスを得るには、データストアを 1 つの言語で作成します。
データストアを作成したら、必要に応じてデータストアの言語を指定できます。データストアの言語を設定すると、別の言語用に構成されたエージェントにデータストアを接続できます。たとえば、英語のエージェントに接続されるフランス語のデータストアを作成できます。
サポートされるリージョン
サポートされているリージョンについては、リージョン リファレンスをご覧ください。
(アクセス制限あり)追加のデータストアのソース
次の表に、追加のデータストア タイプを示します。これらは制限付きアクセス機能として提供されます。アクセスをリクエストするには、アクセス リクエスト フォームに記入してください。承認されると、Vertex AI Agent Builder でデータストアを作成するときに、これらのオプションが表示されます。
サードパーティのデータストアのソース
| データストアのソース | 説明 |
|---|---|
| Box | 組織の Box サイトからデータをインポートします。 |
| Confluence Cloud | Confluence Cloud ワークスペースからデータをインポートします。 |
| Dropbox | Dropbox ストレージからデータをインポートします。 |
| EntraID | 組織の EntraID システムからデータをインポートします。 |
| Jira Cloud | Jira タスク管理システムからデータをインポートします。 |
| OneDrive | 組織の OneDrive ストレージからデータをインポートします。 |
| Microsoft Outlook | Microsoft Outlook からデータをインポートします。 |
| Salesforce | Salesforce からデータをインポートします。 |
| ServiceNow | ServiceNow からデータをインポートします。 |
| SharePoint | 組織の SharePoint システムからデータをインポートします。 |
| Slack | Slack からデータをインポートします。 |
| Microsoft Teams | Microsoft Teams からデータをインポートします。 |
コネクタを使用してサードパーティ データストアを設定する
このセクションでは、サードパーティのデータを使用してデータストアを設定するプロセスの概要を説明します。サードパーティのデータソース固有の手順については、生成 AI App Builder のドキュメントをご覧ください。
ID プロバイダ
ID プロバイダを使用すると、ユーザー、グループ、認証を管理できます。サードパーティのデータストアを設定するときは、Google ID プロバイダまたはサードパーティの ID プロバイダを使用できます。
Google ID プロバイダ:
- エージェントのユーザーは、Google の認証情報を使用してログインします。これは、
@gmail.comメールアドレス、または Google を ID プロバイダとして使用するアカウント(Google Workspace など)です。ユーザーが Google Cloud を使用してエージェントと直接やり取りする場合は、Google ID がシステムに自動的に組み込まれるため、この手順はスキップされます。 - Identity and Access Management(IAM)を使用して、Google アカウントにアクセス権を割り当てることができます。
サードパーティの ID プロバイダ:
- エージェントのユーザーが、Google 以外の認証情報(Microsoft のメールアドレスなど)を使用してログインする。
- Google 以外の ID プロバイダを含む Google Cloud を使用して、Workforce プールを作成する必要があります。次に、IAM を使用して、プール全体またはそのプール内の個々のユーザーにアクセス権を付与できます。
- このメソッドは、
@google.com組織で設定された Google Cloud プロジェクトでは使用できません。
コネクタ
サードパーティのデータストアはコネクタを使用して実装されます。各コネクタには複数のデータストアを含めることができ、これらのデータストアは Dialogflow CX システムにエンティティとして保存されます。
- データストアを作成する前に、Google Cloud > [エージェント ビルダー] > [設定] で、各リージョンを単一の ID プロバイダで設定する必要があります。そのリージョン内のすべてのデータストアは、同じ ID プロバイダを使用します。Workforce プールでは、Google ID またはサードパーティ ID のいずれかを選択できます。同じ Google 認証情報でも、Workforce プールにある場合は別の ID と見なされます。たとえば、
test@gmail.comはworkforcePools/test-pool/subject/test@gmail.comとは異なる ID とみなされます。- Workforce プールを作成します(必要に応じて)。
- Agent Builder [設定] に移動し、[Google Identity] または [サードパーティの ID] を選択します。 [保存] をクリックして、ID をリージョンに保存します。
- リージョンにデータストアを作成できるようになりました。
- 各データストアは、アクセス制御リスト(ACL)データを各ドキュメントとともに保存します。このレコードは、どのユーザーまたはグループがどのエンティティに対する読み取りアクセス権を持っているかを追跡します。実行時に、ユーザーまたはグループ メンバーは、読み取りアクセス権を持つエンティティから応答が送信された場合にのみ、エージェントから応答を受け取ります。ユーザーがデータストア内のエンティティに対する読み取りアクセス権を持っていない場合、エージェントは空の応答を返します。
- データストア内のデータはサードパーティ インスタンスのコピーであるため、定期的に更新する必要があります。更新間隔は、時間または日のタイムスケールで構成できます。
- データストアを構成して [作成] をクリックすると、データストアがデータストアのリストに表示されるまでに 1 時間ほどかかることがあります。
データストアのトレース
この機能は次の 2 つの部分で構成されています。
- エージェント シミュレータでのデータストアの内部実行トレースとステップ レイテンシの表示。
- データストアの内部実行トレースとステップ レイテンシを Cloud Logging と BigQuery にエクスポートします。
シミュレータでデータを表示する
エージェント シミュレータでトレースと実行データを表示するには、エージェントのレスポンスの右にある展開矢印をクリックして、会話ターンの詳細を開きます。
[実行] タブには、次のものを含む内部データストアの実行トレースが表示されます。
- 元のユーザー入力。
- データストア エンジンによって書き換えられたクエリ。
- セキュリティ チェックのステータス、安定性チェックのステータス、グラウンディング チェックの結果、安全性チェックのステータスなど、実行ステップからの品質シグナル。
- データストア検索からの検索スニペット。
- スニペットの補足資料のリスト。
[レイテンシ] タブには、さまざまなデータストア実行ステップのタイムグラフが表示されます。手順のリストは、データストアの構成方法と実行フローによって異なります。表示されるデータには次のものが含まれます。
- FAQ の照合: FAQ の照合ステップを実行します。
- クエリの書き換え: ユーザーの元のクエリを書き換えます。
- 検索: スニペット検索を実行します。
- 要約: 回答を要約します。
- 安全チェック: 安全チェックの手順を実行します。
他のロケーションのトレースデータを表示する
- 会話履歴のロギングで会話エージェントを構成すると、会話履歴でデータストアのトレースを表示できます。
- ロギングを使用して会話型エージェントを構成すると、クラウドのログ エクスプローラでトレースとレイテンシを表示できます。
- BigQuery エクスポートで会話エージェントを構成すると、エクスポートされた BigQuery テーブルでトレースとレイテンシを確認できます。
次のステップ
エージェントを使用してデータストアを作成して使用する方法については、データストア ツールのドキュメントをご覧ください。