注: Vertex AI Search は Agent Search に名称変更されます。現在、新しいブランディングを反映するようにコンテンツの更新を進めています。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

ドキュメントレベルの関連性で検索をフィルタする

エージェント検索アプリで検索する際に、ドキュメントレベルの関連性フィルタを指定して、フィルタしきい値を満たすドキュメントのみが結果として返されるようにすることができます。このページでは、しきい値の種類、しきい値の最適化の重要性、関連性フィルタとそのしきい値を指定する方法について説明します。

ドキュメントレベルの関連性でフィルタする方法について

検索クエリが結果を返すと、取得された各ドキュメントに関連性レベルが割り当てられます。検索リクエストでしきい値を設定すると、フィルタのしきい値を満たすドキュメントのみが返されます。しきい値を高く設定すると、クエリで返されるドキュメントの数を減らすことができます。一方、しきい値を低く設定すると、ユーザーのクエリとの関連性が低いドキュメントが結果に混入する可能性があります。

したがって、結果にユーザーにとって関連性の低いドキュメントが過剰に多く含まれている場合は、関連性のしきい値を高に設定して、最も関連性の高い少数の結果のみに絞り込みます。しきい値が高すぎて制限が厳しすぎる場合は、より最適な値に下げることができます。

検索の種類

関連性フィルタは、次の種類の検索に適用できます。

キーワード検索: キーワード検索に基づいてドキュメントを取得します。
セマンティック類似性検索: エンベディングに基づいてドキュメントを取得します。

関連性フィルタの定義では、これらの各検索のしきい値のタイプを指定できます。検索では、指定された検索のドキュメントを取得し、指定されたしきい値を適用します。

しきい値の種類

検索リクエストを送信するときに、キーワード検索とセマンティック類似性検索のしきい値として次のいずれかのタイプを指定できます。

関連性のしきい値: このしきい値を設定すると、検索では独自のモデルを使用してドキュメントの関連性が判断されます。この場合、検索では、キーワードの類似性スコア、トピックのスコア、意味の類似性スコアなど、関連性の高いシグナルが使用されることがあります。

関連性しきい値は、HIGH、MEDIUM、LOW、LOWEST の値を指定できる粗粒度の設定です。HIGH しきい値では関連性の高いスコアのドキュメントが少なく返されることがありますが、LOWEST しきい値では検索クエリに関連していない可能性のあるドキュメントが多く返されることがあります。

注: この関連性フィルタリング機能は、検索結果で返されるドキュメントの関連性スコアとは異なり、精度も低くなります。
意味的関連性のしきい値: このしきい値を設定すると、フィルタは意味的類似性スコアのみに基づいてドキュメントの関連性を判断します。

セマンティック関連性のしきい値は、きめ細かい設定であり、[0,1] の範囲内の浮動小数点値です。しきい値を 0 に設定するとすべてのドキュメントが返され、しきい値を 1 に設定すると最も関連性の高いドキュメントが返されます。

ドキュメントレベルの関連性フィルタでサポートされているデータ型とアプリ

ドキュメントレベルの関連性フィルタは、次の種類のデータを含むデータストアに適用できます。

ウェブサイトの高度なインデックス登録を使用したウェブサイトデータ
カスタム非構造化データ
カスタム構造化データ

ドキュメントレベルの関連性フィルタは、ウェブサイトの基本的なインデックス登録、メディアデータ、医療データを含むデータストアでは機能しません。

また、ドキュメントレベルの関連性フィルタは統合検索アプリでは使用できません。統合検索アプリは、複数のデータストアに接続されているアプリです。

その他の種類のフィルタ

ドキュメントレベルの関連性フィルタは、クエリで返されるデータをフィルタするための唯一の方法ではありません。フィルタ式を使用して、メタデータ（ウェブサイトの高度なインデックス登録とメタデータデータストアを使用した非構造化データ）とフィールド値（構造化データストア）に基づいて結果をフィルタすることもできます。

詳細については、以下をご覧ください。

フィルタ式とドキュメントレベルの関連性フィルタの両方を使用すると、最初にフィルタ式が結果に適用され、次にドキュメントレベルの関連性フィルタが適用されます。

始める前に

アプリとデータストアを作成し、データストアにデータを取り込んだことを確認します。詳細については、検索アプリを作成するをご覧ください。ドキュメントレベルの関連性フィルタでサポートされているデータ型とアプリもご覧ください。

ドキュメントレベルの関連性に基づいて結果を検索、フィルタする

関連性でフィルタするには、次の手順を行います。

注: アプリ内を検索するには engines.servingConfigs.search メソッドを使用し、データストア内を検索するには dataStores.servingConfigs.search メソッドを使用します。次の手順では、engines.servingConfigs.search メソッドを使用して検索することをおすすめします。

アプリ ID を調べます。アプリ ID をすでに保有している場合は、次のステップに進みます。
1. Google Cloud コンソールで、[AI Applications] ページに移動します。
  
  [アプリ] に移動
2. [アプリ] ページで、アプリの名前を見つけ、[ID] 列からアプリの ID を取得します。

ドキュメントレベルの関連性で検索をフィルタするには、engines.servingConfigs.search メソッドを使用して、検索タイプごとに 1 つのタイプのしきい値のみを定義する relevanceFilterSpec フィールドを指定します。つまり、特定のタイプの検索に対して relevanceThreshold または semanticRelevanceThreshold のいずれかを指定できます。

curl -X POST -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/engines/APP_ID/servingConfigs/default_search:search" \
-d '{
 "servingConfig": "projects/PROJECT_ID/locations/global/collections/default_collection/engines/APP_ID/servingConfigs/default_search",
"query": "QUERY",
"relevanceFilterSpec": {
  "keywordSearchThreshold":  {
      "relevanceThreshold": "RELEVANCE_THRESHOLD"
  },
  "semanticSearchThreshold":  {
      "semanticRelevanceThreshold": SEMANTIC_RELEVANCE_THRESHOLD
  }
}
}'

次のように置き換えます。

PROJECT_ID: 実際の Google Cloud プロジェクト ID。
APP_ID: クエリする Agent Search アプリの ID。
QUERY: 検索するクエリテキスト。
RELEVANCE_THRESHOLD: HIGH、MEDIUM、LOW、LOWEST のいずれかです。
SEMANTIC_RELEVANCE_THRESHOLD: [0,1] の範囲の浮動小数点値。

コマンドの例と結果

curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/my-project-123/locations/global/collections/default_collection/engines/my-search-app/servingConfigs/default_search:search" \
-d '{
"servingConfig": "projects/my-project-123/locations/global/collections/default_collection/engines/my-search-app/servingConfigs/default_search",
"query": "What is the check grounding API",
"relevanceFilterSpec": {
"keywordSearchThreshold": {
 "relevanceThreshold": "HIGH"
},
"semanticSearchThreshold": {
 "semanticRelevanceThreshold": 0.45
}
}
}'

{
"results": [
{
  "id": "a082e70352c073a4443502477255bd2a",
  "document": {
    "name": "projects/123456/locations/global/collections/default_collection/dataStores/my-data-store/branches/0/documents/a082e70352c073a4443502477255bd2a",
    "id": "a082e70352c073a4443502477255bd2a",
    "derivedStructData": {
      "displayLink": "cloud.google.com",
      "link": "https://cloud.google.com/generative-ai-app-builder/docs/check-grounding",
      "htmlTitle": "Check grounding",
      "title": "Check grounding"
    }
  },
  "rankSignals": {
  ...
  },
  "retrievalSignals": {
    "retrievalSource": 1
  }
}
],
"totalSize": 1,
"attributionToken": "f_B-CgwIidzwswYQyue15gESJDY2N2M1NmJkLTAwMDAtMjk3Ni1iMGI4LTg4M2QyNGZmNTZhOCIHR0VORVJJQypAjr6dFavEii3b7Ygt3o-aIoCymiLC8J4Vo4CXIra3jC3Usp0V24-aIt7tiC3n7YgtrsSKLeTtiC2DspoixsvzFw",
"guidedSearchResult": {},
"summary": {}
}

ここでは、関連性のしきい値が高に設定されているため、最も関連性の高い結果のみが返されます。この例では、関連性が高いと判断されたドキュメントは 1 つのみです。取得元は 1 と示されています。これはキーワードの類似性にマッピングされます。

さまざまなしきい値で複数のクエリをテストして、データとアプリケーションに最適なしきい値設定を特定します。

ドキュメント レベルの関連性で検索をフィルタする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

ドキュメント レベルの関連性でフィルタする方法について

検索の種類

しきい値の種類

関連性フィルタの定義と例

ドキュメント レベルの関連性フィルタでサポートされているデータ型とアプリ

その他の種類のフィルタ

始める前に

ドキュメント レベルの関連性に基づいて結果を検索、フィルタする

コマンドの例と結果

ドキュメントレベルの関連性で検索をフィルタする

ドキュメントレベルの関連性でフィルタする方法について

ドキュメントレベルの関連性フィルタでサポートされているデータ型とアプリ

ドキュメントレベルの関連性に基づいて結果を検索、フィルタする