データオブジェクトの検索

Search API の目的は、指定されたクエリに類似するデータオブジェクトを見つけ、ランク付けされた結果のリスト（類似性でランク付け）を返すことです。Search API はフィルタリングもサポートしています。

Search API には、ベクトル検索、全文検索、セマンティック検索など、データオブジェクトを検索するさまざまな方法が用意されています。また、任意のタイプの検索をいくつか組み合わせてハイブリッド検索を実現することもできます。

ベクトル検索

ベクトル検索を使用すると、独自のクエリベクトルを指定できます。これは、embedding-config のないエンベディングフィールドを検索するために必要なメソッドです。複数の search_vector フィールドが指定されている場合、結果は同じ重みで結合されます。

次の例は、ID が movies のコレクションでベクトル検索を実行する方法を示しています。

curl -X POST \
'https://vectorsearch.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/collections/movies/dataObjects:search' \
  -H 'Bearer $(gcloud auth print-access-token)' \
  -H 'Content-Type: application/json' \
  -d '{ \
    "vector_search": { \
      "search_field": "plot_embedding", \
      "vector": { \
        "values": [ \
          0.42426406871192845, \
          0.565685424949238, \
          0.7071067811865475 \
        ] \
      }, \
      "filter": { \
        "genre": { \
          "$eq": "Thriller" \
        } \
      }, \
      "top_k": 5, \
      "output_fields": { \
        "data_fields": "*", \
        "vector_fields": "*", \
        "metadata_fields": "*" \
      } \
    } \
  }'

テキスト検索

これにより、スパースベクトルを使用せずに全文検索が実行されます。デフォルトの「word」クエリ言語では、入力全体が暗黙的な AND 演算子を含む個々の検索語句として扱われます。enhanced_query を true に設定すると、検索キーワードの拡張、ステミングの処理、ストップワードの削除、追加の検索演算子の使用が可能になります。

OR: 指定された語句を 1 つ以上含むドキュメントを照合する、大文字と小文字を区別する論理和演算子。これは、隣接する 2 つの語句にのみ適用されます。
": （二重引用符）によるフレーズ検索。
-: 否定演算子。この演算子の前に置かれた語句を含むドキュメントは除外されます。

セマンティック検索

この検索では、テキストクエリがエンベディングに変換され、セマンティックな意味に基づいて結果が検索されます。スキーマで定義された embedding-config を使用して、クエリエンベディングを生成します。複数の search_vector フィールドが指定されている場合、結果は同じ重みで結合されます。

ハイブリッド検索を使用して検索する

batch_search_data_objects を使用して、複数の検索（ベクトル検索、テキスト検索、セマンティック検索）を並行して実行し、必要に応じて結合して結果を Ranker を使用してランク付けします。

次の Ranker を使用できます。

ReciprocalRankFusion: Reciprocal Rank Fusion（RFF）アルゴリズムを使用して結果セットをマージします。
VertexRanker: Vertex Ranking API を使用して結果を統合し、ランク付けします。