ベクトルインデックス登録のベストプラクティス

このページでは、ベクトルインデックスを最適化し、近似最近傍（ANN）クエリ結果を改善するベクトルインデックスのベストプラクティスについて説明します。

ベクトル検索オプションを調整する

ベクトルインデックスオプションに最適な値は、ユースケース、ベクトルデータセット、クエリベクトルによって異なります。これらの値を設定して調整するには、新しいベクトルインデックスを作成し、CREATE VECTOR INDEX ステートメントで index_option_list を設定します。特定のワークロードに最適な値を見つけるには、反復的なチューニング作業が必要になる場合があります。

適切な値を選択する際のガイドラインは次のとおりです。

tree_depth（ツリーレベル）: インデックスに登録するテーブルの行数が 1,000 万行未満の場合は、tree_depth に 2 を使用します。それ以外の場合、3 の tree_depth は最大 100 億行のテーブルをサポートします。
num_leaves: データセット内の行数の平方根を使用します。値が大きいと、ベクトルインデックスのビルド時間が長くなる可能性があります。num_leaves を table_row_count を 1,000 で割った値より大きく設定しないでください。リーフが小さくなりすぎてパフォーマンスが低下します。
num_leaves_to_search: このオプションは、インデックスのリーフノードを検索する数を指定します。num_leaves_to_search を増やすと再現率は向上しますが、レイテンシとコストも増加します。num_leaves_to_search の値には、CREATE VECTOR INDEX ステートメントで定義されたリーフの合計数の 1% の値を使用することをおすすめします。フィルタ句を使用している場合は、この値を増やすと検索範囲が広がります。

許容できる再現率が達成されたものの、クエリのコストが高すぎて最大 QPS が低い場合は、次の手順で num_leaves を増やしてみてください。

num_leaves を元の値の k 倍に設定します（例: 2 * sqrt(table_row_count)）。
num_leaves_to_search を、元の値の k 倍と同じ値に設定します。
num_leaves_to_search を減らして、再現率を維持しながらコストと QPS を改善します。

再現率を改善する

再現率を改善するには、num_leaves_to_search 値のチューニングまたはベクトルインデックスの再構築を検討してください。

`num_leaves_to_search` 値を大きくする

num_leaves_to_search の値が小さすぎると、一部のクエリベクトルの最近傍を見つけることが難しくなる場合があります。num_leaves_to_search の値を大きくして新しいベクトルインデックスを作成すると、より多くのリーフを検索して再現率を向上させることが可能です。最近のクエリには、このような難しいベクトルがより多く含まれている可能性があります。

ベクトルインデックスを再構築する

ベクトルインデックスのツリー構造は、作成時にデータセット用に最適化され、その後は静的になります。したがって、最初のベクトルインデックスの作成後に大幅に異なるベクトルが追加された場合、ツリー構造が最適でなくなり、再現率が低下する可能性があります。

ダウンタイムなしでベクトルインデックスを再構築するには:

現在のベクトルインデックスと同じエンベディング列に新しいベクトルインデックスを作成し、必要に応じてパラメータ（OPTIONS など）を更新します。
インデックスの作成が完了したら、FORCE_INDEX ヒントを使用して新しいインデックスを参照し、ベクトル検索クエリを更新します。これにより、クエリで新しいベクトルインデックスが使用されます。新しいクエリで num_leaves_to_search の再調整が必要になる場合もあります。
古いベクトルインデックスを削除します。

次のステップ

Spanner のベクトルインデックスの詳細を確認する。
Spanner の近似最近傍の詳細を確認する。
GoogleSQL の APPROXIMATE_COSINE_DISTANCE() 関数、APPROXIMATE_EUCLIDEAN_DISTANCE() 関数、APPROXIMATE_DOT_PRODUCT() 関数の詳細を確認する。
GoogleSQL の VECTOR INDEX ステートメントの詳細を確認する。