BigQuery からインデックスデータをインポートする

このガイドでは、ImportIndex API を使用して BigQuery からベクトル検索にインデックスデータをインポートする方法について説明します。これにより、ベクトルエンベディングを含む BigQuery テーブルからベクトル検索インデックスに直接データを入力するプロセスを効率化できます。

インポートする BigQuery データの準備

インデックスデータをインポートする前に、BigQuery テーブルに次の列が必要です。

固有識別子: この列には、各データポイントの固有識別子が含まれます。ベクトル検索の id フィールドにマッピングされます。
ベクトルエンベディング: この列には、繰り返しの FLOAT フィールドとして表されるベクトルエンベディングが含まれています。ベクトル検索のエンベディングフィールドにマッピングされます。

必要に応じて、次の列を含めることができます。

制限: 文字列と数値の制限の列です。検索時にデータをフィルタできます。
メタデータ: ベクトル検索インデックスクエリの結果とともに返されるメタデータの列。

インポートするベクトル検索インデックスの準備

BigQuery データを準備したら、宛先のベクトル検索インデックスが次のようになっていることを確認します。

プロジェクト内の Vector Search に存在する: このインデックスは、インポートされたデータの宛先として機能します。インデックスはプロジェクト内に作成する必要があります。
データの上書きまたは追加に設定されている: インポートプロセスでは、Vector Search インデックス内の既存のデータを上書きするか、BigQuery からインポートしたデータを追加するかを選択できます。上書きの場合、現在のデータポイントがインポートしたデータに置き換えられます。追加の場合、新しいデータが既存のインデックスに追加されます。
次元が一致する: BigQuery データに保存されているエンベディングの次元は、ベクトル検索インデックス用に構成された次元と同一である必要があります。

`ImportIndexRequest` の指定

BigQuery からデータをインポートする前に、ターゲットインデックス、既存データの上書き、BigQuery への接続構成を指定する ImportIndexRequest オブジェクトを作成します。このリクエストオブジェクトを ImportIndex API に送信します。

JSON 形式の ImportIndexRequest の例を次に示します。

{
  "name": "projects/[PROJECT_ID]/locations/[LOCATION]/indexes/[INDEX_ID]",
  "isCompleteOverwrite": true,
  "config": {
    "bigQuerySourceConfig": {
      "tablePath": "bq://[PROJECT_ID].[DATASET_ID].[TABLE_ID]",
      "datapointFieldMapping": {
        "idColumn": "[ID_COLUMN_NAME]",
        "embeddingColumn": "[EMBEDDING_COLUMN_NAME]",
        "restricts": [
          {
            "namespace": "[RESTRICT_NAMESPACE]",
            "allowColumn": ["[RESTRICT_ALLOW_COLUMN_NAME]"],
            "denyColumn": ["[RESTRICT_DENY_COLUMN_NAME]"]
          }
        ],
        "numericRestricts": [
          {
            "namespace": "[RESTRICT_NAMESPACE]",
            "valueColumn": "[RESTRICT_VALUE_COLUMN_NAME]",
            "valueType": "INT"
          }
        ],
        "metadataColumns": ["METADATA_COLUMN1", "METADATA_COLUMN2", ...]
      }
    }
  }
}

name: データをインポートするベクトル検索インデックスの完全なリソース名。
isCompleteOverwrite: インデックス内の既存のデータを上書きするかどうかを示すブール値。既存のデータを置き換える場合は true に設定します。
config: BigQuery ソースの構成が含まれます。
- bigquerySourceConfig: BigQuery テーブルへの接続の詳細を指定します。
- tablePath: bq://[PROJECT_ID].[DATASET_ID].[TABLE_ID] 形式の BigQuery テーブルの完全パス。
- datapointFieldMapping: BigQuery テーブルの列をベクトル検索のフィールドにマッピングします。
  - idColumn: 固有識別子を含む列の名前。
  - embeddingColumn: ベクトルエンベディングを含む列の名前。
  - restricts:（省略可）文字列の制限を指定します。
  - namespace: 制限の名前空間。
  - allowColumn: 制限の許容値の列名を含む配列。
  - denyColumn: 制限の拒否された値の列名を含む配列。
  - numericRestricts:（省略可）数値制限を指定します。
  - namespace: 数値制限の名前空間。
  - value_column: 数値を含む列の名前。
  - value_type: 数値の型（INT、FLOAT、DOUBLE など）。
  - metadataColumns:（省略可）特徴ベクトルエンベディングに含めるメタデータフィールド。これらのメタデータフィールドはインデックスの検索結果から取得できますが、検索自体には影響しません。たとえば、メタデータフィールドでフィルタリングを行うことはできません。

インポートの実行

ImportIndexRequest を作成したら、ImportIndex API エンドポイントに送信します。これにより、インポートプロセスがトリガーされ、BigQuery からデータがエクスポートされて、ベクトル検索インデックスに取り込まれます。ImportIndex から長時間実行オペレーションが返されます。オペレーション ID を使用して、インポートオペレーションの進行状況をモニタリングできます。

インポートされたデータは、保存後、ベクトル検索インデックス内に存在します。このため、他の方法で取り込まれたデータと区別できません。インデックスは、標準の Vector Search API を使用して引き続き管理できます。

次のコードサンプルは、return_full_datapoint が true に設定されたクエリ結果と、genre 制限、year 数値制限、メタデータ列 title と description を指定する BigQuery コネクタ構成を示しています。

nearest_neighbors {
  neighbors {
    datapoint {
      datapoint_id: "4"
      feature_vector: 0.7
      feature_vector: 0.8
      restricts {
        namespace: "genre"
        allow_list: "Drama"
      }
      embedding_metadata {
        title: "A Movie"
        description: "The story of A Movie..."
      }
      crowding_tag {
        crowding_attribute: "0"
      }
      numeric_restricts {
        namespace: "year"
        value_int: 1942
      }
    }
    distance: 0.75
  }
}