Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

パターンマッチング式を高速化する

Spanner 検索インデックスを使用すると、LIKE、STARTS_WITH、ENDS_WITH などのパターンマッチング式や、正規表現マッチング述語 REGEXP_CONTAINS を高速化できます。このページでは、TOKENIZE_NGRAMS を使用して検索インデックスを作成して構成し、パターンマッチング述語を高速化する方法について説明します。

パターンマッチングの高速化のために n グラム `TOKENLIST` を構成する

パターンマッチング式の高速化を有効にするには、小文字の STRING 列を TOKENIZE_NGRAMS でトークン化し、GoogleSQL の場合は STORING 句、PostgreSQL の場合は INCLUDE 句を使用して STRING 列を保存します。

GoogleSQL

CREATE TABLE Albums (
AlbumId INT64 NOT NULL,
AlbumTitle STRING(MAX),
AlbumTitle_Ngram_Tokens TOKENLIST AS (
  TOKENIZE_NGRAMS(LOWER(AlbumTitle), ngram_size_min=>3, ngram_size_max=>4)) HIDDEN,
) PRIMARY KEY(AlbumId);

CREATE SEARCH INDEX AlbumsIndex
ON Albums(AlbumTitle_Ngram_Tokens) STORING (AlbumTitle);

PostgreSQL

CREATE TABLE albums (
albumid bigint NOT NULL,
album_title varchar,
album_title_ngrams_tokens spanner.tokenlist GENERATED ALWAYS AS (
  spanner.tokenize_ngrams(
    lower(album_title),
    ngram_size_min => 3,
    ngram_size_max => 4
  )
) VIRTUAL HIDDEN,
PRIMARY KEY(albumid));

CREATE SEARCH INDEX albumsidx ON
albums(album_title_ngrams_tokens) INCLUDE (album_title);

パターンマッチング述語を使用したクエリの自動高速化

クエリオプティマイザーは、AlbumTitle_Ngram_Tokens を使用して AlbumsIndex を使用して次のクエリを高速化する場合があります。必要に応じて、クエリで @{force_index = AlbumsIndex} を指定して、オプティマイザーに AlbumsIndex の使用を強制できます。

GoogleSQL

GoogleSQL では、LIKE、STARTS_WITH、ENDS_WITH、REGEXP_CONTAINS が高速化されています。

LIKE 述語:

SELECT AlbumId
FROM Albums @{FORCE_INDEX=AlbumsIndex}
WHERE AlbumTitle LIKE "%999%";

STARTS_WITH 述語:

SELECT AlbumId
FROM Albums @{FORCE_INDEX=AlbumsIndex}
WHERE STARTS_WITH(AlbumTitle, "apple")

ENDS_WITH 述語:

SELECT AlbumId
FROM Albums @{FORCE_INDEX=AlbumsIndex}
WHERE ENDS_WITH(AlbumTitle, "apple")

REGEXP_CONTAINS 述語:

SELECT AlbumId
FROM Albums @{FORCE_INDEX=AlbumsIndex}
WHERE REGEXP_CONTAINS(AlbumTitle, r"(good|great)[ ]+morning")

PostgreSQL

PostgreSQL では、LIKE と STARTS_WITH を高速化します。

LIKE 述語:

SELECT albumid
FROM albums /*@ FORCE_INDEX = albumsidx */
WHERE album_title like '%999%';

STARTS_WITH 述語:

SELECT albumid
FROM albums /*@ FORCE_INDEX = albumsidx */
WHERE starts_with(album_title, 'apple')

高速化の前提条件

Spanner でこの高速化を有効にするには、次のルールを満たす必要があります。

インデックスは、GoogleSQL の STORING 句または PostgreSQL の INCLUDE 句を使用して STRING 列を保存する必要があります。これにより、検索でドキュメントが過剰に取得された場合に、パフォーマンスに不可欠なフィルタ後のベーステーブルへのコストのかかるバック結合を防ぐことができます。
STRING 列は TOKENIZE_NGRAMS を使用してトークン化する必要があります。
トークン化は column_name ではなく LOWER(column_name) に適用する必要があります。
LIKE パターン、STARTS_WITH 接頭辞、ENDS_WITH 接尾辞、または REGEXP_CONTAINS 正規表現は、定数リテラルとして指定する必要があります。短すぎるパターンでの加速を回避するため、クエリパラメータはサポートされていません。
LIKE パターン、STARTS_WITH プレフィックス、ENDS_WITH サフィックス、または REGEXP_CONTAINS 正規表現には、少なくとも 1 つの n グラムに十分なテキストが含まれている必要があります。たとえば、一致する文字シーケンスがないため、r".*" は条件を満たしません。同様に、ngram の最小サイズが 3 に設定されている場合、LIKE 述語 "%ab%" は "ab"（サイズ 2）が短すぎるため、条件を満たしません。

次のステップ

ファジー検索で近似一致を見つける方法を確認する。

パターン マッチング式を高速化する コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

パターン マッチングの高速化のために n グラム TOKENLIST を構成する

GoogleSQL

PostgreSQL

パターン マッチング述語を使用したクエリの自動高速化

GoogleSQL

PostgreSQL

高速化の前提条件

次のステップ

パターンマッチング式を高速化する

パターンマッチングの高速化のために n グラム `TOKENLIST` を構成する

パターンマッチング述語を使用したクエリの自動高速化