シュレッドフィールドで最適化されたクエリ

プレビュー - Enterprise エディションのネイティブモードの Firestore（Pipeline オペレーションを含む）

この機能はサービス固有規約の「一般サービス規約」セクションの「一般提供前のサービス規約」の対象となります。お客様はこの機能の個人データを Cloud のデータ処理に関する追加条項に記載されているとおりに処理できます。ただし、Google Cloud へのアクセスに関する契約に記載されている義務と制限事項が適用されます。 pre-GA の機能は「現状のまま」で提供されるものであり、サポートが制限されることがあります。詳細については、リリースステージの説明をご覧ください。

このページでは、Firestore でシュレッドフィールドの使用状況を表示して制御する方法について説明します。これは、Firestore Enterprise エディションで利用できます。

ドキュメントが書き込まれると、Firestore は特定のフィールドをシュレッド形式で保存する必要があると判断する場合があります。シュレッドフィールドは、ドキュメント全体ではなく必要なフィールドのみを読み取ることで、クエリのパフォーマンスを最適化します。

シュレッドフィールドのメリットを享受できるクエリ

シュレッドフィールドの読み取りは、該当する場合、次のクエリ形状に適用されます。

集計クエリ: 集計オペレーションでフィールドのサブセットにのみアクセスする必要があるクエリ。次に例を示します。

db.pipeline()
  .collection("/customers")
  .where(lessThan("account_balance", 0))
  .aggregate(
    countAll().as("total"),
  )

または group-by を使用します。

db.pipeline()
  .collection("/customers")
  .where(lessThan("account_balance", 0))
  .aggregate({
    accumulators: [
      field('account_balance').average().as('avg_account_balance')
    ],
    groups: [field('market_segment')]
  })

射影クエリ: フィールドの特定のサブセットのみを返すクエリ。次に例を示します。
```
db.pipeline()
  .collection("/customers")
  .select("family_name", "given_name")
  .limit(10)
```
フィルタクエリ: Firestore クエリエンジンがドキュメントのフィルタリングにシュレッドフィールドを使用することが有益であると判断するクエリ。次に例を示します。
```
db.pipeline()
  .collection("/customers")
  .where(equal("given_name", "alice"))
```

シュレッドフィールドの使用状況を表示する

クエリでシュレッドフィールドが使用されているかどうかを確認するには、クエリの説明を使用します。クエリプランの TableScan ノードには、次の指標を含む Storage セクションが含まれています。

スキャン形状:
- shredded_fields_only: クエリはシュレッドフィールドからのみ読み取ります。
- shredded_fields_backjoin: クエリはシュレッドフィールドから読み取り、他のフィールドの元のドキュメントと結合します。
使用されているシュレッドフィールド: シュレッドフィールドとして読み取られるフィールド名のリスト。
再確認数: 再確認のカウンタのマップ。再確認とは、シュレッドフィールドのスキャン時に元の完全なドキュメントからの読み取りに戻ることを意味します。これは、ドキュメント内のフィールド値が 8 KiB を超える場合に発生することがあります。これは、シュレッドフィールドストレージには大きすぎます。

出力例

...
└── • TableScan
        source: /customers
        order: UNDEFINED
        row range: (-∞..+∞)
        filter: ($account_balance_1 < 0L)
        output bindings: {$account_balance_1=account_balance, $market_segment_1=market_segment}
        variables: [$account_balance_1, $market_segment_1]

        Execution:
         records returned: 1,374
         latency: 26.58 ms
         post-filtered rows: 13,626
         records scanned: 15,000
         data bytes read: 23.73 MiB (24,887,141 B)

        Storage:
         scan shape: shredded_fields_only
         shredded fields used: [account_balance, market_segment]

シュレッドフィールドの使用状況を制御する

デフォルトでは、Firestore はシュレッドフィールドが使用可能な場合は使用します。この動作は、table_scan_method クエリオプションを使用して制御できます。

table_scan_method オプションでサポートされている値は次のとおりです。

shredded_fields_enabled（デフォルト）: シュレッドフィールドが使用可能な場合は使用します。
shredded_fields_disabled: シュレッドフィールドを使用しません。
force_shredded_fields: シュレッドフィールドのスキャンでテーブルスキャンを実行できない場合は、クエリを失敗させます。

例

var opts = new PipelineExecuteOptions()
    .with("table_scan_method", "shredded_fields_disabled");

var snapshot = db.pipeline()
    .collection("/customers")
    .where(equal("given_name", "alice"))
    .execute(opts)
    .get();

クエリのパフォーマンスに関する警告

Firestore は、非効率的なシュレッドフィールドの使用が検出されると、クエリの説明の結果にパフォーマンスに関する警告を発行することがあります。次に例を示します。

選択性の低いクエリ: クエリがフィルタリングのためにシュレッドフィールドをスキャンするものの、フィルタで除外されるドキュメントが少なすぎてスキャンが非効率になる場合に発生します。
再確認の多いクエリ: クエリが完全なドキュメントの読み取りに頻繁に戻る場合に発生します。これはパフォーマンスに影響する可能性があります。storage_size などの関数を使用して、再確認をトリガーする大きな値を特定できます。

このような場合は、クエリオプションを使用してシュレッドフィールドの読み取りを無効にすることを検討してください。

制限事項

Firestore は最上位のフィールドのみをシュレッドします。また、コレクショングループごとにシュレッドできるフィールドの数も制限されます。

シュレッド フィールドで最適化されたクエリ

シュレッド フィールドのメリットを享受できるクエリ

シュレッド フィールドの使用状況を表示する

出力例

シュレッド フィールドの使用状況を制御する

例