Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

PostgreSQL データベースからデータをストリーミングする

このセクションには、次に関する情報が含まれています。

Datastream が移行元 PostgreSQL データベースから pull されているデータを処理する方法の動作
Datastream でサポートされている PostgreSQL データベースのバージョン
データが移行先にストリーミングできるように移行元 PostgreSQL データベースを設定する方法の概要
PostgreSQL データベースを移行元として使用する場合の既知の制限事項

動作

移行元の PostgreSQL データベースは論理デコーディング機能に依存しています。論理デコーディングでは、データベースにコミットされたすべての変更が公開され、出力プラグインを使用してこれらの変更をユーザーフレンドリーな形式で使用、処理できます。Datastream は、PostgreSQL 10 以降の標準の PostgreSQL 論理デコーディングプラグインである pgoutput プラグインを使用します。

特定の PostgreSQL 移行元からのすべてのスキーマまたは特定のスキーマ、およびスキーマや特定のテーブルのすべてのテーブルを選択できます。
履歴データはすべて複製されます。
指定したデータベースとテーブルからの挿入、更新、削除など、すべてのデータ操作言語（DML）の変更が複製されます。
commit された変更のみが複製されます。
テーブルに REPLICA IDENTITY を定義すると、Datastream は指定された列を主キーとして扱います。
Datastream は、プライマリインスタンスに接続されている場合、定期的にハートビートメッセージをソースデータベースに送信します。その結果、論理デコードメッセージイベント（op:"m"）が WAL ファイルに直接挿入されます。これらのメッセージは、ソースの可用性を確保し、鮮度を計算するために Datastream で必要です。読み取りレプリカをソースとして使用する場合は、ハートビートメッセージを外部で構成する必要があります。詳細については、読み取りレプリカからのレプリケーションをご覧ください。他のレプリケーション設定が同じソースデータベースから読み取る場合は、この点を考慮することをおすすめします。

バージョン

Datastream は PostgreSQL バージョン 10 以降をサポートしています。

Datastream は、次の種類の PostgreSQL データベースをサポートしています。

セルフホストの PostgreSQL
Cloud SQL for PostgreSQL
AlloyDB for PostgreSQL
AlloyDB Omni
Amazon RDS for PostgreSQL
Amazon Aurora PostgreSQL

無料枠

Datastream を使用すると、無料枠を使用して AlloyDB for PostgreSQL から BigQuery にストリーミングできます。これにより、毎月最大 100 GiB の変更データキャプチャデータを無料で利用できます。詳細については、Datastream の料金をご覧ください。

ベストプラクティス

このセクションでは、Datastream で使用する PostgreSQL ソースを構成する際の推奨されるベストプラクティスについて説明します。

複数のストリームを使用してヘッドオブラインブロッキングを防ぐ

PostgreSQL ソースの場合、Datastream はストリーム全体に対して単一の論理レプリケーションスロットを使用します。1 つの大容量テーブルに対する大規模なトランザクションまたは複数の更新により、同じストリーム内の他のすべてのテーブルのデータレプリケーションが遅延する可能性があります。

ヘッドオブラインブロッキングを防ぐには、テーブルのセットごとに個別のストリームを作成します。たとえば、大量のテーブル用に 1 つのストリームを作成し、少量のテーブル用に別のストリームを作成できます。これにより、チャーン率の高いテーブルが分離され、他のテーブルのレプリケーションが遅延するのを防ぐことができます。

推奨事項: 書き込み（INSERT/UPDATE/DELETE）率が異常に高いテーブルを特定し、独自の専用 Datastream ストリームに配置して、別のレプリケーションスロットを使用します。

長時間実行されるトランザクションを回避する

長時間実行トランザクションは、Write-Ahead Log（WAL）の蓄積につながる可能性があります。WAL はシーケンシャルであるため、PostgreSQL は、長時間実行トランザクションが完了するまで、レプリケーションスロットに必要な古い WAL ファイルを削除できません。これにより、WAL のディスク使用量が増加します。

また、論理デコードの速度が低下する可能性があります。この遅延は、大きなトランザクションが変更をディスクに書き出すことが原因です。これにより、commit 時に遅い I/O 集中型の再アセンブリが必要になり、後続のすべてのトランザクションのレプリケーションがブロックされます。推奨事項: ソースデータベースで、長時間実行されるトランザクションを回避するように statement_timeout パラメータと idle_in_transaction_session_timeout パラメータを構成します。詳細については、PostgreSQL のドキュメントをご覧ください。

パブリケーションの作成時にテーブルフィルタリングを使用する

少数のテーブルの変更のみを複製する場合は、それらのテーブルのみを含む PUBLICATION を作成してください。パブリケーションが特定のテーブルにスコープ設定されている場合、PostgreSQL はレプリケーションスロット内のそれらのテーブルの変更のみを効率的に保持します。これにより、レプリケーションスロットのサイズが縮小され、論理デコードのパフォーマンスが向上します。

レプリケーションスロットをプロアクティブに管理する

Datastream は、PostgreSQL プライマリインスタンスの論理レプリケーションスロットを使用します。これにより、Datastream が WAL ファイルの処理を確認するまで WAL ファイルが保持されます。レプリケーションスロットを削除せずにストリームが失敗、一時停止、削除された場合、PostgreSQL は WAL ファイルを無期限に保持し続けます。これにより、データベースサーバーのディスクが満杯になり、本番環境が停止する可能性があります。

推奨事項: 効率的なアラートを設定し、ソース PostgreSQL サーバーの WAL ディスク使用量をモニタリングします。

レプリカ ID を正しく構成する

REPLICA IDENTITY 設定は、UPDATE イベントと DELETE イベントの WAL に書き込むデータを PostgreSQL に指示します。これにより、Datastream はどの行が変更されたかを特定できます。

BigQuery を宛先として使用する場合は、REPLICA IDENTITY を FULL に設定しないでください。Datastream は、ログに記録された列を BigQuery MERGE オペレーションの論理キーとして使用します。REPLICA IDENTITY が FULL に設定され、テーブルに 17 個以上の列がある場合、MERGE オペレーションの主キーの BigQuery の 16 列の上限を超え、ストリームが中断されます。

推奨事項（優先順位順）:

最適: 主キーを使用します。REPLICA IDENTITY DEFAULT のデフォルト設定では、既存の主キーが自動的かつ効率的に使用されます。
推奨: 主キーが存在しない場合は、UNIQUE NOT NULL インデックスを作成して REPLICA IDENTITY USING INDEX INDEX_NAME を設定します。
最も推奨されない方法: 一意の識別子がないテーブルでのみ REPLICA IDENTITY FULL 設定を使用します。BigQuery に複製する場合は、パフォーマンスへの影響、16 列の制限、主キーでサポートされているデータ型の制限に注意してください。

リードレプリカからのレプリケーション

Datastream は、PostgreSQL バージョン 16 以降の PostgreSQL リードレプリカインスタンスからのレプリケーションをサポートしています。

リードレプリカから複製するには、プライマリインスタンスで次の設定手順を行う必要があります。

プライマリインスタンスでパブリケーションを作成する: Datastream はリードレプリカに接続しますが、レプリケートするデータを定義するパブリケーションはプライマリインスタンスで作成する必要があります。
WAL ハートビートを構成する: Datastream は、チェックポイントメカニズムに定期的な WAL ハートビートメッセージを使用します。プライマリインスタンスに接続する場合、Datastream はこれらのハートビートの生成を処理します。ただし、リードレプリカの場合、これらのハートビートは外部で生成する必要があります。

定期的なハートビートを設定する方法の 1 つは、pg_cron 拡張機能を使用して PostgreSQL に cron タスクを作成することです。

SELECT cron.schedule_in_database(
    'datastream-heartbeat',             -- Job name
    '* * * * *',                        -- Every minute
   $$SELECT pg_logical_emit_message(true, 'datastream', 'cdc heartbeat')$$,
    'DATABASE_NAME',              -- Change this to your database name
    'USERNAME',                   -- Username to run as
    true                                -- Enabled
);

次のように置き換えます。

DATABASE_NAME: ハートビートを生成するデータベースの名前。
USERNAME: タスクを実行するユーザーの名前。通常は postgres。

既知の制限事項

PostgreSQL データベースを移行元として Datastream を使用する場合の既知の制限事項は次のとおりです。

ストリームは 10,000 テーブルに制限されています。
次の条件が満たされない限り、5 億行を超えるテーブルはバックフィルできません。
1. テーブルには一意の B-tree インデックスがある。
2. インデックスには、DOUBLE、FLOAT、MONEY、REAL、JSON、JSONB、BYTEA、TXID、XML 型、複合データ型、ジオメトリデータ型の列は含まれません。
3. インデックスのどの列も null 値を許容できません。
4. インデックスのすべての列が昇順、またはインデックスのすべての列が降順になります。
5. インデックスのすべての列がストリームに含まれる。
主キーのないテーブルには REPLICA IDENTITY が必要です。それ以外の場合、INSERT イベントのみが移行先に複製されます。
主キーを持つテーブルの REPLICA IDENTITY を FULL または NOTHING に設定することはできません。DEFAULT に設定する必要があります。
移行元のスキーマに対するすべての変更を自動的に検出できない場合があります。その場合、データが破損する可能性があります。次のスキーマの変更により、データが破損したり、イベントのダウンストリームが処理されなかったりする可能性があります。
- 列をドロップする。
- テーブルの中央に列を追加する。
- 列のデータ型を変更する。
- 列を並べ替える。
- テーブルをドロップする（新しいデータを追加して同じテーブルを再作成する場合に関連）。
Datastream は、geometric データ型の列をサポートしていません。
Datastream は、range データ型の列をサポートしていません。
Datastream は、サポートされていないデータ型の配列、ユーザー定義のデータ型（ENUM など）の配列、または DATE、TIMESTAMP、TIMESTAMP WITH TIME ZONE データ型の配列をサポートしていません。このような列は無視されます。
2026 年 2 月 17 日より前に作成されたストリームの場合: Datastream は、テーブルのレプリカ ID の一部である列に TOAST 値を含む行の UPDATE イベントの複製をサポートしていません。このようなイベントは破棄されます。この日付以降に作成されたストリームには、この例外は適用されません。
Datastream は、2,950 個を超えるネストされたオブジェクトを含む JSON または JSONB 値を含む行の複製をサポートしていません。このような JSON 値や JSONB 値を含むイベントは、移行先データベースに複製されません。
Datastream は、NUMERIC (precision, scale) 列に NaN 値を含む行の複製をサポートしていません。このような列の値は NULL 値に置き換えられます。
Datastream は、hstore データ型の列の複製をサポートしていません。このような列の値は NULL 値に置き換えられます。
Datastream は、SQL_ASCII でエンコードされた移行元データベースからの非 ASCII レコードの複製をサポートしていません。このようなレコードは破棄されます。
Datastream は、行レベルのセキュリティ（RLS）ポリシーが定義されているテーブルの複製をサポートしていません。この制限を回避する方法については、PostgreSQL の移行元の動作と制限事項をご覧ください。
Datastream は、生成された列に対する変更をキャプチャしません。
データベースで PostgreSQL のメジャーバージョンのアップグレードが実行されると、Datastream が動作を停止したり、新しいイベントをキャプチャしなくなったりする可能性があります。アップグレードの前にレプリケーションスロットを削除し、データベースをアップグレードしてから、レプリケーションスロットを再作成することをおすすめします。ストリームが失敗した場合は、新しいレプリケーションスロット名を指定してストリームを復元し、データの整合性が必要な場合はバックフィルを実行します。
自動ストリーム設定フローを使用する場合、Datastream は PostgreSQL システムテーブルの複製をサポートしていません。自動フローを使用して作成したストリームを編集してシステムテーブルを追加すると、Datastream はこれらのテーブルを無視し、これらのテーブルからデータや変更を複製しません。

次のステップ

Datastream で使用する PostgreSQL ソースの構成方法を学習する。

PostgreSQL データベースからデータをストリーミングする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

動作