Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Oracle データベースから BigQuery へのデータの複製

このチュートリアルでは、Cloud Data Fusion Replication を使用して、変更されたデータを Oracle データベースから BigQuery データセットに継続的に複製するジョブをデプロイする方法を説明します。この機能は Datastream を利用しています。

目標

このチュートリアルの内容は次のとおりです。

追加ロギングを有効にするように Oracle データベースを構成します。
Cloud Data Fusion Replication ジョブを作成して実行します。
BigQuery で結果を表示します。

費用

このドキュメントでは、課金対象である次の Google Cloudコンポーネントを使用します。

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを生成できます。

新規の Google Cloud ユーザーの方は、無料トライアルをご利用いただける場合があります。

複製が実行されると、Managed Service for Apache Spark クラスタと Cloud Storage に対して課金され、Datastream と BigQuery の処理料金が発生します。これらの費用を最適化するには、BigQuery 定額料金を適用することを強くおすすめします。

始める前に

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the Cloud Data Fusion, Dataproc, Datastream, BigQuery, and Cloud Storage APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

バージョン 6.3.0 以降でパブリック Cloud Data Fusion インスタンスを作成します。プライベートインスタンスを作成する場合は、VPC ネットワークピアリングを設定します。
- インスタンスを作成するときに、[アクセラレータを追加] をクリックし、[レプリケーション] チェックボックスをオンにして、レプリケーションを有効にします。
- 既存のインスタンスで有効にするには、レプリケーションを有効にするをご覧ください。

必要なロール

Oracle データベースに接続するために必要な権限を取得するには、管理者に次の IAM ロールを付与するよう依頼してください。

クラスタを含むプロジェクトの Managed Service for Apache Spark サービスアカウントに対する Dataproc ワーカー（roles/dataproc.worker）
クラスタを含むプロジェクトの Managed Service for Apache Spark サービスアカウントに対する Cloud Data Fusion 実行者ロール
Cloud Data Fusion サービスアカウントと Managed Service for Apache Spark サービスアカウントに対する DataStream 管理者（roles/datastream.admin）

ロールの付与の詳細については、アクセスの管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

省略可: Compute Engine に Oracle をインストールする

このセクションでは、データベースの例を設定する方法について説明します。Oracle データベースがすでにインストールされている場合は、このセクションをスキップできます。

Oracle Server Docker イメージをダウンロードします。

この Oracle Express Edition 11g イメージの制限については、Oracle Database のエディションをご覧ください。
新しい VM インスタンスに Docker イメージをデプロイします。

注: 新しい VM インスタンスにイメージをデプロイするには、Compute Engine サービスに Artifact Registry 読み取りロールが必要です（roles/artifactregistry.reader）。
Compute Engine の [ディスク] ページで、ディスクサイズを 500 GB に変更して、VM を再起動します。

[ディスク] に移動
HR サンプルスキーマをインストールします。

Oracle サーバー用の VPC ネットワークピアリングまたはファイアウォールルールを作成する

Oracle データベースでパブリック IP アドレスからの上り（内向き）トラフィックが許可されていない場合は、Datastream VPC と Oracle データベースにアクセスできる VPC の間に VPC ネットワークピアリングを設定します。詳細については、プライベート接続構成を作成するをご覧ください。

Oracle データベースでパブリック IP からの受信トラフィックが許可されている場合、VM インスタンスのファイアウォールルールを作成して、Datastream のパブリック IP からの受信トラフィックを許可します。

追加ロギングを有効にするように Oracle サーバーを構成します。

手順に従ってソース Oracle データベースを構成します。

Cloud Data Fusion Replication ジョブを作成して実行する

ジョブを作成します

Cloud Data Fusion ウェブインターフェースで、[レプリケーション] をクリックします。
[レプリケーションジョブを作成する] をクリックします。
[新しいレプリケーションジョブの作成] ページで、レプリケーションジョブの [名前] を指定し、[次へ] をクリックします。
ソースを構成します。
1. ソースとして [Oracle (by Datastream)] を選択します。
2. Oracle サーバーで Datastream パブリック IP からの受信トラフィックを許可されている場合は、[接続方法] で [IP 許可リスト] を選択します。それ以外の場合は、プライベート接続名でプライベート接続（VPC ピアリング）を選択し、Oracle サーバーの VPC ネットワークピアリングまたはファイアウォールルールを作成するセクションで作成した VPC ピアリング名を入力します。
3. [ホスト] に、読み取り元の Oracle サーバーのホスト名を入力します。
4. [ポート] に、Oracle サーバーへの接続に使用するポートとして「1521」と入力します。
5. [システム ID] に「xe」（Oracle サーバーのサンプルデータベース名）と入力します。
6. 認証情報セクションで、Oracle サーバーにアクセスするためのユーザー名とパスワードを入力します。
7. 他のプロパティはすべてそのままにします。
[Next] をクリックします。
ターゲットを構成します。
1. BigQuery ターゲットを選択します。
2. プロジェクト ID とサービスアカウントキーが自動的に検出されます。デフォルト値のままにします。
3. 省略可: [詳細] セクションで、次の構成を行うことができます。
  - ステージングバケットの名前とロケーション
  - 読み込み間隔
  - ステージングテーブルの接頭辞
  - テーブルまたはデータベースが削除されたときの動作
[Next] をクリックします。
接続に成功すると、テーブルのリストが表示されます。このチュートリアルでは、いくつかのテーブルを選択します。

注: 続行するには、選択したテーブルで追加ロギングを有効にする必要があります。
[Next] をクリックします。
[Review assessment ページ] でいずれかのテーブルの横にある [View mappings] をクリックすると、スキーマの問題、欠損している機能、接続性に関する、複製中に発生する可能性のある問題の評価を取得できます。

問題が発生した場合は、続行する前に解決する必要があります。このチュートリアルでは、いずれかのテーブルに問題がある場合は、次の操作を行います。
1. テーブルを選択した手順に戻ります。
2. 問題のないテーブルまたはイベント（挿入、更新、削除）を選択します。
ソースデータベースから BigQuery へのデータタイプの変換の詳細については、レプリケーションデータタイプをご覧ください。
[Back] をクリックします。
[Next] をクリックします。
レプリケーションジョブの詳細の概要を確認し、[レプリケーションジョブをデプロイする] をクリックします。

ジョブを開始する

Cloud Data Fusion ウェブインターフェースで、レプリケーションジョブの詳細ページに移動します。
[開始] をクリックします。

レプリケーションジョブは、プロビジョニング、開始、実行中の各状態に移行します。実行中の状態では、レプリケーションジョブによって、選択したテーブルデータの初期スナップショットが BigQuery に読み込まれます。この状態では、テーブルの状態は [スナップショット] として表示されます。最初のスナップショットを BigQuery に読み込むと、テーブルに対する変更はすべて BigQuery に複製され、テーブルの状態は [Replicating] と表示されます。

ジョブをモニタリングする

レプリケーションジョブの開始と停止、構成とログの確認、レプリケーションジョブのモニタリングを行うことができます。

[レプリケーションジョブの詳細] ページから、レプリケーションジョブアクティビティをモニタリングできます。

[レプリケーション] ページで、選択したレプリケーションジョブの [名前] をクリックします。
[モニタリング] をクリックします。

BigQuery で結果を表示する

レプリケーションジョブは、複製されたデータセットとテーブルを BigQuery に作成し、対応する Oracle データベースとテーブル名を継承します。

Google Cloud コンソールで、[BigQuery] ページに移動します。
左側のパネルでプロジェクト名をクリックして、データセットのリストを展開します。
xe データセットを選択して、表示するテーブルを選択します。

詳細については、BigQuery のドキュメントをご覧ください。

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。

チュートリアルが終了したら、Google Cloud で作成したリソースをクリーンアップして、割り当てを使い果たしたり、今後料金が発生しないようにします。次のセクションで、このようなリソースを削除または無効にする方法を説明します。

VM インスタンスを削除します。

Google Cloud コンソールで、[VM インスタンス] ページに移動します。

[VM インスタンス] に移動
削除するインスタンスのチェックボックスを選択します。
[削除] をクリックして、インスタンスを削除します。

Cloud Data Fusion インスタンスを削除する

Cloud Data Fusion インスタンスを削除する手順に従います。

プロジェクトを削除する

課金されないようにする最も簡単な方法は、チュートリアル用に作成したプロジェクトを削除することです。

プロジェクトを削除するには:

注意: プロジェクトを削除すると、次のような影響があります。

プロジェクト内のすべてのものが削除されます。既存のプロジェクトを使用してこのドキュメントのタスクを行った場合、そのプロジェクトを削除すると、プロジェクト内で行った他の作業もすべて削除されます。
カスタムプロジェクト ID が失われます。このプロジェクトを作成したときに、将来使用するカスタムプロジェクト ID を作成した可能性があります。そのプロジェクト ID を使用した URL（例: appspot.com）を保持するには、プロジェクト全体ではなく、プロジェクト内の選択したリソースだけを削除します。

複数のアーキテクチャ、チュートリアル、クイックスタートを実施する予定がある場合は、プロジェクトを再利用すると、プロジェクトの割り当て上限を超えないようにすることができます。

Google Cloud コンソールで [リソースの管理] ページに移動します。
[リソースの管理] に移動
プロジェクトリストで、削除するプロジェクトを選択し、[削除] をクリックします。
ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

次のステップ

Datastream の詳細を確認する。
Cloud Data Fusion のレプリケーションについて学習する。
Replication API リファレンスを確認する。
Oracle レプリケーションのリファレンスを参照する
MySQL から BigQuery へのデータの複製のチュートリアルを実施する。
SQL Server から BigQuery へのデータの複製のチュートリアルを実施する。