Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

データパイプラインの作成

このクイックスタートでは、次の方法について説明します。

Cloud Data Fusion インスタンスを作成します。
Cloud Data Fusion インスタンスで提供されているサンプルパイプラインをデプロイします。このパイプラインは次の処理を行います。
1. NYT ベストセラーデータを含む JSON ファイルを Cloud Storage から読み取る
2. ファイルに対し変換を実施して、データの解析とクリーニングを行う。
3. 先週追加された高評価の書籍で $25 未満のものを BigQuery に読み込む。

始める前に

データパイプラインを作成する前に、次の手順を完了します。

プロジェクトを設定する

アカウントにログインします。 Google Cloud を初めて使用する場合は、アカウントを作成して、実際のシナリオで Google プロダクトのパフォーマンスを評価してください。 Google Cloud新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Enable the Cloud Data Fusion API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Enable the Cloud Data Fusion API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

必要なロール

Cloud Data Fusion インスタンスを作成してパイプラインを管理するために必要な権限を取得するには、プロジェクトに対するCloud Data Fusion 管理者（roles/datafusion.admin）IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

Compute Engine のデフォルトサービスアカウントに Managed Service for Apache Spark ジョブを実行するために必要な権限を付与するには、プロジェクトに対する次の IAM ロールを Compute Engine のデフォルトサービスアカウントに付与するよう管理者に依頼します:

Dataproc ワーカー（roles/dataproc.worker）
Cloud Data Fusion ランナー（roles/datafusion.runner）

ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。

管理者は、カスタムロールや他の事前定義ロールを使用して、Compute Engine のデフォルトサービスアカウントに必要な権限を付与することもできます。

Cloud Data Fusion インスタンスを作成する

[インスタンスを作成] をクリックします。
[インスタンス] に移動する
[インスタンス名] を入力します。
インスタンスの [説明] を入力します。
インスタンスを作成する [リージョン] を入力します。
使用する Cloud Data Fusion の [バージョン] を選択します。
Cloud Data Fusion の [**エディション**] を選択します。
Cloud Data Fusion バージョン 6.2.3 以降の場合は、 [承認] フィールドで、Managed Service for Apache Spark サービスアカウント を選択して、 Managed Service for Apache Spark で Cloud Data Fusion パイプラインを実行します。デフォルト値の [Compute Engine アカウント] があらかじめ選択されています。
[作成] をクリックします。インスタンスの作成プロセスが完了するまで 30 分ほどかかります。Cloud Data Fusion がインスタンスを作成している間 [インスタンス] ページのインスタンス名の横に進捗状況が表示されます。完了すると緑色のチェックマークに変わり、インスタンスの使用を開始できることが示されます。

Cloud Data Fusion ウェブインターフェースに移動する

Cloud Data Fusion を使用する際は、 Google Cloud コンソールと個別の Cloud Data Fusion ウェブインターフェースの両方を使用します。

Google Cloud コンソールで、次の操作を行います。
- コンソールプロジェクトを作成する Google Cloud
- Cloud Data Fusion インスタンスを作成して削除する
- Cloud Data Fusion インスタンスの詳細を表示する
Cloud Data Fusion ウェブインターフェースでは、Studio や Wrangler などのさまざまなページを使用して Cloud Data Fusion の機能を使用できます。

Cloud Data Fusion インターフェースを操作するには、次の手順に従います。

コンソールで、[インスタンス] ページを開きます。 Google Cloud
[インスタンス] に移動する
インスタンスの [操作] 列で、[インスタンスの表示] リンクをクリックします。
Cloud Data Fusion ウェブインターフェースで、左側のナビゲーションパネルを使用して必要なページに移動します。

サンプルパイプラインをデプロイする

サンプルパイプラインは Cloud Data Fusion Hub を使用して入手できます。このサンプルパイプラインにより、再利用可能な Cloud Data Fusion パイプライン、プラグイン、ソリューションを共有できます。

Cloud Data Fusion ウェブインターフェースで、[Hub] をクリックします。
左側のパネルで [Pipelines] をクリックします。
[Cloud Data Fusion Quickstart] パイプラインをクリックします。
[作成] をクリックします。
Cloud Data Fusion Quickstart 構成パネルで、[Finish] をクリックします。
[Customize Pipeline] をクリックします。

パイプラインの視覚的な表現が [Studio] ページに表示されます。これは、データ統合パイプライン開発用のグラフィカルインターフェースです。左側に使用可能なパイプラインプラグインが表示され、メインのキャンバス領域にパイプラインが表示されます。パイプラインの各ノードの上にポインタを重ねて、[プロパティ] をクリックすると、パイプラインを調べられます。各ノードのプロパティメニューを使用して、そのノードに関連付けられているオブジェクトや操作を表示できます。
右上のメニューで [Deploy] をクリックします。この手順により、パイプラインが Cloud Data Fusion に送信されます。このクイックスタートの次のセクションでパイプラインを実行します。

パイプラインをデプロイする

パイプラインを表示する

デプロイされたパイプラインがパイプラインの詳細ビューに表示されます。このビューでは、次の操作を行うことができます。

パイプラインの構造と構成を表示する。
手動でパイプラインを実行するか、スケジュールやトリガーを設定する。
実行時間、ログ、指標など、パイプラインの実行履歴の概要を表示する。

サービスアカウントをコピーする

パイプラインを実行する

パイプラインの詳細ビューで [Run] をクリックしてパイプラインを実行します。

パイプラインを実行する

パイプラインを実行するときに、Cloud Data Fusion は次の処理を行います。

エフェメラル Managed Service for Apache Spark クラスタをプロビジョニングする
Apache Spark を使用してクラスタ上でパイプラインを実行する
クラスタを削除する

結果を見る

数分後、パイプラインが完了します。パイプラインのステータスが Succeeded に変わり、各ノードで処理されたレコード数が表示されます。

パイプラインの実行が完了

BigQuery ウェブインターフェースに移動します。
結果のサンプルを表示するには、プロジェクトの DataFusionQuickstart データセットに移動して top_rated_inexpensive テーブルをクリックし、単純なクエリを実行します。次に例を示します。
```
SELECT * FROM PROJECT_ID.GCPQuickStart.top_rated_inexpensive LIMIT 10
```
PROJECT_ID は、実際のプロジェクト ID に置き換えます。

結果を表示

クリーンアップ

このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を実施します。

このクイックスタートでパイプラインが書き込んだ BigQuery データセットを削除します。
Cloud Data Fusion インスタンスを削除します。

注: インスタンスを削除しても、プロジェクト内のデータは削除されません。
省略可: プロジェクトを削除します。

注意 : プロジェクトを削除すると、次のような影響があります。

プロジェクト内のすべてのものが削除されます。既存のプロジェクトを使用してこのドキュメントのタスクを行った場合、そのプロジェクトを削除すると、プロジェクト内で行った他の作業もすべて削除されます。
カスタムプロジェクト ID が失われます。このプロジェクトを作成したときに、将来使用するカスタムプロジェクト ID を作成した可能性があります。そのプロジェクト ID を使用した URL（例: appspot.com URL）を保持するには、プロジェクト全体ではなく、プロジェクト内の選択したリソースだけを削除します。

コンソールで [**リソースの管理**] ページに移動します。 Google Cloud
[リソースの管理] に移動
プロジェクトリストで、削除するプロジェクトを選択し、[削除] をクリックします。
ダイアログでプロジェクト ID を入力し、 [Shut down] をクリックしてプロジェクトを削除します。

次のステップ

Cloud Data Fusion のチュートリアルに取り組む
Cloud Data Fusion のコンセプトについて学ぶ

データ パイプラインの作成

始める前に

プロジェクトを設定する

必要なロール

Cloud Data Fusion インスタンスを作成する

Cloud Data Fusion ウェブ インターフェースに移動する

サンプル パイプラインをデプロイする

パイプラインを表示する

パイプラインを実行する

結果を見る

クリーンアップ

次のステップ

データパイプラインの作成

Cloud Data Fusion ウェブインターフェースに移動する

サンプルパイプラインをデプロイする