BigQuery の Colab Enterprise ノートブックを使用して、BigQuery のクエリ結果を調べることができます。
このチュートリアルでは、BigQuery 一般公開データセットのデータをクエリし、その結果をノートブックで確認します。
目標
- BigQuery でクエリを作成して実行する。
- ノートブックでクエリ結果を調べる。
費用
このチュートリアルでは、Google Cloud 一般公開データセット プログラムを通じて提供されているデータセットを使用します。Google では、これらのデータセットの保存費用を負担しており、データへの公開アクセスを提供しています。データに対して実行するクエリに対して料金が発生します。詳細については、BigQuery の料金をご覧ください。
始める前に
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin), which contains theserviceusage.services.enablepermission. Learn how to grant roles.新しいプロジェクトでは、BigQuery が自動的に有効になります。
コードアセットにデフォルトのリージョンを設定する
コードアセットを初めて作成する場合は、コードアセットのデフォルト リージョンを設定する必要があります。コードアセットのリージョンを作成後に変更することはできません。
BigQuery Studio のすべてのコードアセットは同じデフォルト リージョンを使用します。コードアセットのデフォルト リージョンを設定する手順は次のとおりです。
[BigQuery] ページに移動します。
[エクスプローラ] ペインで、コードアセットを有効にしたプロジェクトを見つけます。
プロジェクトの横にある (アクションを表示)をクリックし、[デフォルトのコード リージョンを変更] をクリックします。
[リージョン] で、コードアセットに使用するリージョンを選択します。
[選択] をクリックします。
サポートされているリージョンの一覧については、BigQuery Studio のロケーションをご覧ください。
必要な権限
ノートブックを作成して実行するには、次の Identity and Access Management(IAM)ロールが必要です。
- BigQuery ユーザー(
roles/bigquery.user) - ノートブック ランタイム ユーザー(
roles/aiplatform.notebookRuntimeUser) - コード作成者(
roles/dataform.codeCreator)
ノートブックでクエリ結果を開く
SQL クエリを実行した後、ノートブックを使用してデータを調べることができます。この方法は、データを操作する前に BigQuery でデータを変更する場合や、テーブル内のフィールドのサブセットのみが必要な場合は便利です。
Google Cloud コンソールで、[BigQuery] ページに移動します。
[検索語句を入力] フィールドに「
bigquery-public-data」と入力します。プロジェクトが表示されない場合は、検索フィールドに「
bigquery」と入力し、[検索範囲をすべてのプロジェクトに広げます] をクリックして、既存のプロジェクトと一致する検索文字列を入力します。[bigquery-public-data] > [ml_datasets] > [penguins] の順に選択します。
penguins テーブルで、 [アクションを表示] をクリックし、[クエリ] をクリックします。
生成されたクエリにフィールド選択用のアスタリスク(
*)を追加して、次の例のようになります。SELECT * FROM `bigquery-public-data.ml_datasets.penguins` LIMIT 1000;
[実行] をクリックします。
[クエリ結果] セクションで、[次で開く] をクリックし、[ノートブック] をクリックします。
ノートブックを使用できるように準備する
ランタイムに接続し、アプリケーションのデフォルト値を設定して、ノートブックを使用できるように準備します。
- ノートブックのヘッダーで [接続] をクリックして、デフォルトのランタイムに接続します。
- [設定] コードブロックで、 [セルを実行] をクリックします。
データを表示
- 次のようにして、penguins データを BigQuery の DataFrame に読み込み、結果を表示するには、[BigQuery ジョブから DataFrame として読み込まれた結果セット] セクションのコードブロックで [セルを実行] をクリックします。
- データの説明的な指標を取得するには、[describe() を使用して記述統計を表示] セクションのコードブロックで [セルを実行] をクリックします。
- 省略可: 他の Python 関数またはパッケージを使用して、データの探索と分析を行います。
次のコードサンプルは、bigframes.pandas を使用してデータを分析し、bigframes.ml を使用して BigQuery の DataFrame で penguins データから線形回帰モデルを作成します。
クリーンアップ
このチュートリアルで使用したリソースについて、Google Cloud アカウントに課金されないようにするには、リソースを含むプロジェクトを削除するか、プロジェクトを維持して個々のリソースを削除します。
課金をなくす最も簡単な方法は、このチュートリアル用に作成した Google Cloud プロジェクトを削除することです。
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
次のステップ
- 詳細については、BigQuery でのノートブックの作成をご覧ください。
- 詳細については、BigQuery DataFrames を使用したデータの探索をご覧ください。