ノートブック ギャラリーを使用してノートブックを作成して実行する

BigQuery Studio のノートブック ギャラリーを使用して、データの分析を開始します。

始める前に

  1. Google Cloud アカウントにログインします。 Google Cloudを初めて使用する場合は、 アカウントを作成して、実際のシナリオでの Google プロダクトのパフォーマンスを評価してください。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. If you're using an existing project for this guide, verify that you have the permissions required to complete this guide. If you created a new project, then you already have the required permissions.

  6. BigQuery API を有効にします。

    API を有効にするために必要なロール

    API を有効にするには、serviceusage.services.enable 権限を含む Service Usage 管理者 IAM ロール(roles/serviceusage.serviceUsageAdmin)が必要です。詳しくは、ロールを付与する方法をご覧ください。

    API の有効化

    新しいプロジェクトでは、BigQuery API が自動的に有効になります。

  7. (省略可)プロジェクトに対する課金を有効にします。課金を有効にしない場合や、クレジット カードを指定しない場合でも、このドキュメントの手順は行えます。BigQuery には、この手順を実施するためのサンドボックスが用意されています。詳細については、BigQuery サンドボックスを有効にするをご覧ください。

必要なロール

ノートブックの実行に必要な権限を取得するには、プロジェクトに対する次の IAM ロールを付与するよう管理者に依頼してください。

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。

必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

BigQuery のノートブックを初めて使用する場合は、ノートブックの作成ページの必要な権限をご覧ください。

ノートブック ギャラリーは、事前作成済みのノートブック テンプレートを見つけて使用するための中央ハブです。これらのテンプレートを使用すると、データの準備、データ分析、可視化などの一般的なタスクを実行できます。ノートブック テンプレートは、BigQuery Studio の機能の探索、ワークフローの管理、ベスト プラクティスの推進にも貢献します。

ノートブック ギャラリー テンプレートを使用すると、データの取り込みや探索、高度な分析と BigQuery ML など、データ ライフサイクルの各段階で目的から分析情報創出までのワークフロー全体を効率化できます。

ノートブック ギャラリーには、あらゆるスキルレベルに対応したテンプレートが用意されています。ギャラリーには SQL、Python、Apache Spark、DataFrame の基本的なテンプレートが含まれています。BigQuery の生成 AI やマルチモーダル データ分析などのトピックについても学習できます。

ノートブック ギャラリー テンプレートの使用の詳細については、ノートブック ギャラリーを使用してノートブックを作成するをご覧ください。

次の例では、BigQuery Studio のノートブックの概要テンプレートを使用します。このノートブックでは、次のタスクを行う方法について説明します。

  • データのクエリ: SQL セルを使用してクエリを実行します。
  • クエリ結果を可視化する: 可視化セルを使用して、コードなしで可視化を作成します。
  • データをクリーンアップして変換する: BigQuery DataFrames(pandas)API を使用して、データを並べ替え、重複除去し、フィルタします。
  • AI 予測を実行する: BigQuery DataFrames の(AI.FORECAST 関数)を使用して予測を生成します。AI.FORECAST 関数は TimesFM 基盤モデルを使用して、モデルのトレーニングを必要としないデータセットから直接予測を生成します。
  • データをプロットする: Python の組み込み可視化ライブラリを使用してデータをプロットします。Matplotlib と Pandas を利用した BigQuery DataFrames 可視化ライブラリを使用して、データをプロットします。

ノートブックを使用するには、テンプレートを開いて実行可能なノートブックに変換し、ノートブックのランタイム環境に接続して、ノートブックを実行します。

テンプレートを開き、実行可能なノートブックに変換する

ノートブック ギャラリー テンプレートから作成したノートブックを使用する前に、テンプレートを実行可能なノートブックに変換する必要があります。

ノートブック ギャラリーで BigQuery Studio のノートブックの概要テンプレートを開き、実行可能なノートブックに変換する手順は次のとおりです。

  1. [Studio] ページに移動します。

    Studio に移動

  2. 矢印のプルダウンをクリックし、[Notebook > All templates] を選択します。

  3. または、BigQuery Studio のホームページで [ノートブック ギャラリーを表示] をクリックします。

    BigQuery Studio のホームページにある [ノートブック ギャラリーを表示] リンク。

  4. [BigQuery Studio のノートブックの概要] カードをクリックするか、ギャラリーで検索します。

  5. テンプレートが開いたら、[このテンプレートを使う] をクリックして、テンプレートを実行可能なノートブックに変換します。

デフォルトのランタイムに接続する

ノートブックを実行する前に、Vertex AI ランタイムに接続する必要があります。ランタイムはノートブックでコードを実行するコンピューティング リソースであり、ノートブックと同じリージョンに存在する必要があります。

ランタイムの詳細については、ランタイムとランタイム テンプレートをご覧ください。リージョン設定の構成の詳細については、コードアセットにデフォルトのリージョンを設定するをご覧ください。

エラーを返します。

このチュートリアルでは、デフォルトのランタイムを使用します。デフォルトのランタイムは、最小限の設定が必要なプリセット ランタイムです。デフォルトのランタイムに接続する手順は次のとおりです。

  1. ノートブックを開き、[接続] をクリックします。

    アクティブなランタイムがない場合、デフォルトのランタイムへの接続に数分かかることがあります。

  2. ランタイムの準備が整うと、RAM とディスクのグラフが表示されたチェックマークが表示されます。グラフにカーソルを合わせると、ランタイムのタイプとランタイムの構成が表示されます。

    デフォルトのランタイムの構成設定

ノートブックを実行する

BigQuery Studio のノートブックの概要には、テキスト、SQL、可視化、コードのセルが含まれています。テキストセル以外のセルは個別に実行することも、最初から最後まで順番に実行することもできます。

このチュートリアルでは、ノートブックのセルを個別に実行して、結果を段階的に確認します。ノートブックを実行するには:

  1. [SQL セルを使用してデータにクエリを実行する] セクションで、SQL セルにカーソルを合わせて [セルを実行] をクリックします。

    SQL セルの実行セルボタン

    この SQL セルは、過去の大気質に関する一般公開データセットbigquery-public-data.epa_historical_air_quality.pm25_frm_daily_summary テーブルをクエリし、過去数年間のサンフランシスコの 1 日の平均 PM2.5(一般的な大気質指標)を返します。

  2. 結果を確認します。クエリ結果が DataFrame に表示されます。

    BigQuery DataFrames のクエリ結果

  3. [Visualize data] セクションで、可視化セルにカーソルを合わせて [Run cell] をクリックします。

  4. 生成された可視化を表示します。

    可視化セルによって生成されたグラフ

    結果には、前に生成した df DataFrame の 1 日の平均 PM2.5 値をプロットした期間グラフが表示されます。このグラフは、PM2.5 レベルの推移を示しています。

  5. [データをクリーンアップする] セクションで、コードセルにカーソルを合わせて、 [セルを実行] をクリックします。

  6. 結果を確認します。結果は DataFrame に表示されます。

    BigQuery DataFrames の結果

    コードは次の処理を行います。

    • bigframes.pandas ライブラリをインポートします。
    • date_local フィールドがタイムスタンプであることを確認します。
    • 予測に必要な日付で結果を並べ替えます。
    • 重複する行を削除します。
    • avg_pm25null の行を削除します。
    • 外れ値をフィルタします。
    • 結果を df_cleaned という名前の BigQuery DataFrames に表示します。
  7. [AI.FORECAST を使用して値を予測する] セクションで、SQL セルにカーソルを合わせて、 [セルを実行] をクリックします。

  8. 結果を確認します。クエリ結果が DataFrame に表示されます。

    `AI.FORECAST` 関数によって生成された結果

    この SQL セルは、AI.FORECAST 関数を使用して、以前に生成した df_cleaned DataFrame を使用して将来の 1 日の PM2.5 の平均値を予測するクエリを実行します。

  9. [Python を使用してデータを可視化する] セクションで、コードセルにカーソルを合わせて、 [セルを実行] をクリックします。

  10. 結果を確認します。結果はグラフに表示されます。

    Python コードセルで生成されたグラフ

    Python コードは次の処理を行います。

    • datetime モジュールをインポートします。
    • まず過去のデータをプロットして、軸を取得します。
    • 予測データを同じ軸にプロットします。
    • 信頼区間をプロットします。

    この可視化は標準の Python プロットに似ていますが、df_cleaned.plot は BigQuery DataFrames コマンドです。このコマンドは、データセット全体ではなく、グラフのレンダリングに必要なデータ(サンプル)のみを取得します。

クリーンアップ

このページで使用したリソースについて、 Google Cloud アカウントに課金されないようにするには、次の手順を実施します。

  1. Google Cloud コンソールで [リソースの管理] ページに移動します。

    [リソースの管理] に移動

  2. プロジェクト リストで、削除するプロジェクトを選択し、[削除] をクリックします。
  3. ダイアログでプロジェクト ID を入力し、[シャットダウン] をクリックしてプロジェクトを削除します。

または、プロジェクトを保持して、このチュートリアルで使用したリソースを削除するには、次の操作を行います。

  1. [Studio] ページに移動します。

    Studio に移動

  2. 左側のペインで、プロジェクトを開き、[ノートブック] をクリックします。

  3. 削除するノートブックの (アクションを開く)> [削除] をクリックします。

  4. [ノートブックを削除] ダイアログで、[削除] をクリックして確定します。

次のステップ

ノートブック ギャラリーで他のサンプル ノートブック テンプレートを実行するには、以下をご覧ください。

DataFrame の詳細については、以下をご覧ください。

BigQuery の生成 AI 関数と ML 関数の詳細については、生成 AI の概要をご覧ください。