データの変換

Visual Studio Code 用の Google Cloud Data Agent Kit 拡張機能を使用すると、ノートブックを使用してデータのクリーニング、特徴量エンジニアリング、詳細な分析を行うことができます。3 種類のノートブックから選択できます。

  • BigQuery DataFrames ノートブック 。これらは Python ノートブックで、使い慣れた pandas API と scikit-learn API を使用して BigQuery で大規模なデータセットを処理できます。Python に加えて、BigQuery 用の GoogleSQL でコードを記述できます。
  • ローカル カーネルを使用したマネージド Apache Spark ノートブック 。これらは Python ノートブックで、Spark Connect ライブラリを使用して Managed Service for Apache Spark でジョブを作成して実行できます。

  • リモート カーネルを使用したマネージド Apache Spark ノートブック 。これらのノートブックを使用すると、Managed Service for Apache Spark で完全に実行されるリモート カーネルでノートブックを実行できます。コードの一部がパソコンでローカルに実行されることはありません。PySpark に加えて、%%sparksql セルマジックを使用して Spark SQL でコードを記述できます。

始める前に

BigQuery ノートブックの場合、ノートブックを実行する Python 仮想環境に bigframes ライブラリをインストールする必要があります。新しいノートブックを作成すると、初期化セルに次の行がコメントアウトされて含まれます。

#%pip install --upgrade bigframes
  1. 省略可: Python 仮想環境に bigframes ライブラリがインストールされていない場合は、コメントを削除します。

  2. 省略可: ノートブックに SQL コードを記述する場合は、bigquery-magics をインストールします。

pip install --upgrade bigquery-magics

必要なロール

BigQuery ノートブックを実行するために必要な権限を取得するには、拡張機能で選択したプロジェクトに対する BigQuery Studio ユーザーroles/bigquery.studioUser)ロールを付与するよう管理者に依頼してください。

Managed Service for Apache Spark ノートブックに必要な権限を取得するには、プロジェクトに対する次のロールを付与するよう管理者に依頼してください。

ロールの付与については、プロジェクト、 フォルダ、組織へのアクセス権の管理をご覧ください。必要な権限は、カスタム ロールや他の事前定義 ロールから取得することもできます。

データを変換する

BigLake テーブルまたは BigQuery テーブルのデータの場合、拡張機能にはノートブック テンプレートが用意されています。

BigQuery テーブルまたは BigLake テーブルに移動します。

  1. Ctrl/Cmd-Shift-P を押してコマンド パレットを開きます。
  2. カタログ エクスプローラを開き、BigQuery または BigLake を見つけます。
  3. テーブル ID を右クリックします。
  4. フローティング メニューから [Load in Spark DataFrame] または [Load in BigQuery DataFrame] を選択します。新しいエディタにテーブルに関する情報が表示されます。

    ユニバーサル検索を使用してテーブルを見つけることもできます。テーブル ID をクリックして新しいエディタを開き、[Data] タブをクリックして、[Load in Spark DataFrame] または [Load in BigQuery DataFrame] を選択します。

ノートブックを初期化する

テーブルを読み込むと、エディタタブに新しい Jupyter ノートブックが開きます。このノートブックには、選択したデータフレーム タイプでテーブルを読み込むために必要なコードが含まれています。

  1. 必要なライブラリが Python 仮想環境にインストールされていない場合は、pip install 行のコメントを解除します。

  2. [Select Kernel] をクリックして、Python カーネルを選択します。

    リモート カーネルを使用する Managed Spark ノートブックの場合は、リモート Spark カーネルを選択する必要があります。

  3. セルの下部にある [▷ Run All] をクリックするか、Shift+Enter を押してセルを実行します。

  4. 不足しているソフトウェアのインストールを求めるメッセージが表示されたら、[インストール] をクリックします。

セルは、選択したテーブルのデータを含むデータフレームを作成します。

データフレームにデータ変換を適用する

ノートブックにセルを追加し、データを変換するコードを記述します。 BigQuery DataFrames の場合、BigQuery DataFrames が提供する pandas 互換の API を使用してデータフレームを変換できます

また、BigQuery DataFrames には、Jupyter ノートブックで SQL を使用してデータフレームを変換するために使用できるマジック コマンドが用意されています。SQL を使用してデータを変換する手順は次のとおりです。

  1. セルを作成して実行し、Jupyter マジックを有効にします。

    %load_ext bigframes

  2. %%bqsql マジックを使用して SQL セルを作成します。

結果を保存する

データフレーム タイプで提供される多くの出力メソッドのいずれかを使用して、変換されたデータを BigQuery または Cloud Storage に保存します。BigQuery DataFrames の出力メソッドは次のとおりです。

データが少ない場合は、Arrow または Pandas にエクスポートして、ローカルでさらに操作や可視化を行うことができます。

クリーンアップ

アカウントに課金されないようにするには、作成したリソースで不要になったものを削除します。 Google Cloud

次のステップ