Visual Studio Code 用の Google Cloud Data Agent Kit 拡張機能を使用すると、ノートブックを使用してデータのクリーニング、特徴量エンジニアリング、詳細な分析を行うことができます。3 種類のノートブックから選択できます。
- BigQuery DataFrames ノートブック 。これらは Python ノートブックで、使い慣れた pandas API と scikit-learn API を使用して BigQuery で大規模なデータセットを処理できます。Python に加えて、BigQuery 用の GoogleSQL でコードを記述できます。
ローカル カーネルを使用したマネージド Apache Spark ノートブック 。これらは Python ノートブックで、Spark Connect ライブラリを使用して Managed Service for Apache Spark でジョブを作成して実行できます。
リモート カーネルを使用したマネージド Apache Spark ノートブック 。これらのノートブックを使用すると、Managed Service for Apache Spark で完全に実行されるリモート カーネルでノートブックを実行できます。コードの一部がパソコンでローカルに実行されることはありません。PySpark に加えて、
%%sparksqlセルマジックを使用して Spark SQL でコードを記述できます。
始める前に
BigQuery ノートブックの場合、ノートブックを実行する Python 仮想環境に bigframes
ライブラリをインストールする必要があります。新しいノートブックを作成すると、初期化セルに次の行がコメントアウトされて含まれます。
#%pip install --upgrade bigframes
省略可: Python 仮想環境に
bigframesライブラリがインストールされていない場合は、コメントを削除します。省略可: ノートブックに SQL コードを記述する場合は、
bigquery-magicsをインストールします。
pip install --upgrade bigquery-magics
必要なロール
BigQuery
ノートブックを実行するために必要な権限を取得するには、拡張機能で選択したプロジェクトに対する BigQuery Studio
ユーザー
(roles/bigquery.studioUser)ロールを付与するよう管理者に依頼してください。
Managed Service for Apache Spark ノートブックに必要な権限を取得するには、プロジェクトに対する次のロールを付与するよう管理者に依頼してください。
- Dataproc 編集者
(
roles/dataproc.editor) - Dataproc Serverless
編集者
(
roles/dataproc.serverlessEditor)
ロールの付与については、プロジェクト、 フォルダ、組織へのアクセス権の管理をご覧ください。必要な権限は、カスタム ロールや他の事前定義 ロールから取得することもできます。
データを変換する
BigLake テーブルまたは BigQuery テーブルのデータの場合、拡張機能にはノートブック テンプレートが用意されています。
テーブルに移動する
BigQuery テーブルまたは BigLake テーブルに移動します。
Ctrl/Cmd-Shift-Pを押してコマンド パレットを開きます。- カタログ エクスプローラを開き、BigQuery または BigLake を見つけます。
- テーブル ID を右クリックします。
フローティング メニューから [Load in Spark DataFrame] または [Load in BigQuery DataFrame] を選択します。新しいエディタにテーブルに関する情報が表示されます。
ユニバーサル検索を使用してテーブルを見つけることもできます。テーブル ID をクリックして新しいエディタを開き、[Data] タブをクリックして、[Load in Spark DataFrame] または [Load in BigQuery DataFrame] を選択します。
ノートブックを初期化する
テーブルを読み込むと、エディタタブに新しい Jupyter ノートブックが開きます。このノートブックには、選択したデータフレーム タイプでテーブルを読み込むために必要なコードが含まれています。
必要なライブラリが Python 仮想環境にインストールされていない場合は、pip install 行のコメントを解除します。
[Select Kernel] をクリックして、Python カーネルを選択します。
リモート カーネルを使用する Managed Spark ノートブックの場合は、リモート Spark カーネルを選択する必要があります。
セルの下部にある [▷ Run All] をクリックするか、
Shift+Enterを押してセルを実行します。不足しているソフトウェアのインストールを求めるメッセージが表示されたら、[インストール] をクリックします。
セルは、選択したテーブルのデータを含むデータフレームを作成します。
データフレームにデータ変換を適用する
ノートブックにセルを追加し、データを変換するコードを記述します。 BigQuery DataFrames の場合、BigQuery DataFrames が提供する pandas 互換の API を使用してデータフレームを変換できます。
また、BigQuery DataFrames には、Jupyter ノートブックで SQL を使用してデータフレームを変換するために使用できるマジック コマンドが用意されています。SQL を使用してデータを変換する手順は次のとおりです。
セルを作成して実行し、Jupyter マジックを有効にします。
%load_ext bigframes%%bqsqlマジックを使用して SQL セルを作成します。
結果を保存する
データフレーム タイプで提供される多くの出力メソッドのいずれかを使用して、変換されたデータを BigQuery または Cloud Storage に保存します。BigQuery DataFrames の出力メソッドは次のとおりです。
データが少ない場合は、Arrow または Pandas にエクスポートして、ローカルでさらに操作や可視化を行うことができます。
クリーンアップ
アカウントに課金されないようにするには、作成したリソースで不要になったものを削除します。 Google Cloud