データの変換

Visual Studio Code 用の Google Cloud Data Agent Kit 拡張機能を使用すると、ノートブックを使用してデータのクレンジング、特徴量エンジニアリング、詳細な分析を行うことができます。3 種類のノートブックから選択できます。

  • BigQuery DataFrames ノートブック 。これは Python ノートブックで、使い慣れた pandas API と scikit-learn API を使用して BigQuery で大規模なデータセットを処理できます。Python に加えて、BigQuery 用の GoogleSQL でコードを記述することもできます。
  • ローカル カーネルを使用したマネージド Apache Spark ノートブック 。これは Python ノートブックで、Spark Connect ライブラリを使用して Managed Service for Apache Spark でジョブを作成して実行できます。

  • リモート カーネルを使用したマネージド Apache Spark ノートブック 。これらのノートブックを使用すると、Managed Service for Apache Spark で完全に実行されるリモート カーネルでノートブックを実行できます。コードの一部がパソコンでローカルに実行されることはありません。PySpark に加えて、%%sparksql セルマジックを使用して Spark SQL でコードを記述できます。

始める前に

BigQuery ノートブックの場合、ノートブックを実行する Python 仮想環境に bigframes ライブラリをインストールする必要があります。新しいノートブックを作成すると、初期化セルに次の行がコメントアウトされて含まれます。

#%pip install --upgrade bigframes
  1. 省略可: Python 仮想環境に bigframes ライブラリがインストールされていない場合は、コメントを削除します。

  2. 省略可: ノートブックに SQL コードを記述する場合は、bigquery-magics をインストールします。

pip install --upgrade bigquery-magics

必要なロール

BigQuery ノートブックの実行に必要な権限を取得するには、拡張機能で選択したプロジェクトに対するBigQuery Studio ユーザーroles/bigquery.studioUser)ロールを付与するよう管理者に依頼してください。

Managed Service for Apache Spark ノートブックに必要な権限を取得するには、プロジェクトに対する次のロールを付与するよう管理者に依頼してください。

ロールの付与については、プロジェクト、 フォルダ、組織へのアクセス権の管理をご覧ください。必要な権限は、カスタム ロールや他の事前定義 ロールから取得することもできます。

データを変換する

BigLake テーブルまたは BigQuery テーブルのデータの場合、拡張機能にはノートブック テンプレートが用意されています。

BigQuery テーブルまたは BigLake テーブルに移動します。

  1. Ctrl/Cmd-Shift-P を押してコマンド パレットを開きます。
  2. カタログ エクスプローラを開き、BigQuery または BigLake を見つけます。
  3. テーブル ID を右クリックします。
  4. フローティング メニューから [Load in Spark DataFrame] または [Load in BigQuery DataFrame] を選択します。新しいエディタにテーブルに関する情報が表示されます。

    ユニバーサル検索を使用してテーブルを見つけることもできます。テーブル ID をクリックして新しいエディタを開き、[データ] タブをクリックして、[Load in Spark DataFrame] または [Load in BigQuery DataFrame] を選択します。

ノートブックを初期化する

テーブルを読み込むと、エディタタブに新しい Jupyter ノートブックが開きます。このノートブックには、選択した DataFrame タイプでテーブルを読み込むために必要なコードが含まれています。

  1. 必要なライブラリが Python 仮想環境にインストールされていない場合は、pip install 行のコメントを解除します。

  2. [Select Kernel] をクリックして、Python カーネルを選択します。

    リモート カーネルを使用する Managed Spark ノートブックの場合は、リモート Spark カーネルを選択する必要があります。

  3. セルを実行するには、[▷ Run All] をクリックするか、セルの下部で Shift+Enter を押します。

  4. 不足しているソフトウェアのインストールを求めるメッセージが表示されたら、[インストール] をクリックします。

このセルは、選択したテーブルのデータを含む DataFrame を作成します。

DataFrame にデータ変換を適用する

ノートブックにセルを追加し、データを変換するコードを記述します。 BigQuery DataFrames の場合、BigQuery DataFrames が提供する pandas 互換の API を使用して DataFrame を変換できます

また、BigQuery DataFrames には、Jupyter ノートブックで SQL を使用して DataFrame を変換できるマジック コマンドが用意されています。SQL を使用してデータを変換する手順は次のとおりです。

  1. セルを作成して実行し、Jupyter マジックを有効にします。

    %load_ext bigframes

  2. %%bqsql マジックを使用して SQL セルを作成します。

結果を保存する

DataFrame タイプで提供される多くの出力メソッドのいずれかを使用して、変換されたデータを BigQuery または Cloud Storage に保存します。BigQuery DataFrames の出力メソッドは次のとおりです。

データが少ない場合は、Arrow または Pandas にエクスポートして、ローカルでさらに操作や可視化を行うことができます。

クリーンアップ

アカウントに課金されないようにするには、作成したリソースで不要になったものを削除します。 Google Cloud

次のステップ