Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

データの変換

Visual Studio Code 用の Google Cloud Data Agent Kit 拡張機能を使用すると、ノートブックを使用してデータのクレンジング、特徴量エンジニアリング、詳細な分析を行うことができます。3 種類のノートブックから選択できます。

BigQuery DataFrames ノートブック 。これは Python ノートブックで、使い慣れた pandas API と scikit-learn API を使用して BigQuery で大規模なデータセットを処理できます。Python に加えて、BigQuery 用の GoogleSQL でコードを記述することもできます。
ローカルカーネルを使用したマネージド Apache Spark ノートブック 。これは Python ノートブックで、Spark Connect ライブラリを使用して Managed Service for Apache Spark でジョブを作成して実行できます。
リモートカーネルを使用したマネージド Apache Spark ノートブック 。これらのノートブックを使用すると、Managed Service for Apache Spark で完全に実行されるリモートカーネルでノートブックを実行できます。コードの一部がパソコンでローカルに実行されることはありません。PySpark に加えて、%%sparksql セルマジックを使用して Spark SQL でコードを記述できます。

始める前に

BigQuery ノートブックの場合、ノートブックを実行する Python 仮想環境に bigframes ライブラリをインストールする必要があります。新しいノートブックを作成すると、初期化セルに次の行がコメントアウトされて含まれます。

#%pip install --upgrade bigframes

pip install --upgrade bigquery-magics

BigQuery ノートブックの実行に必要な権限を取得するには、拡張機能で選択したプロジェクトに対するBigQuery Studio ユーザー（roles/bigquery.studioUser）ロールを付与するよう管理者に依頼してください。

Managed Service for Apache Spark ノートブックに必要な権限を取得するには、プロジェクトに対する次のロールを付与するよう管理者に依頼してください。

ロールの付与については、プロジェクト、フォルダ、組織へのアクセス権の管理をご覧ください。必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

BigLake テーブルまたは BigQuery テーブルのデータの場合、拡張機能にはノートブックテンプレートが用意されています。

BigQuery テーブルまたは BigLake テーブルに移動します。

Ctrl/Cmd-Shift-P を押してコマンドパレットを開きます。
カタログエクスプローラを開き、BigQuery または BigLake を見つけます。
テーブル ID を右クリックします。
フローティングメニューから [Load in Spark DataFrame] または [Load in BigQuery DataFrame] を選択します。新しいエディタにテーブルに関する情報が表示されます。

ユニバーサル検索を使用してテーブルを見つけることもできます。テーブル ID をクリックして新しいエディタを開き、[データ] タブをクリックして、[Load in Spark DataFrame] または [Load in BigQuery DataFrame] を選択します。

テーブルを読み込むと、エディタタブに新しい Jupyter ノートブックが開きます。このノートブックには、選択した DataFrame タイプでテーブルを読み込むために必要なコードが含まれています。

必要なライブラリが Python 仮想環境にインストールされていない場合は、pip install 行のコメントを解除します。
[Select Kernel] をクリックして、Python カーネルを選択します。

リモートカーネルを使用する Managed Spark ノートブックの場合は、リモート Spark カーネルを選択する必要があります。
セルを実行するには、[▷ Run All] をクリックするか、セルの下部で Shift+Enter を押します。
不足しているソフトウェアのインストールを求めるメッセージが表示されたら、[インストール] をクリックします。

このセルは、選択したテーブルのデータを含む DataFrame を作成します。

ノートブックにセルを追加し、データを変換するコードを記述します。 BigQuery DataFrames の場合、BigQuery DataFrames が提供する pandas 互換の API を使用して DataFrame を変換できます。

また、BigQuery DataFrames には、Jupyter ノートブックで SQL を使用して DataFrame を変換できるマジックコマンドが用意されています。SQL を使用してデータを変換する手順は次のとおりです。

DataFrame タイプで提供される多くの出力メソッドのいずれかを使用して、変換されたデータを BigQuery または Cloud Storage に保存します。BigQuery DataFrames の出力メソッドは次のとおりです。

データが少ない場合は、Arrow または Pandas にエクスポートして、ローカルでさらに操作や可視化を行うことができます。

アカウントに課金されないようにするには、作成したリソースで不要になったものを削除します。 Google Cloud