AI モデルと ML モデルをトレーニングする

Antigravity 用の Google Cloud Data Agent Kit 拡張機能で AI モデルと ML モデルをトレーニングする方法について説明します。

このクイックスタートでは、セッション テンプレートとサンプル Jupyter ノートブックを使用して、ニューヨーク市のタクシーのチップ額を予測します。PySpark でリモート Jupyter カーネルを使用して、線形回帰、ランダム フォレスト、XGBoost などのさまざまなモデルを試します。このプロセスでは、分散トレーニングと推論を実行できます。Spark ML と XGBoost ライブラリを使用して、複数のマシンにわたるスケーラビリティを示します。

このクイックスタートでは説明しませんが、Antigravity 用の Google Cloud Data Agent Kit 拡張機能を使用して AI モデルと ML モデルをトレーニングする方法は複数あります。

  • トレーニング データセットが大きい場合や、Apache Spark が提供する分散トレーニング機能が必要な場合は、リモート カーネルで Spark ノートブックを使用できます。
  • データセットが BigQuery にあり、BigQuery ML がユースケースをサポートしている場合は、BigQuery DataFrames ノートブックを使用できます。
  • データセットが小さく、モデルをローカルでトレーニングする場合は、Python ノートブックを使用できます。

Spark ランタイム テンプレートを作成する

Serverless Spark ランタイム テンプレートを使用すると、指定された構成で Apache Spark セッションを開始できます。新しい Serverless ランタイム テンプレートを作成する手順は次のとおりです。

  1. IDE アクティビティ バーで、Google Cloud Data Agent Kit アイコンをクリックします。
  2. Google Cloud Data Agent Kit メニューで、[Apache Spark] を展開します。
  3. [Serverless] を展開し、[+ Create serverless runtimes] をクリックします。Serverless ランタイム作成フォームが表示されます。
  4. [表示名] フィールドに「ai-ml-tutorial」と入力します。
  5. [Auto Scaling] セクションに移動します。
  6. プルダウン リストで spark.dynamicAllocation.enabled を false に設定します。この設定は、XGBoost が Apache Spark と連携するために必要です。
  7. 他のフィールドはすべてデフォルトのままにします。
  8. [送信] をクリックします。

新しいノートブックを作成する

次に、新しい Spark ノートブックを作成します。

  1. Google Cloud Data Agent Kit タブの [Apache Spark] で、[+ New Spark Notebook] をクリックします。
  2. カーネルタイプとして [Remote Kernel] を選択します。
  3. [Start with a sample notebook] をクリックします。
  4. サンプルの一覧で、[Data Science with PySpark and Distributed XGBoost] を選択します。無題の Jupyter ノートブックが表示されます。

モデルのトレーニング

  1. ノートブック タブで、[すべてを実行] をクリックします。カーネル ピッカーで、ノートブックを実行するカーネルを選択するように求められます。
  2. [Select Another Kernel] をクリックします。
  3. [Remote Spark Kernels] をクリックします。
  4. 先ほど作成したランタイム テンプレートである [ai-ml-tutorial on Serverless Spark] を選択します。

システムが Serverless Spark セッションを作成している間、Connecting to kernel: ai-ml-tutorial on Serverless Spark という通知が表示されます。ノートブックがリモート PySpark カーネルに接続すると、最初のセルから実行が開始されます。このプロセスには 2 ~ 3 分かかります。

Spark セッションを検査する

  1. Google Cloud Data Agent Kit タブの [Apache Spark] で、[ai-ml-tutorial] ランタイム テンプレートを展開します。IDE に、このランタイム テンプレートで作成したインタラクティブ セッションの一覧が表示されます。
  2. リストの上部にあるノートブックを実行してシステムが作成したセッションを見つけます。セッションをクリックして詳細を表示します。セッション構成と、ノートブックの実行に使用されたリソースを確認できます。

クリーンアップ

ノートブックが正常に実行されたら、次のクリーンアップ手順を行います。

  1. Google Cloud Data Agent Kit タブの [Apache Spark] で、[Serverless] を右クリックし、[List Serverless Runtimes] を選択します。Serverless ランタイムの一覧が表示されます。
  2. ai-ml-tutorial の [Action] メニューをクリックして、テンプレートからシステムが作成したインタラクティブ セッションをすべて一覧表示します。
  3. [Actions] で [Delete] をクリックします。
  4. Serverless ランタイム ウィンドウに戻ります。
  5. ai-ml-tutorial の [Actions] で [Delete] をクリックします。
  6. [Confirm] をクリックして、このチュートリアル用に作成したテンプレートを削除します。

次のステップ