Antigravity 用の Google Cloud Data Agent Kit 拡張機能で AI モデルと ML モデルをトレーニングする方法について説明します。
このクイックスタートでは、セッション テンプレートとサンプル Jupyter ノートブックを使用して、ニューヨーク市のタクシーのチップ額を予測します。PySpark でリモート Jupyter カーネルを使用して、線形回帰、ランダム フォレスト、XGBoost などのさまざまなモデルを試します。このプロセスでは、分散トレーニングと推論を実行できます。Spark ML と XGBoost ライブラリを使用して、複数のマシンにわたるスケーラビリティを示します。
このクイックスタートでは説明しませんが、Antigravity 用の Google Cloud Data Agent Kit 拡張機能を使用して AI モデルと ML モデルをトレーニングする方法は複数あります。
- トレーニング データセットが大きい場合や、Apache Spark が提供する分散トレーニング機能が必要な場合は、リモート カーネルで Spark ノートブックを使用できます。
- データセットが BigQuery にあり、BigQuery ML がユースケースをサポートしている場合は、BigQuery DataFrames ノートブックを使用できます。
- データセットが小さく、モデルをローカルでトレーニングする場合は、Python ノートブックを使用できます。
Spark ランタイム テンプレートを作成する
Serverless Spark ランタイム テンプレートを使用すると、指定された構成で Apache Spark セッションを開始できます。新しい Serverless ランタイム テンプレートを作成する手順は次のとおりです。
- IDE アクティビティ バーで、Google Cloud Data Agent Kit アイコンをクリックします。
- Google Cloud Data Agent Kit メニューで、[Apache Spark] を展開します。
- [Serverless] を展開し、[+ Create serverless runtimes] をクリックします。Serverless ランタイム作成フォームが表示されます。
- [表示名] フィールドに「
ai-ml-tutorial」と入力します。 - [Auto Scaling] セクションに移動します。
- プルダウン リストで
spark.dynamicAllocation.enabledを false に設定します。この設定は、XGBoost が Apache Spark と連携するために必要です。 - 他のフィールドはすべてデフォルトのままにします。
- [送信] をクリックします。
新しいノートブックを作成する
次に、新しい Spark ノートブックを作成します。
- Google Cloud Data Agent Kit タブの [Apache Spark] で、[+ New Spark Notebook] をクリックします。
- カーネルタイプとして [Remote Kernel] を選択します。
- [Start with a sample notebook] をクリックします。
- サンプルの一覧で、[Data Science with PySpark and Distributed XGBoost] を選択します。無題の Jupyter ノートブックが表示されます。
モデルのトレーニング
- ノートブック タブで、[すべてを実行] をクリックします。カーネル ピッカーで、ノートブックを実行するカーネルを選択するように求められます。
- [Select Another Kernel] をクリックします。
- [Remote Spark Kernels] をクリックします。
- 先ほど作成したランタイム テンプレートである [ai-ml-tutorial on Serverless Spark] を選択します。
システムが Serverless Spark セッションを作成している間、Connecting to kernel: ai-ml-tutorial on Serverless Spark という通知が表示されます。ノートブックがリモート PySpark カーネルに接続すると、最初のセルから実行が開始されます。このプロセスには 2 ~ 3 分かかります。
Spark セッションを検査する
- Google Cloud Data Agent Kit タブの [Apache Spark] で、[ai-ml-tutorial] ランタイム テンプレートを展開します。IDE に、このランタイム テンプレートで作成したインタラクティブ セッションの一覧が表示されます。
- リストの上部にあるノートブックを実行してシステムが作成したセッションを見つけます。セッションをクリックして詳細を表示します。セッション構成と、ノートブックの実行に使用されたリソースを確認できます。
クリーンアップ
ノートブックが正常に実行されたら、次のクリーンアップ手順を行います。
- Google Cloud Data Agent Kit タブの [Apache Spark] で、[Serverless] を右クリックし、[List Serverless Runtimes] を選択します。Serverless ランタイムの一覧が表示されます。
ai-ml-tutorialの [Action] メニューをクリックして、テンプレートからシステムが作成したインタラクティブ セッションをすべて一覧表示します。- [Actions] で [Delete] をクリックします。
- Serverless ランタイム ウィンドウに戻ります。
ai-ml-tutorialの [Actions] で [Delete] をクリックします。- [Confirm] をクリックして、このチュートリアル用に作成したテンプレートを削除します。