Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AI モデルと ML モデルをトレーニングする

Antigravity IDE 用の Google Cloud Data Agent Kit 拡張機能で AI モデルと ML モデルをトレーニングする方法について説明します。

このクイックスタートでは、セッションテンプレートとサンプル Jupyter ノートブックを使用して、ニューヨーク市のタクシーのチップ額を予測します。PySpark でリモート Jupyter カーネルを使用して、線形回帰、ランダムフォレスト、XGBoost などのさまざまなモデルを試します。このプロセスでは、分散トレーニングと推論を実行できます。このチュートリアルでは、Spark ML と XGBoost ライブラリを使用して複数のマシンにわたってスケーラビリティを実現する方法を示します。

このクイックスタートでは説明しませんが、Antigravity IDE 用の Google Cloud Data Agent Kit 拡張機能を使用して AI モデルと ML モデルをトレーニングする方法は複数あります。

トレーニングデータセットが大きい場合や、Apache Spark が提供する分散トレーニング機能が必要な場合は、リモートカーネルで Spark ノートブックを使用できます。
データセットが BigQuery にあり、BigQuery ML がユースケースをサポートしている場合は、BigQuery DataFrames ノートブックを使用できます。
データセットが小さく、モデルをローカルでトレーニングする場合は、Python ノートブックを使用できます。

始める前に

始める前に、次のことを行います。

Spark ランタイムテンプレートを作成する

サーバーレス Spark ランタイムテンプレートを使用すると、指定された構成セットで Apache Spark セッションを開始できます。新しいサーバーレスランタイムテンプレートを作成する手順は次のとおりです。

IDE のアクティビティバーで、Google Cloud Data Agent Kit アイコンをクリックします。
Google Cloud Data Agent Kit メニューで、[Apache Spark] を開きます。
[サーバーレス] を展開し、[+ サーバーレスランタイムを作成] をクリックします。サーバーレスランタイムの作成フォームが表示されます。
[表示名] フィールドに「ai-ml-tutorial」と入力します。
[自動スケーリング] セクションに移動します。
プルダウンリストで spark.dynamicAllocation.enabled を false に設定します。この設定は、XGBoost が Apache Spark と連携するために必要です。
他のフィールドはすべてデフォルトのままにします。
[送信] をクリックします。

新しいノートブックを作成する

次に、新しい Spark ノートブックを作成します。

[Google Cloud Data Agent Kit] タブの [Apache Spark] で、[+ 新しい Spark ノートブック] をクリックします。
カーネルタイプとして [リモートカーネル] を選択します。
[サンプルノートブックから始める] をクリックします。
サンプルリストで、[Data Science with PySpark and Distributed XGBoost] を選択します。無題の Jupyter ノートブックが表示されます。

モデルのトレーニング

ノートブックのタブで、[すべて実行] をクリックします。カーネルピッカーで、ノートブックを実行するカーネルを選択するように求められます。
[Select Another Kernel] をクリックします。
[リモート Spark カーネル] をクリックします。
前に作成したランタイムテンプレートである [ai-ml-tutorial on Serverless Spark] を選択します。

システムがサーバーレス Spark セッションを作成している間、次の通知が表示されます。Connecting to kernel: ai-ml-tutorial on Serverless Sparkノートブックがリモート PySpark カーネルに接続すると、最初のセルから実行が開始されます。この処理には約 2 ～ 3 分かかります。

Spark セッションを検査する

[Google Cloud Data Agent Kit] タブの [Apache Spark] で、[ai-ml-tutorial] ランタイムテンプレートを開きます。IDE に、このランタイムテンプレートで作成したインタラクティブセッションのリストが表示されます。
リストの上部に表示されている、ノートブックを実行してシステムが作成したセッションを見つけます。セッションをクリックすると詳細が表示されます。セッション構成と、システムがノートブックの実行に使用したリソースを確認できます。

クリーンアップ

ノートブックが正常に実行されたら、次のクリーンアップ手順を行います。

[Google Cloud Data Agent Kit] タブの [Apache Spark] で、[Serverless] を右クリックし、[List Serverless Runtimes] を選択します。サーバーレスランタイムのリストが表示されます。
ai-ml-tutorial の [アクション] メニューをクリックして、システムがテンプレートから作成したすべてのインタラクティブセッションを一覧表示します。
[アクション] で、[削除] をクリックします。
[サーバーレスランタイム] ウィンドウに戻ります。
ai-ml-tutorial の [操作] で、[削除] をクリックします。
[確認] をクリックして、このチュートリアル用に作成したテンプレートを削除します。