Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

AI モデルと ML モデルをトレーニングする

Visual Studio Code 用の Google Cloud Data Agent Kit 拡張機能で AI モデルと ML モデルをトレーニングする方法について説明します。

このクイックスタートでは、セッションテンプレートとサンプル Jupyter ノートブックを使用して、ニューヨーク市のタクシーのチップ代を予測します。PySpark を使用してリモート Jupyter カーネルを使用し、線形回帰、ランダムフォレスト、XGBoost などのさまざまなモデルを試します。このプロセスでは、分散トレーニングと推論を実行できます。Spark ML と XGBoost ライブラリを使用して、複数のマシンにまたがるスケーラビリティを示します。

このクイックスタートでは説明しませんが、Visual Studio Code 用の Google Cloud Data Agent Kit 拡張機能を使用して AI モデルと ML モデルをトレーニングする方法は複数あります。

トレーニングデータセットが大きい場合や、Apache Spark が提供する分散トレーニング機能が必要な場合は、リモートカーネルで Spark ノートブックを使用できます。
データセットが BigQuery にあり、BigQuery ML がユースケースをサポートしている場合は、BigQuery DataFrames ノートブックを使用できます。
データセットが小さく、モデルをローカルでトレーニングする場合は、Python ノートブックを使用できます。

始める前に

始める前に、次のことを行います。

Spark ランタイムテンプレートを作成する

Serverless Spark ランタイムテンプレートを使用すると、指定された構成で Apache Spark セッションを開始できます。新しい Serverless ランタイムテンプレートを作成する手順は次のとおりです。

IDE アクティビティバーで、[Google Cloud Data Agent Kit] アイコンをクリックします。
Google Cloud Data Agent Kit メニューで、[Apache Spark] を展開します。
[Serverless] を展開し、[+ Create serverless runtimes] をクリックします。Serverless ランタイム作成フォームが表示されます。
[表示名] フィールドに「ai-ml-tutorial」と入力します。
[自動スケーリング] セクションに移動します。
プルダウンリストで spark.dynamicAllocation.enabled を false に設定します。この設定は、XGBoost が Apache Spark と連携するために必要です。
他のフィールドはすべてデフォルトのままにします。
[送信] をクリックします。

新しいノートブックを作成する

次に、新しい Spark ノートブックを作成します。

Google Cloud Data Agent Kit タブの [Apache Spark] で、[+ New Spark Notebook] をクリックします。
カーネルタイプとして [Remote Kernel] を選択します。
[Start with a sample notebook] をクリックします。
サンプルの一覧で、[Data Science with PySpark and Distributed XGBoost] を選択します。無題の Jupyter ノートブックが表示されます。

モデルのトレーニング

ノートブックタブで [すべてを実行] をクリックします。カーネルピッカーで、ノートブックを実行するカーネルを選択するように求められます。
[Select Another Kernel] をクリックします。
[Remote Spark Kernels] をクリックします。
先ほど作成したランタイムテンプレートである [ai-ml-tutorial on Serverless Spark] を選択します。

システムが Serverless Spark セッションを作成している間、Connecting to kernel: ai-ml-tutorial on Serverless Spark という通知が表示されます。ノートブックがリモート PySpark カーネルに接続すると、最初のセルから実行が開始されます。このプロセスには 2 ～ 3 分かかります。

Spark セッションを検査する

Google Cloud Data Agent Kit タブの [Apache Spark] で、[ai-ml-tutorial] ランタイムテンプレートを展開します。IDE に、このランタイムテンプレートで作成したインタラクティブセッションの一覧が表示されます。
リストの上部にあるノートブックを実行してシステムが作成したセッションを見つけます。セッションをクリックして詳細を表示します。セッション構成と、ノートブックの実行に使用されたリソースを確認できます。

クリーンアップ

ノートブックが正常に実行されたら、次のクリーンアップ手順を行います。

Google Cloud Data Agent Kit タブの [Apache Spark] で、[Serverless] を右クリックし、[List Serverless Runtimes] を選択します。Serverless ランタイムの一覧が表示されます。
ai-ml-tutorial の [Action] メニューをクリックして、テンプレートからシステムが作成したインタラクティブセッションをすべて一覧表示します。
[Actions] で [Delete] をクリックします。
Serverless ランタイムウィンドウに戻ります。
ai-ml-tutorial の [Actions] で [Delete] をクリックします。
[Confirm] をクリックして、このチュートリアル用に作成したテンプレートを削除します。