AI モデルと ML モデルをトレーニングする

Visual Studio Code 用の Google Cloud Data Agent Kit 拡張機能で AI モデルと ML モデルをトレーニングする方法について説明します。

このクイックスタートでは、セッション テンプレートとサンプル Jupyter ノートブックを使用して、ニューヨーク市のタクシーのチップ代を予測します。PySpark を使用してリモート Jupyter カーネルを使用し、線形回帰、ランダム フォレスト、XGBoost などのさまざまなモデルを試します。このプロセスでは、分散トレーニングと推論を実行できます。Spark ML と XGBoost ライブラリを使用して、複数のマシンにまたがるスケーラビリティを示します。

このクイックスタートでは説明しませんが、Visual Studio Code 用の Google Cloud Data Agent Kit 拡張機能を使用して AI モデルと ML モデルをトレーニングする方法は複数あります。

  • トレーニング データセットが大きい場合や、Apache Spark が提供する分散トレーニング機能が必要な場合は、リモート カーネルで Spark ノートブックを使用できます。
  • データセットが BigQuery にあり、BigQuery ML がユースケースをサポートしている場合は、BigQuery DataFrames ノートブックを使用できます。
  • データセットが小さく、モデルをローカルでトレーニングする場合は、Python ノートブックを使用できます。

始める前に

始める前に、次のことを行います。

  1. 拡張機能をインストールします
  2. 拡張機能の設定を構成します
  3. データの検索と探索 のガイダンスを確認します

Spark ランタイム テンプレートを作成する

Serverless Spark ランタイム テンプレートを使用すると、指定された構成で Apache Spark セッションを開始できます。新しい Serverless ランタイム テンプレートを作成する手順は次のとおりです。

  1. IDE アクティビティ バーで、[Google Cloud Data Agent Kit] アイコンをクリックします。
  2. Google Cloud Data Agent Kit メニューで、[Apache Spark] を展開します。
  3. [Serverless] を展開し、[+ Create serverless runtimes] をクリックします。Serverless ランタイム作成フォームが表示されます。
  4. [表示名] フィールドに「ai-ml-tutorial」と入力します。
  5. [自動スケーリング] セクションに移動します。
  6. プルダウン リストで spark.dynamicAllocation.enabled を false に設定します。この設定は、XGBoost が Apache Spark と連携するために必要です。
  7. 他のフィールドはすべてデフォルトのままにします。
  8. [送信] をクリックします。

新しいノートブックを作成する

次に、新しい Spark ノートブックを作成します。

  1. Google Cloud Data Agent Kit タブの [Apache Spark] で、[+ New Spark Notebook] をクリックします。
  2. カーネルタイプとして [Remote Kernel] を選択します。
  3. [Start with a sample notebook] をクリックします。
  4. サンプルの一覧で、[Data Science with PySpark and Distributed XGBoost] を選択します。無題の Jupyter ノートブックが表示されます。

モデルのトレーニング

  1. ノートブック タブで [すべてを実行] をクリックします。カーネル ピッカーで、ノートブックを実行するカーネルを選択するように求められます。
  2. [Select Another Kernel] をクリックします。
  3. [Remote Spark Kernels] をクリックします。
  4. 先ほど作成したランタイム テンプレートである [ai-ml-tutorial on Serverless Spark] を選択します。

システムが Serverless Spark セッションを作成している間、Connecting to kernel: ai-ml-tutorial on Serverless Spark という通知が表示されます。ノートブックがリモート PySpark カーネルに接続すると、最初のセルから実行が開始されます。このプロセスには 2 ~ 3 分かかります。

Spark セッションを検査する

  1. Google Cloud Data Agent Kit タブの [Apache Spark] で、[ai-ml-tutorial] ランタイム テンプレートを展開します。IDE に、このランタイム テンプレートで作成したインタラクティブ セッションの一覧が表示されます。
  2. リストの上部にあるノートブックを実行してシステムが作成したセッションを見つけます。セッションをクリックして詳細を表示します。セッション構成と、ノートブックの実行に使用されたリソースを確認できます。

クリーンアップ

ノートブックが正常に実行されたら、次のクリーンアップ手順を行います。

  1. Google Cloud Data Agent Kit タブの [Apache Spark] で、[Serverless] を右クリックし、[List Serverless Runtimes] を選択します。Serverless ランタイムの一覧が表示されます。
  2. ai-ml-tutorial の [Action] メニューをクリックして、テンプレートからシステムが作成したインタラクティブ セッションをすべて一覧表示します。
  3. [Actions] で [Delete] をクリックします。
  4. Serverless ランタイム ウィンドウに戻ります。
  5. ai-ml-tutorial の [Actions] で [Delete] をクリックします。
  6. [Confirm] をクリックして、このチュートリアル用に作成したテンプレートを削除します。

次のステップ