カスタムトレーニングの初心者向けガイド

この初心者向けガイドでは、Gemini Enterprise Agent Platform でのカスタムトレーニングの概要を説明します。カスタムトレーニングとは、TensorFlow、PyTorch、XGBoost などの ML フレームワークを使用してモデルをトレーニングすることを指します。

学習目標

Gemini Enterprise Agent Platform の経験レベル: 初心者

推定所要時間: 15 分

チュートリアルの内容

カスタムトレーニングにマネージドサービスを使用するメリット。
トレーニングコードをパッケージ化するためのベストプラクティス
トレーニングジョブの送信方法とモニタリング方法。

マネージドトレーニングサービスを使用する理由

新しい ML の問題に取り組んでいるとします。ノートブックを開き、データをインポートして、テストを実行します。このシナリオでは、選択した ML フレームワークでモデルを作成し、ノートブックのセルを実行してトレーニングループを実行します。トレーニングが完了したら、モデルの結果を評価して変更を加えた後、トレーニングを再実行します。このワークフローはテストでは便利ですが、ML で本番環境アプリケーションを構築することを考えると、ノートブックのセルを手動で実行することが最も便利な選択肢ではないことに気づくかもしれません。

たとえば、データセットとモデルが大きい場合は、分散トレーニングを試してみることをおすすめします。また、本番環境の設定では、モデルのトレーニングは 1 回だけ行えば良いということはあまりありません。時間をかけてモデルを再トレーニングすることで、モデルを最新の状態を保ち、価値のある結果を出し続けられるようにします。規模を拡大してテストを自動化したい場合や本番環境のアプリケーション用のモデルを再度トレーニングしたい場合は、マネージド ML トレーニングサービスを利用すると、ワークフローが簡素化されます。

このガイドでは、Gemini Enterprise Agent Platform でのカスタムモデルのトレーニングの概要を説明します。トレーニングサービスはフルマネージドであるため、Gemini Enterprise Agent Platform が自動的にコンピューティングリソースをプロビジョニングし、トレーニングタスクを実行して、トレーニングジョブが終了するとコンピューティングリソースを確実に削除します。なお、ここでは説明しきれないカスタマイズや機能、サービスとのインターフェース方法もあります。このガイドは、概要の説明を目的としています。詳細については、 Gemini Enterprise Agent Platform Training のドキュメントをご覧ください。

カスタムトレーニングの概要

Gemini Enterprise Agent Platform でのカスタムモデルのトレーニングは、次の標準的なワークフローに沿って行います。

トレーニングアプリケーションコードをパッケージ化する。
カスタムトレーニングジョブを構成して送信する。
カスタムトレーニングジョブをモニタリングする。

トレーニングアプリケーションコードのパッケージ化

Gemini Enterprise Agent Platform におけるカスタムトレーニングジョブの実行には、コンテナを使用します。コンテナとは、アプリケーションコード（この場合はトレーニングコード）を、コードの実行に必要な特定バージョンのライブラリなどの依存関係とともにパッケージ化したものです。コンテナは、依存関係の管理を容易にするだけでなく、ほぼどこでも実行できるため、移植性が高まります。ポータブルコンポーネントを作成するために、パラメータと依存関係を含むトレーニングコードをコンテナにパッケージ化することが、ML アプリケーションをプロトタイプから本番環境に移行する際の重要なステップです。

トレーニングアプリケーションは、カスタムトレーニングジョブを起動する前にパッケージ化する必要があります。この場合のトレーニングアプリケーションは、データの読み込み、データの前処理、モデルの定義、トレーニングループの実行などのタスクを実行する 1 つまたは複数のファイルを指します。Gemini Enterprise Agent Platform トレーニングサービスは、ユーザーが提供したコードを実行するため、トレーニングアプリケーションに含めるステップはすべてユーザーに任されています。

Gemini Enterprise Agent Platform には、 TensorFlow、PyTorch、XGBoost、scikit-learn 用のビルド済みコンテナが用意されています。これらのコンテナは定期的に更新され、トレーニングコードで必要になる共通ライブラリが含まれています。ユーザーは、これらのコンテナのいずれかを使用してトレーニングコードを実行するか、トレーニングコードと依存関係がプリインストールされたカスタムコンテナを作成するかを選択できます。

Gemini Enterprise Agent Platform におけるコードのパッケージ化には、次の 3 つの方法があります。

1 つの Python ファイルを送信する。
Python ソースディストリビューションを作成する。
カスタムコンテナを使用する。

Python ファイル

この方法は簡単なテストに適しています。この方法は、トレーニングアプリケーションの実行に必要なすべてのコードが 1 つの Python ファイルに含まれており、ビルド済みの Gemini Enterprise Agent Platform トレーニングコンテナのいずれかにアプリケーションの実行に必要なすべてのライブラリが含まれている場合に使用できます。トレーニングアプリケーションを 1 つの Python ファイルとしてパッケージ化する例については、ノートブックチュートリアルカスタムトレーニングとバッチ推論をご覧ください。

Python ソースディストリビューション

トレーニングアプリケーションを含む Python ソースディストリビューションを作成できます。トレーニングコードと依存関係を含むソースディストリビューションは、Cloud Storage バケットに保存します。トレーニングアプリケーションを Python ソースディストリビューションとしてパッケージ化する例については、ノートブックのチュートリアル PyTorch 分類モデルのトレーニング、チューニング、デプロイをご覧ください。

カスタムコンテナ

この方法は、アプリケーションをより詳細に制御したい場合や、Python で記述されていないコードを実行したい場合に有用です。この場合、Dockerfile を作成し、カスタムイメージをビルドして Artifact Registry に push する必要があります。トレーニングアプリケーションをコンテナ化する例については、ノートブックチュートリアルの Profiler を使用してモデルのトレーニングパフォーマンスをプロファイリングするをご覧ください。

推奨されるトレーニングアプリケーションの構造

コードを Python ソースディストリビューションやカスタムコンテナとしてパッケージ化する場合は、次のようにアプリケーションを構築することをおすすめします。

training-application-dir/
....setup.py
....Dockerfile
trainer/
....task.py
....model.py
....utils.py

すべてのトレーニングアプリケーションコードを保存するディレクトリ（この場合は training-application-dir）を作成します。このディレクトリには、Python ソースディストリビューションを使用している場合は setup.py ファイル、カスタムコンテナを使用している場合は Dockerfile を保存します。

どちらのシナリオでも、この上位ディレクトリにはサブディレクトリ trainer も含まれ、そこには、トレーニングを実行するためのすべてのコードが置かれています。trainer の中では、task.py がアプリケーションへのメインのエントリポイントです。このファイルがモデルのトレーニングを実行します。すべてのコードをこのファイルに含めることもできますが、本番環境のアプリケーションでは、model.py、data.py、utils.py などのファイルが加わる可能性があります。

カスタムトレーニングの実行

Gemini Enterprise Agent Platform のトレーニングジョブでは、コンピューティングリソースのプロビジョニング、トレーニングアプリケーションコードの実行、トレーニングジョブ終了後のコンピューティングリソースの削除が自動的に行われます。

より複雑なワークフローを構築するようになると、トレーニングジョブの構成、送信、モニタリングには Agent Platform SDK for Python を使用することになるでしょう。しかし、カスタムトレーニングジョブを初めて実行する場合は、コンソールを使用するほうが簡単です。 Google Cloud

Google Cloud コンソールで、[トレーニング] ページに移動します。

[トレーニング] に移動
[新しいモデルのトレーニング] をクリックします。
モデルの [トレーニング方法] で、[カスタムトレーニング（上級者向け）] を選択します。
[トレーニングコンテナ] セクションで、アプリケーションのパッケージ化方法に応じて、[ビルド済みのコンテナ] または [カスタムコンテナ] を選択します。
[コンピューティングと料金] で、トレーニングジョブのハードウェアを指定します。単一ノードトレーニングでは、Worker Pool 0 のみを構成する必要があります。分散トレーニングの実行に関心がある場合は、他のワーカープールについて理解する必要があります。詳細については、分散トレーニングをご覧ください。

推論コンテナの構成は任意です。Gemini Enterprise Agent Platform でモデルをトレーニングし、生成された保存済みモデルのアーティファクトにアクセスするだけであれば、この手順は省略できます。生成されたモデルを Gemini Enterprise Agent Platform マネージド推論サービスでホストしてデプロイする場合は、推論コンテナを構成する必要があります。詳細については、カスタムトレーニング済みモデルから推論を取得するをご覧ください。