Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Gemini Enterprise Agent Platform サーバーレストレーニングの概要

Gemini Enterprise Agent Platform では、大規模なモデルトレーニングの運用を可能にするマネージドトレーニングサービスを利用できます。Gemini Enterprise Agent Platform を使用すると、インフラストラクチャで、あらゆる ML フレームワークに基づくトレーニングアプリケーションを実行できます。Google Cloud Gemini Enterprise Agent Platform には、次の一般的な ML フレームワークについて、モデルのトレーニングと提供の準備プロセスを簡素化するサポートも統合されています。

このページでは、Gemini Enterprise Agent Platform でのサーバーレストレーニングのメリット、関連するワークフロー、利用可能なさまざまなトレーニングオプションについて説明します。

Gemini Enterprise Agent Platform は大規模なトレーニングを運用可能にする

モデルのトレーニングの運用にはさまざまな課題があります。課題としては、モデルのトレーニングに必要な時間と費用、コンピューティングインフラストラクチャの管理に必要なスキルの深さ、エンタープライズレベルのセキュリティを提供する必要性などがあります。Gemini Enterprise Agent Platform は、こうした課題に対処すると同時に、他にも多くのメリットをもたらします

フルマネージドのコンピューティングインフラストラクチャ

Gemini Enterprise Agent Platform でのモデルトレーニングは、物理インフラストラクチャの管理を必要としないフルマネージドサービスです。サーバーのプロビジョニングや管理を行うことなく ML モデルをトレーニングできます。お支払は、使用したコンピューティングリソース分だけです。Gemini Enterprise Agent Platform でもジョブのロギング、キューイング、モニタリングも行われます。

高パフォーマンス

Gemini Enterprise Agent Platform トレーニングジョブは ML モデルのトレーニング用に最適化されており、トレーニングアプリケーションを Google Kubernetes Engine（GKE）クラスタで直接実行するよりも高速なパフォーマンスを実現できます。また、Cloud Profiler を使用して、トレーニングジョブのパフォーマンスのボトルネックを特定しデバッグすることもできます。

分散トレーニング

Reduction Server は、Gemini Enterprise Agent Platform の all-reduce アルゴリズムであり、NVIDIA グラフィックプロセッシングユニット（GPU）上でのマルチノード分散トレーニングのスループットを向上させ、レイテンシを削減できます。この最適化により、大規模なトレーニングジョブを遂行する時間と費用を削減できます。

ハイパーパラメータの最適化

ハイパーパラメータチューニングジョブでは、さまざまなハイパーパラメータ値を使用して、トレーニングアプリケーションのトライアルを何度も実行します。テストする値の範囲を指定すると、 Gemini Enterprise Agent Platform はその範囲内でモデルに最適な値を検出します。

エンタープライズセキュリティ

Gemini Enterprise Agent Platform には、次のエンタープライズセキュリティ機能が用意されています。

ネットワークアクセスを制限する VPC ピアリング。
データの引き出しリスクを軽減する VPC Service Controls。
データ保護に関連する特定のコンプライアンス要件や規制要件を満たすことに役立つ顧客管理の暗号鍵。
サービスアカウントのアクセスを詳細に制御するための Identity and Access Management。
単一テナントプロジェクトの境界によるデータの分離。

ML オペレーション（MLOps）のインテグレーション

Gemini Enterprise Agent Platform には、統合された MLOps ツールと機能のスイートが用意されており、次の目的で使用できます。

エンドツーエンドの ML ワークフローをオーケストレートする。
特徴量エンジニアリングを実行する。
テストを実施する。
モデルの管理と反復処理を行う。
ML メタデータを追跡する。
モデルの品質をモニタリング、評価する。

サーバーレストレーニングのワークフロー

次の図では、Gemini Enterprise Agent Platform でのサーバーレストレーニングワークフローの概要を示します。以降のセクションでは、各ステップを詳しく説明します。

カスタムトレーニングのワークフロー

トレーニングデータの読み込みと準備

最適なパフォーマンスとサポートを実現するために、次のいずれかの Google Cloud サービスをデータソースとして使用します。

Cloud Storage
BigQuery
Google Cloud NetApp Volumes や Filestore などのサービスを使用して、NFS 共有 on Google Cloud などの高性能ファイルシステム。

これらのサービスの比較については、データ準備の概要をご覧ください。

トレーニングパイプラインを使用してモデルをトレーニングする場合は、データソースとして Gemini Enterprise Agent Platform マネージドデータセットを指定することもできます。同じデータセットを使用してカスタムモデルと AutoML モデルをトレーニングすると、2 つのモデルのパフォーマンスを比較できます。

トレーニングアプリケーションを準備する

Gemini Enterprise Agent Platform で使用するトレーニングアプリケーションを準備する手順は次のとおりです。

Gemini Enterprise Agent Platform のトレーニングコードのベストプラクティスを実装します。
使用するコンテナイメージのタイプを決定します。
選択したコンテナイメージのタイプに基づいて、トレーニングアプリケーションをサポートされている形式にパッケージ化します。

トレーニングコードのベストプラクティスを実装する

トレーニングアプリケーションでは、 Gemini Enterprise Agent Platform のトレーニングコードのベストプラクティスを実装する必要があります。これらのベストプラクティスは、トレーニングアプリケーションの以下の機能に関連します。

Google Cloud サービスへのアクセス。
入力データの読み込み。
テスト追跡の自動ロギングを有効にする。
モデルアーティファクトをエクスポートする。
Gemini Enterprise Agent Platform の環境変数を使用する。
VM の再起動に対する復元力を確保する。

コンテナタイプを選択する

Gemini Enterprise Agent Platform は、トレーニングアプリケーションを Docker コンテナイメージ内で実行します。 Docker コンテナイメージは、コードとすべての依存関係が組み込まれた自己完結型のソフトウェアパッケージで、ほぼすべてのコンピューティング環境で実行できます。使用するビルド済みのコンテナイメージの URI を指定するか、トレーニングアプリケーションと依存関係がプリインストールされているカスタムコンテナイメージを作成してアップロードします。

次の表では、ビルド済みコンテナイメージとカスタムコンテナイメージの違いを示します。

仕様	ビルド済みコンテナイメージ	カスタムコンテナイメージ
ML フレームワーク	各コンテナイメージは ML フレームワークに固有のものです。	任意の ML フレームワークを使用するか、何も使用しません。
ML フレームワークのバージョン	各コンテナイメージは ML フレームワークのバージョンに固有のものです。	マイナーバージョンやナイトリービルドなど、どの ML フレームワークバージョンでも使用できます。
アプリケーションの依存関係	ML フレームワークに共通の依存関係がプリインストールされています。トレーニングアプリケーションにインストールする追加の依存関係を指定できます。	トレーニングアプリケーションに必要な依存関係をプリインストールします。
アプリケーションの配信形式	Python ソースディストリビューション。単一の Python ファイル。	カスタムコンテナイメージにトレーニングアプリケーションをプリインストールします。
セットアップの手間	低	高
推奨する用途	ビルド済みのコンテナイメージがある ML フレームワークとフレームワークバージョンに基づく Python トレーニングアプリケーション。	より大きなカスタマイズとコントロール。 Python 以外のトレーニングアプリケーション。プライベートまたはカスタムの依存関係。ビルド済みのコンテナイメージがない ML フレームワークやフレームワークバージョンを使用するトレーニングアプリケーション。

トレーニングアプリケーションをパッケージ化する

使用するコンテナイメージのタイプを決定した後は、コンテナイメージのタイプに基づいてトレーニングアプリケーションを以下のいずれかの形式にパッケージ化します。

ビルド済みコンテナで使用する 1 つの Python ファイル

トレーニングアプリケーションを 1 つの Python ファイルとして記述し、 Agent Platform SDK for Python を使用して CustomJob クラスまたは CustomTrainingJob クラスを作成します。この Python ファイルは、Python ソースディストリビューションにパッケージ化され、ビルド済みのコンテナイメージにインストールされます。トレーニングアプリケーションを 1 つの Python ファイルとして提供することは、プロトタイピングに適しています。本番環境のトレーニングアプリケーションでは、トレーニングアプリケーションを複数のファイルに配置することになると予想されます。
ビルド済みコンテナで使用する Python ソースディストリビューション

トレーニングアプリケーションを 1 つ以上の Python ソースディストリビューションにパッケージ化し、 Cloud Storage バケットにアップロードします。Gemini Enterprise Agent Platform は、トレーニングジョブの作成時にソースディストリビューションをビルド済みコンテナイメージにインストールします。
カスタムコンテナイメージ

トレーニングアプリケーションと依存関係がプリインストールされた独自の Docker コンテナイメージを作成し、Artifact Registry にアップロードします。トレーニングアプリケーションが Python で記述されている場合は、1 つの Google Cloud CLI コマンドでこれらの手順を実施できます。

トレーニングジョブを構成

Gemini Enterprise Agent Platform トレーニングジョブは、次のタスクを実行します。

1 つ（単一ノードトレーニング）または複数（分散トレーニング）の仮想マシン（VM）をプロビジョニングします。
プロビジョニングされた VM でコンテナ化されたトレーニングアプリケーションを実行します。
トレーニングジョブの完了後に VM を削除します。

Gemini Enterprise Agent Platform には、トレーニングアプリケーションを実行するために 3 種類のトレーニングジョブが用意されています。

カスタムジョブ

カスタムジョブ（CustomJob）はトレーニングアプリケーションを実行します。ビルド済みのコンテナイメージを使用している場合、モデルアーティファクトは指定された Cloud Storage バケットに出力されます。カスタムコンテナイメージの場合、トレーニングアプリケーションは他の場所にモデルアーティファクトを出力することもできます。
ハイパーパラメータチューニングジョブ

ハイパーパラメータチューニングジョブ（HyperparameterTuningJob）は、最適なパフォーマンスのハイパーパラメータ値でモデルアーティファクトを生成するまで、さまざまなハイパーパラメータ値を使用して、トレーニングアプリケーションのトライアルを何度も実行します。テストするハイパーパラメータ値の範囲と最適化する指標を指定します。
トレーニングパイプライン

トレーニングパイプライン（CustomTrainingJob）は、カスタムジョブまたはハイパーパラメータチューニングジョブを実行し、必要に応じてモデルアーティファクトを Gemini Enterprise Agent Platform にエクスポートしてモデルリソースを作成します。データソースとして Gemini Enterprise Agent Platform マネージドデータセットを指定できます。

トレーニングジョブを作成するときに、トレーニングアプリケーションの実行に使用するコンピューティングリソースを指定し、コンテナ設定を構成します。

コンピューティングの構成

トレーニングジョブに使用するコンピューティングリソースを指定します。Gemini Enterprise Agent Platform は、トレーニングジョブが 1 つの VM で実行される単一ノードトレーニングと、トレーニングジョブが複数の VM で実行される分散トレーニングをサポートしています。

トレーニングジョブに指定できるコンピューティングリソースは次のとおりです。

VM マシンタイプ

マシンタイプによって、CPU、メモリサイズ、帯域幅が異なります。
グラフィックプロセッシングユニット（GPU）

A2 または N1 タイプの VM には、1 つ以上の GPU を追加できます。トレーニングアプリケーションが GPU を使用するように設計されている場合、GPU を追加すると、パフォーマンスが大幅に向上します。
Tensor Processing Unit（TPU）

TPU は、ML ワークロードの高速化を目的として設計されています。トレーニングに TPU VM を使用する場合は、ワーカープールを 1 つだけ指定できます。そのワーカープールは、レプリカを 1 つだけ持つことができます。
ブートディスク

ブートディスクには SSD（デフォルト）または HDD を使用できます。トレーニングアプリケーションがディスクの読み取りと書き込みを行う場合は、SSD を使用するとパフォーマンスを改善できます。トレーニングアプリケーションがディスクに書き込む一時データの量に基づいて、ブートディスクのサイズを指定することもできます。ブートディスクのサイズは、100 GiB（デフォルト）～64,000 GiB です。ワーカープール内の VM は、すべて同じ種類とサイズのブートディスクを使用しなければなりません。

コンテナの構成

ビルド済みのコンテナイメージを使用するか、カスタムコンテナイメージを使用するかによって、異なるコンテナ構成を作成する必要があります。

ビルド済みコンテナの構成:
- 使用するビルド済みコンテナイメージの URI を指定します。
- トレーニングアプリケーションが Python ソースディストリビューションとしてパッケージ化されている場合は、パッケージが置かれている Cloud Storage URI を指定します。
- トレーニングアプリケーションのエントリポイントモジュールを指定します。
- 省略可: トレーニングアプリケーションのエントリポイントモジュールに渡すコマンドライン引数のリストを指定します。
カスタムコンテナ構成:
- カスタムコンテナイメージの URI を指定します。Artifact Registry または Docker Hub の URI を使用できます。
- 省略可: コンテナイメージの ENTRYPOINT 手順または CMD 手順をオーバーライドします。

トレーニングジョブを作成する

データとトレーニングアプリケーションの準備ができたら、次のいずれかのトレーニングジョブを作成して、トレーニングアプリケーションを実行します。

トレーニングジョブの作成には、 Google Cloud コンソール、Google Cloud CLI、 Agent Platform SDK for Python、Agent Platform API のいずれかを使用できます。

（省略可）Gemini Enterprise Agent Platform にモデルアーティファクトをインポートする

トレーニングアプリケーションは、1 つ以上のモデルアーティファクトを指定の場所（通常は Cloud Storage バケット）に出力します。モデルアーティファクトから Gemini Enterprise Agent Platform で推論を取得する前に、まずモデルアーティファクトを Gemini Enterprise Agent Platform Model Registry にインポートします。

トレーニング用のコンテナイメージと同様、Gemini Enterprise Agent Platform では、推論にビルド済みコンテナイメージを使用するか、カスタムコンテナイメージを使用するかを選択できます。お使いの ML フレームワークとフレームワークバージョンで推論用のビルド済みコンテナイメージを利用できる場合は、ビルド済みコンテナイメージの使用をおすすめします。

次のステップ

モデルから推論を取得する。
モデルを評価する。
Hello サーバーレストレーニングチュートリアルを試して、TensorFlow Keras 画像分類モデルを Gemini Enterprise Agent Platform でトレーニングするための手順を確認する。

Gemini Enterprise Agent Platform サーバーレス トレーニングの概要 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

Gemini Enterprise Agent Platform は大規模なトレーニングを運用可能にする

フルマネージドのコンピューティング インフラストラクチャ

高パフォーマンス

分散トレーニング

ハイパーパラメータの最適化

エンタープライズ セキュリティ

ML オペレーション（MLOps）のインテグレーション

サーバーレス トレーニングのワークフロー

トレーニング データの読み込みと準備

トレーニング アプリケーションを準備する

トレーニング コードのベスト プラクティスを実装する