Google Cloud Well-Architected Framework のサステナビリティの柱におけるこの原則では、AI ワークロードと ML ワークロードを最適化してエネルギー使用量と温室効果ガス排出量を削減するための推奨事項が示されています。
原則の概要
持続可能性のために AI / ML ワークロードを最適化するには、ワークロードの設計、デプロイ、運用に包括的なアプローチを採用する必要があります。適切なモデルと Tensor Processing Unit(TPU)などの専用ハードウェアを選択し、低炭素リージョンでワークロードを実行し、リソース使用量を削減するように最適化し、運用のベスト プラクティスを適用します。
AI ワークロードと ML ワークロードの費用とパフォーマンスを最適化するアーキテクチャと運用のプラクティスは、エネルギー消費量の削減とカーボン フットプリントの削減につながります。Well-Architected Framework の AI と ML の視点では、運用、セキュリティ、信頼性、費用、パフォーマンスの目標を満たす AI ワークロードと ML ワークロードを設計、構築、管理するための原則と推奨事項について説明します。また、Cloud アーキテクチャ センターでは、 Google Cloudの AI ワークロードと ML ワークロードの詳細なリファレンス アーキテクチャと設計ガイドを提供しています。
推奨事項
AI / ML ワークロードのエネルギー効率を最適化するには、次のセクションの推奨事項を検討してください。
TPU を使用してエネルギー効率を重視したアーキテクチャを設計する
AI / ML ワークロードは計算負荷が高くなる可能性があります。AI ワークロードと ML ワークロードによるエネルギー消費は、持続可能性を考えるうえで重要な要素です。TPU を使用すると、AI ワークロードと ML ワークロードのエネルギー効率と持続可能性を大幅に向上させることができます。
TPU は、AI ワークロードと ML ワークロード専用に構築されたカスタム設計のアクセラレータです。TPU の特殊なアーキテクチャにより、ディープ ラーニングの基盤となる大規模な行列乗算に非常に効果的です。TPU は、CPU や GPU などの汎用プロセッサよりも効率的に複雑なタスクを大規模に実行できます。
TPU には、持続可能性に直接的なメリットがあります。
- エネルギー消費量の削減: TPU は、エネルギー効率を最適化するように設計されています。消費電力あたりの計算量が増えます。この専用アーキテクチャにより、大規模なトレーニング タスクと推論タスクの電力需要が大幅に削減され、運用コストの削減とエネルギー消費量の削減につながります。
- トレーニングと推論の高速化: TPU の優れたパフォーマンスにより、複雑な AI モデルを数日ではなく数時間でトレーニングできます。コンピューティング時間の合計が大幅に削減されるため、環境フットプリントの削減に直接貢献します。
- 冷却の必要性の低減: TPU には高度な液体冷却が組み込まれており、効率的な熱管理を実現し、データセンターの冷却に使用されるエネルギーを大幅に削減します。
- AI ライフサイクルの最適化: ハードウェアとソフトウェアを統合することで、TPU はデータ処理からモデル サービングまで、AI ライフサイクル全体にわたって最適化されたソリューションを提供します。
リソース選択に関する 4M のベスト プラクティスに従う
Google は、AI と ML のワークロードのエネルギー使用量と炭素排出量を大幅に削減するためのベスト プラクティスを推奨しています。これらのベスト プラクティスを 4Ms と呼びます。
- モデル: 効率的な ML モデル アーキテクチャを選択します。たとえば、スパースモデルは、密モデルと比較して ML の品質を向上させ、コンピューティングを 3 ~ 10 倍削減します。
- マシン: ML トレーニング用に最適化されたプロセッサとシステムを選択します。これらのプロセッサは、汎用プロセッサと比較して、パフォーマンスとエネルギー効率が 2 ~ 5 倍向上します。
- 自動化: コンピューティング負荷の高いワークロードをクラウドにデプロイします。ワークロードのエネルギー使用量が減り、オンプレミス環境と比較して排出量が 1.4 ~ 2 倍削減されます。クラウド データセンターでは、エネルギー効率を重視して構築された新しいカスタム設計の倉庫が使用されており、電力使用効率(PUE)の比率が高くなっています。オンプレミスのデータセンターは古く、規模が小さいことが多いため、エネルギー効率の高い冷却システムや電力分配システムへの投資が経済的でないことがあります。
- Map(マッピング): 最もクリーンなエネルギーを使用する Google Cloud ロケーションを選択します。このアプローチにより、ワークロードの総二酸化炭素排出量を 5 ~ 10 倍削減できます。詳細については、 Google Cloud リージョンにおけるカーボンフリー エネルギーの利用状況をご覧ください。
4Ms のベスト プラクティスと効率指標の詳細については、次のリサーチ ペーパーをご覧ください。
- 機械学習トレーニングのカーボン フットプリントは、横ばいになった後、縮小する
- The data denter as a computer: An introduction to the design of warehouse-scale machines, second edition
トレーニングと推論用に AI モデルとアルゴリズムを最適化する
AI モデルのアーキテクチャと、トレーニングと推論に使用されるアルゴリズムは、エネルギー消費に大きな影響を与えます。以下の推奨事項を検討してください。
効率的な AI モデルを選択する
パフォーマンス要件を満たす、より小規模で効率的な AI モデルを選択します。使用可能な最大のモデルをデフォルトの選択肢として選択しないでください。たとえば、DistilBERT などの小規模な蒸留モデル バージョンは、BERT などの大規模なモデルよりも、コンピューティングのオーバーヘッドを大幅に削減し、推論を高速化しながら、同等のパフォーマンスを実現できます。
ドメイン固有の超効率的なソリューションを使用する
パフォーマンスが向上し、大規模な基盤モデルよりも大幅に少ないコンピューティング能力で済む、特殊な ML ソリューションを選択します。これらの特殊なソリューションは、多くの場合、事前トレーニングとハイパー最適化が行われています。トレーニング ワークロードと推論ワークロードの両方で、エネルギー消費量と研究開発の労力を大幅に削減できます。ドメイン固有の特殊なソリューションの例を次に示します。
- Earth AI は、大量のグローバルな地理空間データを合成して、タイムリーで正確な、実用的な分析情報を提供するエネルギー効率の高いソリューションです。
- WeatherNext は、従来の物理ベースの方法と比較して、より高速で効率的かつ高精度の世界天気予報を生成します。
適切なモデル圧縮手法を適用する
モデル圧縮に使用できる手法の例を次に示します。
- プルーニング: ニューラル ネットワークから不要なパラメータを削除します。これらは、モデルのパフォーマンスに大きく影響しないパラメータです。この手法により、モデルのサイズと推論に必要なコンピューティング リソースが削減されます。
- 量子化: モデル パラメータの精度を下げます。たとえば、精度を 32 ビット浮動小数点数から 8 ビット整数に下げます。この手法により、精度を大幅に低下させることなく、メモリ フットプリントと消費電力を大幅に削減できます。
- 知識蒸留: 大規模で複雑な教師モデルの動作を模倣するように、小規模な生徒モデルをトレーニングします。生徒モデルは、パラメータの数を減らし、エネルギー消費量を抑えながら、高いパフォーマンスを実現できます。
専用のハードウェアを使用する
リソース選択の 4M ベスト プラクティスに従うで説明したように、ML トレーニング用に最適化されたプロセッサとシステムを選択します。これらのプロセッサは、汎用プロセッサと比較して、パフォーマンスとエネルギー効率が 2 ~ 5 倍向上します。
パラメータ エフィシエント ファインチューニングを使用する
モデルの数十億ものパラメータすべてを調整する(フル ファインチューニング)のではなく、Low-Rank Adaptation(LoRA)などのパラメータ エフィシエント ファインチューニング(PEFT)手法を使用します。この手法では、元のモデルの重みを固定し、少数の新しい軽量レイヤのみをトレーニングします。このアプローチは、コストとエネルギー消費量の削減に役立ちます。
AI と ML の運用に関するベスト プラクティスに従う
運用方法が AI / ML ワークロードの持続可能性に大きな影響を与えます。以下の推奨事項を参考にしてください。
モデルのトレーニング プロセスを最適化する
モデル トレーニング プロセスを最適化するには、次の手法を使用します。
- 早期停止: トレーニング プロセスをモニタリングし、検証セットに対するモデルのパフォーマンスの改善がこれ以上見られない場合に停止します。この手法は、不要な計算やエネルギー消費を防ぐのに役立ちます。
- 効率的なデータ読み込み: 効率的なデータ パイプラインを使用して、GPU と TPU が常に使用され、データを待機しないようにします。この手法は、リソース使用率を最大化し、エネルギーの無駄を削減するのに役立ちます。
- 最適化されたハイパーパラメータ調整: 最適なハイパーパラメータをより効率的に見つけるには、ベイズ最適化や強化学習などの手法を使用します。リソースを大量に消費する可能性がある徹底的なグリッド検索は避けてください。
推論の効率を向上させる
AI 推論タスクの効率を高めるには、次の手法を使用します。
- バッチ処理: 複数の推論リクエストをバッチにグループ化し、GPU と TPU での並列処理を活用します。この手法は、予測あたりのエネルギー コストを削減するのに役立ちます。
- 高度なキャッシュ保存: 自己回帰生成用の Key-Value(KV)キャッシュ保存とアプリケーション レスポンス用のセマンティック プロンプト キャッシュ保存を含む、多層キャッシュ保存戦略を実装します。この手法は、冗長なモデル計算を回避するのに役立ち、エネルギー使用量と炭素排出量を大幅に削減できます。
測定とモニタリング
次のパラメータをモニタリングして測定します。
- 使用量と費用: 適切なツールを使用して、AI ワークロードのトークン使用量、エネルギー消費量、カーボン フットプリントを追跡します。このデータは、最適化の機会を特定し、持続可能性の目標に向けた進捗状況を報告するのに役立ちます。
- パフォーマンス: 本番環境でモデルのパフォーマンスを継続的にモニタリングします。データドリフトなどの問題を特定します。これは、モデルを再度ファインチューニングする必要があることを示している可能性があります。モデルを再トレーニングする必要がある場合は、元のファインチューニング済みモデルを出発点として使用することで、更新にかかる時間、費用、エネルギーを大幅に節約できます。
- パフォーマンス指標を追跡するには、Cloud Monitoring を使用します。
- モデルの変更とパフォーマンス指標の改善を関連付けるには、イベント アノテーションを使用します。
継続的改善の運用化の詳細については、持続可能性を継続的に測定して改善するをご覧ください。
カーボン アウェア スケジューリングを実装する
最もクリーンなエネルギー ミックスのリージョンで実行するように ML パイプライン ジョブを設計します。Carbon Footprint レポートを使用して、炭素集約度が最も低いリージョンを特定します。ローカル電力網のカーボンフリー エネルギー(CFE)の割合が高い期間に、リソースを大量に消費するタスクをバッチジョブとしてスケジュールします。
データ パイプラインの最適化
ML オペレーションとファインチューニングには、クリーンで高品質なデータセットが必要です。ML ジョブを開始する前に、マネージド データ処理サービスを使用してデータを効率的に準備します。たとえば、ストリーミング処理とバッチ処理には Dataflow を使用し、マネージド Spark パイプラインと Hadoop パイプラインには Dataproc を使用します。最適化されたデータ パイプラインにより、ファインチューニング ワークロードがデータを待機しないようにします。これにより、リソース使用率を最大化し、エネルギーの無駄を削減できます。
MLOps を導入する
ML ライフサイクル全体を自動化して管理するには、ML オペレーション(MLOps)プラクティスを実装します。これらの手法により、モデルが継続的にモニタリング、検証、効率的に再デプロイされるため、不要なトレーニングやリソース割り当てを防ぐことができます。
マネージド サービスを使用する
独自のインフラストラクチャを管理するのではなく、Vertex AI などのマネージド クラウド サービスを使用します。クラウド プラットフォームは基盤となるリソース管理を処理するため、ユーザーはファインチューニング プロセスに集中できます。ハイパーパラメータ チューニング、モデル モニタリング、リソース管理用のツールが組み込まれたサービスを使用します。
次のステップ
- Google AI によるエネルギーの使用量を算出
- Ironwood: 推論の時代に向けた最初の Google TPU
- Google サステナビリティ 2025 年環境報告書
- GLaM による効率的なインコンテキスト学習
- コンテキスト キャッシュ保存の概要