研究から本番環境へ: Vertex 上の EAGLE-3 で OSS LLM を加速させる

2025 年 11 月 25 日

著者: Ivan Nardini、Charles Chen、Ying Wangキュレーター: Elisa Bandy

要約: 投機的デコーディングは LLM による推論を高速化しますが、従来の方法では非効率的なドラフトモデルが別に必要となります。Vertex AI は、内部レイヤに小さなドラフトヘッド（ターゲットモデルの 2～5%）を追加する EAGLE-3 を利用することで、トレーニングを簡素化し、デコーディング速度を約 2～3 倍向上させます。この投稿では、Vertex AI で SGLang を使用して EAGLE-3 のデータクリーニング、エンベディング、トレーニング、サービングを大規模に行うためのパイプラインの概要を説明します。

所要時間: 10 分

LLM を扱うユーザーにとって、一度に 1 つのトークンというボトルネックはよくある課題です。標準の自己回帰生成は本質的にシーケンシャルです。計算ではなく、すべてのステップでメモリから大量のモデルの重みを読み取るのに必要な時間で速度が制限される、従来のメモリバウンドプロセスが作成され、GPU コアの使用率が低下します。

この問題を解決するのが、投機的デコーディングです。この最適化手法では、ドラフトメカニズムを導入することで、大規模な LLM（ターゲットモデル）が一度に 1 つのトークンを生成する速度の遅いシーケンシャルプロセスを高速化します。

このドラフトメカニズムは、次の複数のトークンを一度に迅速に提案します。大規模なターゲットモデルがこれらの提案を単一の並列バッチで検証します。独自の予測から最長一致プレフィックスを受け入れ、その新しいポイントから生成を続行します。

ただし、すべてのドラフトメカニズムが同じように作成されるわけではありません。従来のドラフトターゲットアプローチでは、ドラフト作成者として別の小さな LLM モデルを使用します。つまり、より多くのサービングリソースをホストして管理する必要があるため、追加の費用が発生します。

ドラフトターゲットアプローチを使用した例を示すフローチャート。「San Francisco is」というプロンプトにより、次の 2 つのステップが実行されます。1. ドラフトモデルがトークン（a、city、in）のシーケンシャルチェーンを生成します。2. ターゲットモデルが、予想されるドラフトトークン（トークンは a、city、in で、in トークンはモデルによって拒否されます）を検証して選択します。それ以外の場合は、新しいトークン（トークンは a、city、known）を生成します。2 つのステップの結果が収束し、「San Francisco is a city known」という最終出力になります。

画像をクリックして拡大

ここで EAGLE-3（Extrapolative Attention Guided LEarning）が登場します。EAGLE-3 はより高度なアプローチです。別のモデル全体ではなく、非常に軽量なドラフトヘッド（ターゲットモデルのサイズの 2～5%）を内部レイヤに直接接続します。このヘッドは特徴レベルとトークンレベルの両方で動作し、ターゲットモデルの隠れ状態から特徴を取り込み、将来のトークンのツリーを外挿して予測します。

その結果、2 つ目のモデルのトレーニングと実行のオーバーヘッドを排除しながら、投機的デコーディングのすべてのメリットを実現します。

EAGLE-3 のアプローチは、数十億ものパラメータを持つ別のドラフトモデルをトレーニングして維持するという複雑でリソースを大量に消費するタスクよりもはるかに効率的です。既存のモデルの一部として追加される軽量のドラフトヘッド（ターゲットモデルサイズの 2～5%）のみをトレーニングします。このよりシンプルで効率的なトレーニングプロセスにより、Llama 70B などのモデルでデコードパフォーマンスが 2～3 倍向上します（マルチターン、コード、長いコンテキストなどのワークロードタイプによって異なります）。

EAGLE-3 アプローチの使用例を示すフローチャート。「San Francisco is」というプロンプトは、複数のレイヤを含む EAGLE-3 を使用したターゲットモデルに転送されます。エンベディングレイヤはデコーダーと隠しレイヤに流れ込み、次に EAGLE-3 ヘッドに流れ込みます。EAGLE-3 ヘッドレイヤは、エンベディングレイヤに直接戻る 2 つのトークンチェーン（a、city、in と a、city、known）に分割されます。検証済みのトークン a、city、known は、最終的な出力「San Francisco is a city known」に流れ込みます。

画像をクリックして拡大

しかし、この合理化された EAGLE-3 アプローチを論文レベルからスケーリングされたプロダクションレディなクラウドサービスに移行するには、エンジニアリング上の大きな課題があります。この投稿では、Google の技術パイプライン、主な課題、そしてその過程で得られた貴重な教訓を紹介します。

課題 1: データの準備

EAGLE-3 ヘッドをトレーニングする必要があります。まず、一般的な公開データセットを取得します。これらのデータセットのほとんどには、次のような課題があります。

厳格な利用規約: これらのデータセットは、元のプロバイダと競合するモデルの開発に使用できないモデルを使用して生成されます。
PII の汚染: これらのデータセットの一部には、名前、場所、財務識別子など、重要な PII が含まれています。
品質保証なし: 一部のデータセットは、一般的なデモのユースケースではうまく機能しますが、実際の顧客の特殊なワークロードでは最適に機能しません。

このデータをそのまま使用することはできません。

教訓 1: 合成データ生成パイプラインを構築する

解決策の 1 つは、合成データ生成パイプラインを構築することです。お客様のユースケースに応じて、品質だけでなく、さまざまなワークロードに対してお客様の本番環境トラフィックに最も適したデータセットを選択します。次に、これらのデータセットからユーザープロンプトのみを抽出し、厳格な DLP（データ損失防止）と PII フィルタリングを適用できます。これらのクリーンなプロンプトは、チャットテンプレートを適用してトークン化し、ターゲットモデル（Llama 3.3 70B）を使用してレスポンスを収集します。

このアプローチでは、準拠性とクリーンさを備えているだけでなく、モデルの実際の出力分布にうまく一致するターゲット生成データが提供されます。これは、ドラフトヘッドのトレーニングに最適です。

合成データ生成パイプラインを示す線形フローチャート。ユーザープロンプトは、クリーニングとフィルタリングが行われた元データから抽出されます。クリーンなプロンプトは、チャットテンプレートとトークナイザーを使用してトークン化されます。トークン化されたプロンプトは、ターゲットモデルと組み合わせてレスポンスを生成するために使用されます。ターゲットモデルは、生成されたレスポンストークンを返します。

画像をクリックして拡大

課題 2: トレーニングパイプラインのエンジニアリング

もう 1 つの重要な決定は、EAGLE-3 ヘッドにトレーニングデータを供給する方法です。2 つの異なるパスがあります。エンベディングが「オンザフライで生成」されるオンライントレーニングと、エンベディングが「トレーニング前に生成」されるオフライントレーニングです。

今回のケースでは、オンライントレーニングよりも必要なハードウェアがはるかに少ないため、オフライントレーニング アプローチを選択しました。このプロセスでは、EAGLE-3 ヘッドをトレーニングする前に、すべての特徴とエンベディングを事前に計算します。これらは GCS に保存され、軽量の EAGLE-3 ヘッドのトレーニングデータになります。データが揃えば、トレーニング自体は高速です。EAGLE-3 ヘッドはサイズが小さいため、元のデータセットを使用した初期トレーニングには、単一のホストで約 1 日かかりました。ただし、データセットをスケーリングするにつれて、トレーニング時間も増加し、現在では数日間に及んでいます。

トレーニングパイプラインを示す線形フローチャート。トークン化されたプロンプトと生成されたレスポンストークンを使用して、ターゲットモデルで特徴とエンベディングを生成します。これにより、トークンと特徴が返されます。これらのトークンと特徴は、Draft モデルで EAGLE ヘッドをトレーニングするために使用されます。トレーニングされた EAGLE ヘッドが返されます。

画像をクリックして拡大

このプロセスから、無視できない 2 つの教訓が得られました。

教訓 2: チャットテンプレートは必須

指示チューニングモデルのトレーニング中に、チャットテンプレートが正しくないと EAGLE-3 のパフォーマンスが大きく変動することがわかりました。ターゲットモデルの特定のチャットテンプレートLlama 3）を特徴とエンベディングを生成する前に、生のテキストを連結するだけでは、エンベディングが正しくなくなり、ヘッドが間違った分布を予測するように学習します。

教訓 3: マスクに注意

トレーニング中、モデルにはプロンプトとレスポンスの両方の表現が入力されます。ただし、EAGLE-3 ヘッドはレスポンス表現の予測のみを学習する必要があります。損失関数でプロンプト部分を手動でマスクする必要があります。そうしないと、ヘッドはすでに与えられたプロンプトを予測するための学習に容量を浪費し、パフォーマンスが低下します。

損失マスクの例を示す図。「San Francisco is a city known」というフレーズは、すでに認識されているトークン（San、Francisco、is）と、予測する必要があるトークン（a、city、known）の 2 つの部分に分割されます。損失マスクでは、すでに認識されているトークンは 0 で表され、予測する必要があるトークンは 1 で表されます。

画像をクリックして拡大

課題 3: サービングとスケーリング

トレーニング済みの EAGLE-3 ヘッドを使用して、サービングフェーズに進みました。このフェーズでは、スケーリングに関する大きな課題が見つかりました。主な教訓は次のとおりです。

教訓 4: サービングフレームワークが重要

SGLang チームと緊密に連携することで、EAGLE-3 を最高のパフォーマンスで本番環境に導入することに成功しました。技術的な理由は、SGLang が重要なツリーアテンションカーネルを実装しているためです。この特別なカーネルは、EAGLE-3 が可能性の「ドラフトツリー」（単なる単純なチェーンではない）を生成するため、非常に重要です。SGLang のカーネルは、これらの分岐パスをすべて 1 つのステップで並行して検証するように特別に設計されています。これがないと、パフォーマンスを最大限に引き出すことができません。

教訓 5: CPU が GPU のボトルネックにならないようにする

EAGLE-3 で LLM を高速化した後でも、別のパフォーマンスの壁に直面する可能性があります。それは CPU です。GPU で LLM 推論を実行する場合、最適化されていないソフトウェアは、カーネルの起動やメタデータの管理などの CPU オーバーヘッドに膨大な時間を費やします。通常の同期スケジューラでは、GPU がステップ（ドラフトなど）を実行し、CPU が予約処理を行い、次の検証ステップを開始する間、アイドル状態になります。これらの同期が積み重なり、貴重な GPU 時間が大量に無駄になります。

通常の同期スケジューラの例。各ステップとそのステップで費やされた時間: ドラフト（10 ミリ秒）、検証（15 ミリ秒）、拡張（10 ミリ秒）、CPU の同期（5 ミリ秒）、ドラフト（10 ミリ秒）、検証（15 ミリ秒）。同期 CPU ステップは、CPU オーバーヘッドに費やされた最適化されていない時間を示すために、異なる色でハイライト表示されます。

画像をクリックして拡大

この問題は、SGLang の Zero-Overhead Overlap Scheduler を使用することで解決しました。このスケジューラは、投機的デコーディングのマルチステップの「ドラフト -> 検証 -> ドラフト拡張」ワークフロー用に特別に調整されています。重要な点は、計算をオーバーラップさせることです。GPU が現在の検証ステップの実行でビジー状態になっている間、CPU はすでに並行して動作し、次のドラフトステップとドラフト拡張ステップのカーネルを起動しています。これは、GPU の次のジョブが常に準備されていることを保証することで、アイドルバブルを排除します。FutureMap は、GPU がまだ動作している間に CPU が次のバッチを準備できるスマートなデータ構造です。

ゼロオーバーヘッドオーバーラップスケジューラの例。ほとんどの手順と時間は前の画像と同じですが、同期 CPU のステップの代わりに、書き込みと読み取りのステップが同時に行われ、それぞれが 0.1 ミリ秒で完了することを示す小さなステップがあります。

画像をクリックして拡大

この CPU オーバーヘッドを排除することで、オーバーラップスケジューラは全体で 10～20% の高速化を実現します。これは、優れたモデルだけでは不十分であり、それに追いつくことができるランタイムが必要であることを証明しています。

ベンチマークの結果

この過程は十分な価値があったのでしょうか。もちろんあります。

トレーニング済みの EAGLE-3 ヘッドを、Llama 4 Scout 17B Instruct を使用した SGLang で非投機的ベースラインと比較しました。わたしたちのベンチマークでは、ワークロードのタイプに応じて、デコードレイテンシが 2～3 倍高速化し、スループットが大幅に向上しています。

包括的なノートブックを使用して、詳細を確認し、ご自身でベンチマークを実施してください。

指標 1: 出力トークンあたりの時間（TPOT）の中央値

出力トークンあたりの時間（TPOT）と同時実行性を示す折れ線グラフ。低いほど良い結果であることを示します。Y 軸は中央値の TPOT（ミリ秒単位）を表し、X 軸は最大同時実行数を表します。グラフには、ベースラインの結果と EAGLE の結果を表す 2 つの線が示されています。ベースラインの結果は、EAGLE の結果よりも常に高いスコアを示しています。どちらの線もグラフの左下隅付近から始まり、最大同時実行数の増加とともに右上がりの傾向を示しています。ベースラインの結果は、グラフの端に向かって急激に上昇しています。

画像をクリックして拡大

このグラフは、EAGLE-3 のレイテンシパフォーマンスが優れていることを示しています。出力トークンあたりの時間（TPOT）グラフは、テストされたすべての同時実行レベルで、EAGLE-3 アクセラレータモデル（緑色の線）がベースライン（青色の線）よりも常に低いレイテンシを実現していることを示しています。

指標 2: 出力スループット

トークンスループットと同時実行性を示す折れ線グラフ。値が大きいほど優れていることを示します。Y 軸は 1 秒あたりのトークン数でスループットを表し、X 軸は最大同時実行数を表します。グラフには、ベースラインの結果と EAGLE の結果を表す 2 つの線が示されています。EAGLE の結果は、ベースラインの結果よりも常に高いスコアを示しています。両方の線は左下隅から始まり、最大同時実行数が増加するにつれて上昇傾向にあります。EAGLE の結果は、ベースラインの結果よりもスムーズで大幅な上昇傾向にあります。

画像をクリックして拡大

このグラフは、EAGLE-3 のスループットの優位性をさらに示しています。トークンスループットと同時実行数のグラフを見ると、EAGLE-3 アクセラレータモデル（緑色の線）がベースラインモデル（青色の線）を常に大幅に上回っていることがわかります。

同様の観察結果は大規模なモデルにも当てはまりますが、他のパフォーマンス指標と比較して、最初のトークンまでの時間（TTFT）の増加が見られる可能性があることに注意してください。また、次の例に示すように、これらのパフォーマンスはタスクによって異なります。

Vertex AI を使用してトレーニングされたベースラインモデルと EAGLE-3 アクセラレートモデルのカテゴリ間の出力速度を比較した棒グラフ。すべてのカテゴリ（コード、チャット、長いコンテキスト、数学、多言語）で、EAGLE-3 モデルの出力速度はベースラインモデルよりも大幅に高くなっています。

画像をクリックして拡大

まとめ: 次は実践です

EAGLE-3 は単なる研究コンセプトではなく、デコードレイテンシを 2 倍に短縮できるプロダクションレディなパターンです。ただし、スケーリングを実現するには、エンジニアリングの努力が不可欠です。このテクノロジーをユーザーに確実にデプロイするには、次のことを行う必要があります。

コンプライアンスに準拠した合成データパイプラインを構築します。
チャットテンプレートと損失マスクを正しく処理し、大規模なデータセットでモデルをトレーニングします。

Vertex AI では、このプロセス全体がすでに合理化されており、LLM ベースのアプリケーションをスケーリングするように設計され、最適化されたコンテナとインフラストラクチャが提供されています。実際にやってみるには、以下のリソースをご覧ください。

最後までお読みいただきありがとうございました

Vertex AI に関するご意見やご質問をお待ちしております。

Ivan Nardini: LinkedIn、X
Charles Chen: LinkedIn
Ying Wang: LinkedIn
Harrison Lim: LinkedIn

謝辞

本プロジェクトを通じて貴重なサポートを提供してくれた SGLang チーム（Ying Sheng、Lianmin Zheng、Yineng Zhang、Xinyuan Tong、Liangsheng Yin）と SGLang/SpecForge チーム（Shenggui Li、Yikai Zhu）に心から感謝いたします。これらのチームの寛大な支援と深い技術的洞察は、このプロジェクトの成功に不可欠でした。

研究から本番環境へ: Vertex 上の EAGLE-3 で OSS LLM を加速させる コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

課題 1: データの準備

教訓 1: 合成データ生成パイプラインを構築する

課題 2: トレーニング パイプラインのエンジニアリング

教訓 2: チャット テンプレートは必須

教訓 3: マスクに注意

課題 3: サービングとスケーリング

教訓 4: サービング フレームワークが重要

教訓 5: CPU が GPU のボトルネックにならないようにする

ベンチマークの結果

指標 1: 出力トークンあたりの時間（TPOT）の中央値

指標 2: 出力スループット

まとめ: 次は実践です

最後までお読みいただきありがとうございました

謝辞

研究から本番環境へ: Vertex 上の EAGLE-3 で OSS LLM を加速させる

課題 2: トレーニングパイプラインのエンジニアリング

教訓 2: チャットテンプレートは必須

教訓 4: サービングフレームワークが重要