Vertex AI の応用研究とエンジニアリングについて学ぶ

研究から本番環境へ: Vertex 上の EAGLE-3 で OSS LLM を加速させる

投機的デコーディングは LLM による推論を高速化しますが、従来の方法では非効率的なドラフトモデルが別に必要となります。Vertex AI は、内部レイヤに小さなドラフトヘッド（ターゲットモデルの 2～5%）を追加する EAGLE-3 を利用することで、トレーニングを簡素化し、デコーディング速度を約 2～3 倍向上させます。この投稿では、Vertex AI で SGLang を使用して EAGLE-3 のデータクリーニング、エンベディング、トレーニング、サービングを大規模に行うためのパイプラインの概要を説明します。

記事を読む