Vertex AI の応用研究とエンジニアリングについて学ぶ

投機的デコーディングは LLM による推論を高速化しますが、従来の方法では非効率的なドラフトモデルが別に必要となります。Vertex AI は、内部レイヤに小さなドラフトヘッド(ターゲット モデルの 2~5%)を追加する EAGLE-3 を利用することで、トレーニングを簡素化し、デコーディング速度を約 2~3 倍向上させます。この投稿では、Vertex AI で SGLang を使用して EAGLE-3 のデータ クリーニング、エンベディング、トレーニング、サービングを大規模に行うためのパイプラインの概要を説明します。