Vertex AI の応用研究とエンジニアリングについて学習する

投機的デコードは LLM 推論を高速化しますが、従来の方法では非効率的な別のドラフト モデルが必要です。Vertex AI は EAGLE-3 を利用し、内部レイヤに小さなドラフト ヘッド(ターゲット モデルの 2 ~ 5%)を追加することで、トレーニングを簡素化し、デコード速度を約 2 ~ 3 倍に向上させています。この投稿では、Vertex AI で SGLang を使用して EAGLE-3 を大規模にクリーニング、エンベディング、トレーニング、サービングするためのパイプラインの概要について説明します。