了解 Vertex AI 上的应用研究和工程

推测解码可加速 LLM 推理,但传统方法需要一个单独且低效的草稿模型。Vertex AI 采用 EAGLE-3,在内部层添加一个小型的草稿头(仅为目标模型的 2-5%),从而简化了训练并实现了约 2 到 3 倍的解码速度提升。这篇博文概述了我们在 Vertex AI 上使用 SGLang 大规模部署 EAGLE-3 的流水线,涵盖数据清理、嵌入、训练和服务实现等环节。