瞭解 Vertex AI 的應用研究和工程

推測解碼可提升 LLM 推論效能,但傳統方法需要另外使用效率不彰的草稿模型。Vertex AI 採用 EAGLE-3,在內部層新增小型草稿頭 (目標模型的 2% 至 5%),簡化訓練程序,並將解碼速度提升約 2 至 3 倍。本文將說明我們的 pipeline,用於在 Vertex AI 上大規模使用 SGLang 清理資料、嵌入、訓練及提供 EAGLE-3 服務。