Informationen zu angewandter Forschung und Entwicklung in Vertex AI
Von der Forschung bis zur Produktion: OSS-LLM mit EAGLE-3 auf Vertex beschleunigen
Die spekulative Dekodierung beschleunigt die LLM-Inferenz, aber herkömmliche Methoden erfordern ein separates, ineffizientes Draft-Modell. Vertex AI nutzt EAGLE-3 und fügt den internen Layern einen kleinen Draft-Head (2–5% des Zielmodells) hinzu, wodurch das Training vereinfacht und die Dekodierungsgeschwindigkeit um das 2- bis 3-Fache gesteigert wird. In diesem Beitrag wird unsere Pipeline für die Datenbereinigung, Einbettungen, das Training und die Bereitstellung von EAGLE-3 mit SGLang in Vertex AI im großen Maßstab beschrieben.