Découvrez la recherche appliquée et l'ingénierie sur Vertex AI.

Le décodage spéculatif améliore l'inférence des LLM, mais les méthodes traditionnelles nécessitent un modèle brouillon distinct et inefficace. Vertex AI utilise EAGLE-3, en ajoutant une petite tête de brouillon (2 à 5 % du modèle cible) aux couches internes, ce qui simplifie l'entraînement et permet d'accélérer le décodage d'environ 2 à 3 fois. Cet article décrit notre pipeline de nettoyage des données, d'embeddings, d'entraînement et de diffusion d'EAGLE-3 avec SGLang sur Vertex AI à grande échelle.