Découvrez la recherche appliquée et l'ingénierie sur Vertex AI.
De la recherche à la production : accélérez les LLM OSS avec EAGLE-3 sur Vertex
Le décodage spéculatif améliore l'inférence des LLM, mais les méthodes traditionnelles nécessitent un modèle brouillon distinct et inefficace. Vertex AI utilise EAGLE-3, en ajoutant une petite tête de brouillon (2 à 5 % du modèle cible) aux couches internes, ce qui simplifie l'entraînement et permet d'accélérer le décodage d'environ 2 à 3 fois. Cet article décrit notre pipeline de nettoyage des données, d'embeddings, d'entraînement et de diffusion d'EAGLE-3 avec SGLang sur Vertex AI à grande échelle.