Scopri di più sulla ricerca e l'ingegneria applicate su Vertex AI

La decodifica speculativa migliora l'inferenza LLM, ma i metodi tradizionali richiedono un modello di bozza separato e inefficiente. Vertex AI utilizza EAGLE-3, aggiungendo una piccola bozza di intestazione (2-5% del modello di destinazione) ai livelli interni, semplificando l'addestramento e ottenendo una velocità di decodifica 2-3 volte superiore. Questo post descrive la nostra pipeline per la pulizia dei dati, gli incorporamenti, l'addestramento e la pubblicazione di EAGLE-3 con SGLang su Vertex AI su larga scala.