Saiba mais sobre pesquisa aplicada e engenharia na Vertex AI

A decodificação especulativa aumenta a inferência de LLM, mas os métodos tradicionais exigem um modelo de rascunho separado e ineficiente. A Vertex AI usa o EAGLE-3, adicionando um pequeno cabeçalho de rascunho (2 a 5% do modelo de destino) às camadas internas, simplificando o treinamento e alcançando uma aceleração de decodificação de 2 a 3 vezes. Esta postagem descreve nosso pipeline para limpeza de dados, incorporações, treinamento e disponibilização do EAGLE-3 com SGLang na Vertex AI em grande escala.