Saiba mais sobre pesquisa aplicada e engenharia na Vertex AI
Da pesquisa à produção: acelere o LLM de código aberto com o EAGLE-3 na Vertex
A decodificação especulativa aumenta a inferência de LLM, mas os métodos tradicionais exigem um modelo de rascunho separado e ineficiente. A Vertex AI usa o EAGLE-3, adicionando um pequeno cabeçalho de rascunho (2 a 5% do modelo de destino) às camadas internas, simplificando o treinamento e alcançando uma aceleração de decodificação de 2 a 3 vezes. Esta postagem descreve nosso pipeline para limpeza de dados, incorporações, treinamento e disponibilização do EAGLE-3 com SGLang na Vertex AI em grande escala.