Saiba mais sobre a investigação aplicada e a engenharia no Vertex AI
Da investigação à produção: acelere o LLM de OSS com o EAGLE-3 no Vertex
A descodificação especulativa aumenta a inferência do MDI/CE, mas os métodos tradicionais requerem um modelo de rascunho separado e ineficiente. A Vertex AI usa o EAGLE-3, adicionando um pequeno cabeçalho de rascunho (2 a 5% do modelo de destino) às camadas internas, simplificando a preparação e alcançando uma aceleração da descodificação de ~2 a 3 vezes. Esta publicação descreve o nosso pipeline para limpeza de dados, incorporações, preparação e apresentação do EAGLE-3 com o SGLang no Vertex AI em grande escala.