Obtén información sobre la investigación y la ingeniería aplicadas en Vertex AI

La decodificación especulativa acelera la inferencia de los LLM, pero los métodos tradicionales requieren un modelo de borrador independiente e ineficiente. Vertex AI utiliza EAGLE-3, que agrega un pequeño encabezado de borrador (del 2% al 5% del modelo objetivo) a las capas internas, lo que simplifica el entrenamiento y logra una aceleración de la decodificación de entre 2 y 3 veces. En esta publicación, se describe nuestro proceso para la limpieza de datos, las incorporaciones, el entrenamiento y la entrega de EAGLE-3 con SGLang en Vertex AI a gran escala.