Consulta información sobre la investigación aplicada y la ingeniería en Vertex AI.
De la investigación a la producción: acelera los LLMs de OSS con EAGLE-3 en Vertex
La decodificación especulativa mejora la inferencia de los LLMs, pero los métodos tradicionales requieren un modelo de borrador independiente e ineficiente. Vertex AI utiliza EAGLE-3, que añade un pequeño borrador (entre el 2 y el 5% del modelo de destino) a las capas internas, lo que simplifica el entrenamiento y consigue una aceleración de la decodificación de entre 2 y 3 veces. En esta entrada se describe nuestro flujo de trabajo para limpiar datos, crear inserciones, entrenar y servir EAGLE-3 con SGLang en Vertex AI a gran escala.