Pelajari riset dan teknik terapan di Vertex AI

Dekode spekulatif meningkatkan inferensi LLM, tetapi metode tradisional memerlukan model draf yang terpisah dan tidak efisien. Vertex AI memanfaatkan EAGLE-3, dengan menambahkan draf kecil (2-5% dari model target) ke lapisan internal, menyederhanakan pelatihan, dan mencapai peningkatan kecepatan decoding ~2x-3x. Postingan ini menguraikan pipeline kami untuk pembersihan data, embedding, pelatihan, dan penayangan EAGLE-3 dengan SGLang di Vertex AI dalam skala besar.