Vertex AI의 응용 연구 및 엔지니어링 알아보기

추측 디코딩은 LLM 추론을 향상하지만 기존 방법에는 별도의 비효율적인 초안 모델이 필요합니다. Vertex AI는 EAGLE-3을 활용하여 내부 레이어에 작은 초안 헤드 (타겟 모델의 2~5%)를 추가하여 학습을 간소화하고 디코딩 속도를 2~3배 높입니다. 이 게시물에서는 Vertex AI에서 SGLang을 사용하여 EAGLE-3를 대규모로 데이터 정리, 임베딩, 학습, 제공하는 파이프라인을 간략하게 설명합니다.