Vertex AI의 응용 연구 및 엔지니어링 알아보기

연구에서 프로덕션까지: Vertex에서 EAGLE-3로 OSS LLM 가속화

추측 디코딩은 LLM 추론을 향상시키지만, 기존의 방법에는 별도의 비효율적인 초안 모델이 필요합니다. Vertex AI는 EAGLE-3을 활용하여 내부 레이어에 작은 초안 헤드(타겟 모델의 2~5%)를 추가하여 학습을 간소화하고 디코딩 속도를 2~3배 높입니다. 이 게시물에서는 Vertex AI에서 SGLang을 사용하여 EAGLE-3를 대규모로 데이터 정리, 삽입, 학습, 제공하는 파이프라인을 간략하게 설명합니다.

자료 읽기