자체 배포 Llama 모델

Llama는 Vertex AI에서 미세 조정하고 배포할 수 있는 Meta에서 개발한 개방형 모델 컬렉션입니다. Llama는 선행 학습되고 명령이 조정된 생성형 텍스트 및 멀티모달 모델을 제공합니다.

Llama 4

Llama 4 모델 제품군은 전문가 혼합(MoE) 아키텍처를 사용하는 멀티모달 모델 컬렉션입니다. MoE 아키텍처를 사용하면 매우 많은 파라미터가 있는 모델에서 주어진 입력에 이러한 파라미터의 하위 집합을 활성화할 수 있으므로 더 효율적으로 추론이 수행됩니다. 또한 Llama 4는 초기 처리 단계에서 텍스트와 비전 정보를 통합하는 초기 융합을 사용합니다. 이 방법을 사용하면 Llama 4 모델에서 텍스트와 이미지 간의 복잡하고 미묘한 관계를 더 효과적으로 파악할 수 있습니다. Vertex AI의 Model Garden에서는 Llama 4 Scout 및 Llama 4 Maverick 등 두 가지 Llama 4 모델을 제공합니다.

자세한 내용은 Model Garden의 Llama 4 모델 카드를 참조하거나 Vertex AI의 Llama 4 소개 블로그 게시물을 보세요.

Llama 4 Maverick

Llama 4 Maverick은 가장 크고 기능이 뛰어난 Llama 4 모델로, 코딩, 추론, 이미지 벤치마크에서 업계 최고 수준의 기능을 제공합니다. 총 파라미터 4,000억 개 중 활성 파라미터 170억 개와 전문가 128개가 있습니다. Llama 4 Maverick은 촘촘한 레이어와 MoE 레이어를 교대로 사용합니다. 여기서 각 토큰은 공유 전문가와 라우팅된 전문가 128개 중 하나를 활성화합니다. 이 모델을 FP8이 지원되는 사전 학습(PT) 모델 또는 명령 조정(IT) 모델로 사용할 수 있습니다. 이 모델은 언어 200개로 사전 학습되고 미세 조정된 학습 후 파이프라인을 통해 고품질 채팅 상호작용에 최적화됩니다.

Llama 4 Maverick은 멀티모달이며 컨텍스트 길이는 1백만입니다. 고급 이미지 캡셔닝, 분석, 정확한 이미지 이해, 시각적 Q&A, 창의적인 텍스트 생성, 범용 AI 어시스턴트, 최고 수준의 지능과 이미지 이해가 필요한 정교한 챗봇에 적합합니다.

Llama 4 Scout

Llama 4 Scout은 대형 토큰 1,000만개 컨텍스트 윈도우를 통해 최신 크기 클래스 결과를 제공하며 여러 벤치마크에서 이전 Llama 세대 모델, 기타 개방형 모델, 독점 모델보다 우수한 성능을 제공합니다. 총 파라미터 1,090억 개 중 활성 파라미터 170억 개와 전문가 16개가 있으며, 사전 학습(PT) 또는 명령 조정(IT) 모델로 제공됩니다. Llama 4 Scout은 긴 컨텍스트 내 검색 태스크와 대규모 여러 문서 요약, 맞춤설정을 위한 다양한 사용자 상호작용 로그 분석, 대규모 코드베이스 전반에서 추론과 같은 대량의 정보에 대한 추론이 필요한 태스크에 적합합니다.

Llama 3.3

Llama 3.3은 텍스트 전용으로 특별히 설계된 700억 개의 명령어 조정 모델입니다. Llama 3.1 70B 및 Llama 3.2 90B와 비교할 때 텍스트 전용 애플리케이션에서 더 나은 성능을 제공합니다. 또한 일부 애플리케이션의 경우 Llama 3.3 70B가 Llama 3.1 405B의 성능에 근접합니다.

자세한 내용은 Model Garden의 Llama 3.3 모델 카드를 참조하세요.

Llama 3.2

개발자는 Llama 3.2를 통해 Llama 기능을 사용하여 이미지 추론과 같은 새로운 혁신을 불러 일으킬 수 있는 최신 생성형 AI 모델과 애플리케이션을 빌드 및 배포할 수 있습니다. Llama 3.2는 또한 온디바이스 애플리케이션에서 더 쉽게 작동하도록 설계되었습니다. 다음 목록에는 Llama 3.2의 기능이 요약되어 있습니다.

  • 더 작은 모델을 위한 기기 내 처리로 더 비공개적이고 맞춤화된 AI 실험 환경을 제공합니다.
  • 지연 시간을 줄이고 성능을 개선하여 보다 효율적으로 설계된 모델을 제공하므로 다양한 애플리케이션에 적합합니다.
  • Llama 스택을 기반으로 빌드되어 애플리케이션을 더 쉽게 빌드하고 배포할 수 있습니다. Llama Stack은 표준 도구 모음 구성요소와 에이전트 애플리케이션을 빌드하기 위한 표준화된 인터페이스입니다.
  • 이미지 인코더 표현을 언어 모델에 통합하는 새로운 모델 아키텍처로 비전 태스크를 지원합니다.

1B 및 3B 모델은 다국어 로컬 지식 검색, 요약, 재작성과 같은 기기 내 사용 사례를 지원하는 경량 텍스트 전용 모델입니다.

Llama 11B 및 90B 모델은 이미지 추론이 포함된 소형 및 중형 멀티모달 모델입니다. 예를 들어 차트의 시각적 데이터를 분석하여 더 정확한 대답을 제공하고 이미지에서 세부정보를 추출하여 텍스트 설명을 생성할 수 있습니다.

자세한 내용은 Model Garden의 Llama 3.2 모델 카드를 참조하세요.

고려사항

11B 및 90B를 사용하는 경우 텍스트 전용 프롬프트를 보낼 때 제한사항이 없습니다. 하지만 프롬프트에 이미지를 포함할 경우 이미지는 프롬프트의 시작 부분에 있어야 하며, 하나의 이미지만 포함할 수 있습니다. 예를 들어 일부 텍스트를 포함한 후 이미지를 포함할 수는 없습니다.

Llama 3.1

다국어 대규모 언어 모델(LLM)의 Llama 3.1 모음은 8B, 70B, 405B 크기(텍스트 입력/텍스트 출력)로 선행 학습되고 요청 사항이 조정되는 생성형 모델 모음입니다. Llama 3.1 요청 사항 조정 텍스트 전용 모델(8B, 70B, 405B)은 다국어 대화 사용 사례에 최적화되어 있으며 일반적인 업계 벤치마크에서 사용 가능한 여러 오픈소스 및 비공개 채팅 모델보다 성능이 우수합니다.

자세한 내용은 Model Garden의 Llama 3.1 모델 카드를 참조하세요.

Llama 3

Llama 3 요청 사항 조정 모델은 대화 사용 사례에 최적화된 LLM 모음입니다. Llama 3 모델은 일반적인 업계 벤치마크에서 사용 가능한 여러 오픈소스 채팅 모델보다 성능이 우수합니다.

자세한 내용은 Model Garden의 Llama 3 모델 카드를 참조하세요.

Llama 2

Llama 2 LLM은 선행 학습되고 미세 조정된 생성형 텍스트 모델 모음으로서 파라미터 크기가 70억~700억 개에 이릅니다.

자세한 내용은 Model Garden의 Llama 2 모델 카드를 참조하세요.

Code Llama

Meta의 Code Llama 모델은 코드 합성, 이해, 요청 사항을 위해 설계되었습니다.

자세한 내용은 Model Garden의 Code Llama 모델 카드를 참조하세요.

Llama Guard 3

Llama Guard 3은 Llama Guard 2의 기능을 기반으로 명예 훼손, 선거, 코드 인터프리터 악용이라는 세 가지 새로운 카테고리를 추가합니다. 또한 이 모델은 다국어를 지원하며 Llama 3 이상의 요청 사항 모델과 일치하는 프롬프트 형식을 사용합니다.

자세한 내용은 Model Garden의 Llama Guard 모델 카드를 참고하세요.

리소스

Model Garden에 대한 자세한 내용은 Model Garden의 AI 모델 살펴보기를 참조하세요.