완전 관리형 Llama 모델


Llama 모델은 Gemini Enterprise Agent Platform에서 관리형 API 및 자체 배포 모델로 사용할 수 있습니다. 대답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트 (SSE)를 사용하여 응답을 점진적으로 스트리밍합니다.

관리형 Llama 모델

Llama 모델은 완전 관리형 서버리스 모델을 API로 제공합니다. Agent Platform에서 Llama 모델을 사용하려면 요청을 Agent Platform API 엔드포인트로 직접 보냅니다. Llama 모델을 관리형 API로 사용하는 경우 인프라를 프로비저닝하거나 관리할 필요가 없습니다.

Gemini Enterprise Agent Platform에서 사용할 수 있는 Llama 모델은 다음과 같습니다. Llama 모델에 액세스하려면 Model Garden 모델 카드로 이동합니다.

Llama 4 Maverick 17B-128E

Llama 4 Maverick 17B-128E는 코딩, 추론, 이미지 기능을 제공하는 가장 크고 기능이 뛰어난 Llama 4 모델입니다. 총 파라미터 4,000억 개 중 활성 파라미터 170억 개와 전문가 128개가 있는 전문가 망(MoE) 아키텍처를 갖추고 있습니다. Llama 4 Maverick 17B-128E는 촘촘한 레이어와 MoE 레이어를 교대로 사용합니다. 여기서 각 토큰은 공유 전문가와 라우팅된 전문가 128개 중 하나를 활성화합니다. 이 모델은 언어 200개로 사전 학습되고 세련된 학습 후 파이프라인을 통해 고품질 채팅 상호작용에 최적화됩니다.

Llama 4 Maverick 17B-128E는 멀티모달이며 고급 이미지 캡셔닝, 분석, 정확한 이미지 이해, 시각적 질문 및 답변, 창의적인 텍스트 생성, 범용 AI 어시스턴트, 최고 수준의 지능과 이미지 이해가 필요한 정교한 챗봇에 적합합니다.

고려사항

  • 요청당 이미지를 최대 3개까지 포함할 수 있습니다.
  • MaaS 엔드포인트는 이전 버전과 달리 Llama Guard를 사용하지 않습니다. Llama Guard를 사용하려면 Model Garden에서 Llama Guard를 배포한 후 프롬프트와 응답을 해당 엔드포인트로 전송합니다. 하지만 Llama 4에 비해 Llama Guard는 더 제한적인 컨텍스트 (128,000)를 갖추고 있으며 프롬프트 시작 부분에 단일 이미지가 있는 요청만 처리할 수 있습니다.
  • 일괄 예측은 지원되지 않습니다.

Llama 4 모델 카드로 이동

Llama 4 Scout 17B-16E

Llama 4 Scout 17B-16E는 여러 벤치마크에서 이전 Llama 세대 및 기타 오픈 및 독점 모델보다 우수한 성능을 제공하는 최신 크기 클래스 결과를 제공합니다. 총 파라미터 1,090억 개 중 활성 파라미터 170억 개와 전문가 16개가 있는 MoE 아키텍처를 갖추고 있습니다.

Llama 4 Scout 17B-16E는 긴 컨텍스트 내 검색 태스크와 대규모 여러 문서 요약, 맞춤설정을 위한 다양한 사용자 상호작용 로그 분석, 대규모 코드베이스 전반에서 추론과 같은 대량의 정보에 대한 추론이 필요한 태스크에 적합합니다.

Llama 4 모델 카드로 이동

고려사항

  • 요청당 이미지를 최대 3개까지 포함할 수 있습니다.
  • MaaS 엔드포인트는 이전 버전과 달리 Llama Guard를 사용하지 않습니다. Llama Guard를 사용하려면 Model Garden에서 Llama Guard를 배포한 후 프롬프트와 응답을 해당 엔드포인트로 전송합니다. 하지만 Llama 4에 비해 Llama Guard는 더 제한적인 컨텍스트 (128,000)를 갖추고 있으며 프롬프트 시작 부분에 단일 이미지가 있는 요청만 처리할 수 있습니다.
  • 일괄 예측은 지원되지 않습니다.

Llama 4 모델 카드로 이동

Llama 3.3

Llama 3.3은 텍스트 전용으로 특별히 설계된 700억 개의 명령어 조정 모델입니다. Llama 3.1 70B 및 Llama 3.2 90B와 비교할 때 텍스트 전용 애플리케이션에서 더 나은 성능을 제공합니다.

Llama 3.3 70B 모델 카드로 이동

Llama 모델 사용

관리형 모델의 경우 curl 명령어를 사용하여 다음 모델 이름으로 Gemini Enterprise Agent Platform 엔드포인트에 요청을 보낼 수 있습니다. Llama 모델에 스트리밍 및 비스트리밍 호출을 수행하는 방법을 알아보려면 개방형 모델 API 호출을 참고하세요.

자체 배포된 Gemini Enterprise Agent Platform 모델을 사용하려면 다음 단계를 따르세요.

  1. Model Garden 콘솔로 이동합니다.
  2. 관련 Gemini Enterprise Agent Platform 모델을 찾습니다.
  3. 사용 설정을 클릭하고 제공된 양식을 작성하여 필요한 상업적 사용 라이선스를 받습니다.

파트너 모델 배포 및 사용에 관한 자세한 내용은 파트너 모델 배포 및 예측 요청을 참고하세요.

다음 단계

Llama 모델 사용 방법 알아보기