MaaS용 Gemini Enterprise Agent Platform 오픈 모델

Gemini Enterprise Agent Platform은 선별된 개방형 모델 목록을 관리형 모델로 지원합니다. 이러한 개방형 모델은 Gemini Enterprise Agent Platform을 서비스형 모델(MaaS)로 함께 사용할 수 있으며 관리형 API로 제공됩니다. 관리형 개방형 모델을 사용하는 경우 요청을 Gemini Enterprise Agent Platform 엔드포인트로 계속 전송합니다. 관리형 개방형 모델은 서버리스이므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.

Model Garden을 사용하여 관리형 개방형 모델을 검색할 수 있습니다. Model Garden을 사용하여 모델을 배포할 수도 있습니다. 자세한 내용은 Model Garden의 AI 모델 살펴보기를 참고하세요.

개방형 모델을 사용하려면 먼저 개방형 모델에 대한 사용자 액세스 권한을 부여해야 합니다.

개방형 모델

다음 개방형 모델은 Gemini Enterprise Agent Platform Model Garden (MaaS)에서 관리형 API로 제공됩니다.

모델 이름 형식 설명 빠른 시작
DeepSeek-OCR 언어, 비전 복잡한 문서를 분석하고 이해하는 포괄적인 광학 문자 인식(OCR) 모델입니다. 까다로운 OCR 작업에 우수한 성능을 발휘합니다. 모델 카드
DeepSeek R1(0528) 언어 DeepSeek의 DeepSeek R1 모델 버전입니다. 모델 카드
DeepSeek-V3.1 언어 사고 모드와 비사고 모드를 모두 지원하는 DeepSeek의 하이브리드 모델입니다. 모델 카드
DeepSeek-V3.2 언어 DeepSeek 모델은 높은 컴퓨팅 효율성과 뛰어난 추론 및 에이전트 성능을 융합한 모델입니다. 모델 카드
Gemma 4 26B A4B IT 언어 Google DeepMind에서 빌드한 Google의 개방형 모델 제품군입니다. 모델 카드
GLM 4.7 언어, 코드 코어 또는 바이브 코딩, 도구 사용, 복잡한 추론을 위해 설계된 GLM의 모델입니다. 모델 카드
GLM 5 언어, 코드 복잡한 시스템 엔지니어링 및 장기 에이전트형 작업을 대상으로 하는 GLM의 모델입니다. 모델 카드
gpt-oss 120B 언어 추론 태스크에서 높은 성능을 제공하는 120B 모델입니다. 모델 카드
gpt-oss 20B 언어 소비자 및 에지 하드웨어의 효율성과 배포에 최적화된 20B 모델입니다. 모델 카드
Kimi K2 Thinking 언어 단계별로 추론하고 도구를 사용하여 복잡한 문제를 해결하는 오픈소스 사고 에이전트 모델입니다. 모델 카드
Llama 3.3 언어 Llama 3.3은 텍스트 전용 70B 요청 사항 조정 모델로, 텍스트 전용 애플리케이션에 사용될 때 Llama 3.1 70B 및 Llama 3.2 90B에 비해 향상된 성능을 제공합니다. 또한 일부 애플리케이션의 경우 Llama 3.3 70B가 Llama 3.1 405B의 성능에 근접합니다. 모델 카드
Llama 4 Maverick 17B-128E 언어, 비전 코딩, 추론, 이미지 기능을 갖춘 가장 크고 기능이 뛰어난 Llama 4 모델입니다. Llama 4 Maverick 17B-128E는 전문가 망(MoE) 아키텍처와 조기 융합을 사용하는 멀티모달 모델입니다. 모델 카드
Llama 4 Scout 17B-16E 언어, 비전 Llama 4 Scout 17B-16E는 여러 벤치마크에서 기타 오픈 및 독점 모델보다 우수한 성능을 제공하는 최신 크기 클래스 결과를 제공합니다. Llama 4 Scout 17B-16E는 전문가 망(MoE) 아키텍처와 조기 융합을 사용하는 멀티모달 모델입니다. 모델 카드
MiniMax M2 언어, 코드 복잡한 도구 호출 작업을 계획하고 실행하는 강력한 기능을 갖춘 에이전트 및 코드 관련 작업을 위해 설계되었습니다. 모델 카드
Qwen3 235B 언어 체계적인 추론과 빠른 대화 사이를 전환할 수 있는 '하이브리드 사고' 기능이 있는 오픈-웨이트 모델입니다. 모델 카드
Qwen3 Coder 언어, 코드 고급 소프트웨어 개발 태스크를 위해 개발된 오픈-웨이트 모델입니다. 모델 카드
Qwen3-Next-80B Instruct 언어, 코드 특정 명령어를 따르는 데 특화된 Qwen3-Next 모델 제품군의 모델입니다. 모델 카드
Qwen3-Next-80B Thinking 언어, 코드 복잡한 문제 해결과 심층적인 추론에 특화된 Qwen3-Next 모델 제품군의 모델입니다. 모델 카드

다음 개방형 임베딩 모델은 Gemini Enterprise Agent Platform Model Garden (MaaS)에서 관리형 API로 제공됩니다.

모델 이름 설명 출력 크기 최대 시퀀스 길이 지원되는 텍스트 언어 빠른 시작
multilingual-e5-small E5 텍스트 임베딩 모델 제품군의 일부입니다. 소형 옵션에는 12개의 레이어가 포함되어 있습니다. 최대 384 토큰 512개 지원되는 언어 모델 카드
multilingual-e5-large E5 텍스트 임베딩 모델 제품군의 일부입니다. 대형 옵션에는 24개의 레이어가 포함되어 있습니다. 최대 1,024개 토큰 512개 지원되는 언어 모델 카드

개방형 모델 규정 준수

개방형 모델이 Gemini Enterprise Agent Platform을 사용하는 관리형 API로 사용되는 경우 Gemini Enterprise Agent Platform의 생성형 AI에 대한 인증이 계속 적용됩니다. 모델 자체에 관한 세부정보가 필요한 경우 각 모델 카드에서 추가 정보를 확인하거나 각 모델 게시자에게 문의하면 됩니다.

데이터는 Gemini Enterprise Agent Platform의 개방형 모델에 선택한 리전이나 멀티 리전 내에 안정적으로 저장되지만 데이터 처리 리전화는 다를 수 있습니다. 개방형 모델의 데이터 처리 약정에 대한 자세한 목록은 개방형 모델의 데이터 상주를 참고하세요.

개방형 모델을 비롯하여 Gemini Enterprise API를 사용하면 고객 프롬프트와 모델 응답이 서드 파티와 공유되지 않습니다. Google은 고객 데이터를 고객 지시에 따라 처리하며 이는 Cloud 데이터 처리 부록에 자세히 설명되어 있습니다.

컨텍스트 캐싱이

컨텍스트 캐싱은 반복된 콘텐츠가 포함된 Open Models 요청의 비용과 지연 시간을 줄이는 데 도움이 됩니다. 이 기능은 사용한 만큼만 지불 트래픽을 사용하는 동안에만 사용 설정되며 프로비저닝된 처리량 및 Batch와 같은 다른 트래픽 유형은 지원하지 않습니다.

지원되는 캐싱 유형은 암시적 캐싱입니다. 암시적 캐싱은 모든 Google Cloud 프로젝트에서 기본적으로 사용 설정되는 자동 캐싱으로, 캐시 적중이 발생할 때 캐시된 토큰에 대해 표준 입력 토큰 대비 90%의 요금 할인을 제공합니다. 이 유형의 캐싱을 사용하면 캐시를 명시적으로 정의하고 호출하지 않아도 됩니다. 대신 반복되는 컨텍스트가 감지되면 백엔드에서 이러한 캐시를 가져옵니다.

지원되는 모델

  • qwen3-coder-480b-a35b-instruct-maas
  • kimi-k2-thinking-maas
  • minimax-m2-maas
  • gpt-oss-20b-maas
  • deepseek-v3.1-maas
  • deepseek-v3.2-maas
  • gemma-4-26b-a4b-it-maas

응답 메타데이터의 cachedContentTokenCount 필드는 입력 중 캐싱된 부분의 토큰 수를 나타냅니다. 캐싱 요청은 최소 4096개의 토큰을 포함해야 합니다 (이 최소값은 미리보기 중에 변경될 수 있음).

암시적 캐싱이 사용 설정된 경우, 캐시 적중으로 인한 비용 절감은 자동으로 적용됩니다. 캐시 적중은 보장되지 않으며 전송된 요청 및 기타 요인에 따라 달라집니다. 암시적 캐시 적중 가능성을 높이려면 다음을 시도해 보세요.

  • 프롬프트 시작 부분에 크고 공통적인 콘텐츠를 배치합니다.
  • 짧은 시간 내에 유사한 프리픽스를 가진 요청을 전송합니다.

다음 단계