MaaS용 Gemini Enterprise 에이전트 플랫폼 파트너 모델

Gemini Enterprise Agent Platform은 Google 파트너에서 개발한 선별된 모델 목록을 지원합니다. 파트너 모델은 Gemini Enterprise Agent Platform을 MaaS (model as a service)로 함께 사용될 수 있으며 관리형 API로 제공됩니다. 파트너 모델을 사용하는 경우 요청을 Gemini Enterprise 에이전트 플랫폼 엔드포인트로 계속 전송합니다. 파트너 모델은 서버리스이므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.

Model Garden을 사용하여 파트너 모델을 검색할 수 있습니다. Model Garden을 사용하여 모델을 배포할 수도 있습니다. 자세한 내용은 Model Garden의 AI 모델 살펴보기를 참고하세요. Model Garden의 모델 카드에서 사용 가능한 각 파트너 모델에 대한 정보를 확인할 수 있지만 이 가이드에서는 Gemini Enterprise 에이전트 플랫폼에서 MaaS로 수행하는 서드 파티 모델만 설명합니다.

Anthropic의 Claude 및 Mistral 모델은 Gemini Enterprise 에이전트 플랫폼에서 사용할 수 있는 서드 파티 관리형 모델의 예시입니다.

파트너 모델

다음 파트너 모델은 Gemini Enterprise 에이전트 플랫폼 Model Garden (MaaS)에서 관리형 API로 제공됩니다.

모델 이름 형식 설명 빠른 시작
Grok 4.3 (프리뷰) 언어 xAI의 고성능 모델입니다. 모델 카드
Grok 4.20 (추론) (프리뷰) 언어 Grok 4.20 (추론)은 업계 최고 수준의 낮은 할루시네이션 비율을 제공하는 xAI의 고성능 모델입니다. 문서 이해 태스크와 장기 에이전트 도구 호출에 탁월합니다. 모델 카드
Grok 4.20 (비추론) (프리뷰) 언어 Grok 4.20 (비추론)은 업계 최고 수준의 낮은 할루시네이션 비율을 제공하는 xAI의 고성능 비사고 모델입니다. 고객 지원 및 분류와 같이 지연 시간에 민감한 사용 사례에 탁월합니다. 모델 카드
Grok 4.1 Fast (추론) (프리뷰) 언어 Grok 4.1 Fast (추론)는 강력한 도구 호출 기능과 효율적인 기술 자료 합성을 제공하는 xAI의 가장 비용 효율적인 모델입니다. 웹 데이터 및 내부 기술 자료 도구와 관련된 검색 태스크에 탁월합니다. 모델 카드
Grok 4.1 Fast (비추론) (프리뷰) 언어 Grok 4.1 Fast (비추론)는 지연 시간이 짧은 성능에 최적화된 xAI의 가장 비용 효율적인 비사고 모델입니다. 요약 및 분류와 같은 대량 태스크에 탁월합니다. 모델 카드
Claude Opus 4.8 언어, 비전 Claude Opus 4.8은 코딩 및 에이전트를 위해 빌드된 고지능 Opus 모델로, 엔터프라이즈 워크플로를 위한 더 심층적인 추론을 제공합니다. 모델 카드
Claude Opus 4.7 언어, 비전 Claude Opus 4.7은 Anthropic의 고지능 모델로, 코딩, 에이전트, 컴퓨터 사용, 엔터프라이즈 워크플로 전반에서 업계를 선도합니다. 모델 카드
Claude Sonnet 4.6 언어, 비전 Claude Sonnet 4.6은 코딩, 에이전트, 엔터프라이즈 워크플로를 위해 개발된 최첨단 인텔리전스를 대규모로 제공합니다. 모델 카드
Claude Opus 4.6 언어, 비전 Claude Opus 4.6은 Anthropic의 고지능 모델로, 코딩, 에이전트, 컴퓨터 사용, 엔터프라이즈 워크플로 전반에서 업계를 선도합니다. 모델 카드
Claude Opus 4.5 언어, 비전 Claude Opus 4.5는 Anthropic의 고지능 모델로, 코딩, 에이전트, 컴퓨터 사용, 엔터프라이즈 워크플로 전반에서 업계를 선도합니다. 모델 카드
Claude Sonnet 4.5 언어, 비전 코딩, 컴퓨터 사용, 사이버 보안, 스프레드시트와 같은 사무실 파일 작업 기능을 갖춘 실제 에이전트를 지원하는 Anthropic의 중간 규모 모델입니다. 모델 카드
Claude Opus 4.1 언어, 비전 업계 선도적인 코딩 모델입니다. 수천 단계에 이르는 집중적인 작업과 장기 실행 태스크에서 안정적인 성능을 제공하여 AI 에이전트가 해결할 수 있는 범위를 크게 확장합니다. 최첨단 에이전트 제품과 기능을 지원하는 데 적합합니다. 모델 카드
Claude Haiku 4.5 언어, 비전 Claude Haiku 4.5는 다양한 사용 사례에서 최첨단에 가까운 성능을 제공하며, 무료 제품과 대규모 사용자 환경을 지원하는 적절한 속도와 비용을 갖춘 세계 최고의 코딩 모델 중 하나로 돋보입니다. 모델 카드
Claude Opus 4 언어, 비전 Claude Opus 4는 집중적인 노력과 수천 단계가 필요한 장기 실행 태스크에서 지속적인 성능을 제공하여 AI 에이전트가 해결할 수 있는 범위를 크게 확장합니다. 모델 카드
Claude Sonnet 4 언어, 비전 코딩, 심층 조사, 에이전트와 같은 대량 사용을 위한 우수한 지능을 갖춘 Anthropic의 중간 규모 모델입니다. 모델 카드
Anthropic의 Claude 3.5 Sonnet v2 언어, 비전 Claude 3.5 Sonnet은 실제 소프트웨어 엔지니어링 태스크와 에이전트 기능을 위한 고성능 모델입니다. Claude 3.5 Sonnet은 이전 모델과 동일한 가격과 속도로 향상된 기능을 제공합니다. 모델 카드
Anthropic의 Claude 3.5 Sonnet 언어 Claude 3.5 Sonnet은 Anthropic의 중간 등급 모델인 Claude 3 Sonnet의 속도와 비용으로 광범위한 Anthropic 평가에서 Anthropic의 Claude 3 Opus를 능가합니다. 모델 카드
Jamba 1.5 Large(프리뷰) 언어 AI21 Labs의 Jamba 1.5 Large는 우수한 품질의 응답, 높은 처리량, 동급의 다른 모델에 비해 경쟁력 있는 가격을 제공할 수 있도록 설계되었습니다. 모델 카드
Jamba 1.5 Mini(프리뷰) 언어 AI21 Labs의 Jamba 1.5 Mini는 품질, 처리량, 저렴한 비용 전반에 걸쳐 균형이 잘 잡혀 있습니다. 모델 카드
Mistral Medium 3 언어 Mistral Medium 3는 프로그래밍, 수학적 추론, 긴 문서 이해, 요약, 대화 등 다양한 작업을 위해 설계된 다목적 모델입니다. 모델 카드
Mistral OCR(25.05) 언어, 비전 Mistral OCR(25.05)은 문서 이해를 위한 광학 문자 인식 API입니다. 모델은 미디어, 텍스트, 표, 방정식과 같은 문서의 각 요소를 이해합니다. 모델 카드
Mistral Small 3.1(25.03) 언어 Mistral Small 3.1 (25.03)은 Mistral의 Small 모델 버전으로, 멀티모달 기능과 확장된 컨텍스트 길이가 특징입니다. 모델 카드
Codestral 2 언어, 코드 Codestral 2는 Mistral의 코드 생성 전문 모델로, 개발자가 공유된 명령 및 완성 API 엔드포인트를 통해 코드를 작성하고 상호작용할 수 있도록 지원하는 고정밀 fill-in-the-middle(FIM) 완성을 위해 특별히 빌드되었습니다. 모델 카드

Gen AI Evaluation Service를 사용하여 파트너 모델 평가

Gen AI Evaluation Service는 Anthropic 및 Llama 모델과 같은 파트너 모델 평가를 지원합니다. 파트너 모델 평가는 Model Garden을 통해 지원되므로 파트너 모델에 대해 평가를 실행하기 전에 모델을 사용 설정해야 합니다.

자세한 내용은 콘솔을 사용하여 평가 실행을 참조하세요.

용량 보장이 포함된 Gemini Enterprise 에이전트 플랫폼 파트너 모델 가격 책정

Google은 일부 파트너 모델에 대해 고정 요금으로 모델의 처리량 용량을 예약하는 프로비저닝된 처리량을 제공합니다. 처리량 용량과 해당 용량을 예약할 리전을 결정합니다. 프로비저닝된 처리량 요청은 표준 사용한 만큼만 지불 요청보다 우선순위가 높으므로 프로비저닝된 처리량은 가용성을 높여 줍니다. 시스템에 과부하가 발생해도 처리량이 예약된 처리량 용량 미만으로 유지되는 한 요청은 계속 완료될 수 있습니다. 자세한 내용을 알아보거나 서비스를 구독하려면 영업팀에 문의하세요.

리전, 전역, 멀티 리전 엔드포인트

리전 엔드포인트의 경우 요청은 지정된 리전에서 처리됩니다. 데이터 상주 요구사항이 있거나 모델이 전역 엔드포인트를 지원하지 않는 경우 리전 엔드포인트를 사용하세요.

전역 엔드포인트를 사용하면 Google에서 사용 중인 모델이 지원하는 모든 리전에서 요청을 처리하고 제공할 수 있으므로 경우에 따라 지연 시간이 길어질 수 있습니다. 전역 엔드포인트는 전반적인 가용성을 개선하고 오류를 줄이는 데 도움이 됩니다.

멀티 리전 엔드포인트를 사용하면 미국과 같은 더 넓은 지리적 영역 내에서 데이터 상주를 유지하면서 파트너 모델에 대한 고가용성 액세스가 가능합니다.

선택한 엔드포인트 유형에 따라 가격이 다릅니다. 할당량 및 기능에 대한 자세한 내용은 관련 서드 파티 모델 페이지를 참고하세요.

전역 엔드포인트

전역 엔드포인트를 사용하려면 리전을 global로 설정합니다.

예를 들어 curl 명령어의 요청 URL은 다음 형식을 사용합니다. https://aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/global/publishers/PUBLISHER_NAME/models/MODEL_NAME

Agent Platform SDK의 경우 리전 엔드포인트가 기본값입니다. 전역 엔드포인트를 사용하려면 리전을 GLOBAL로 설정합니다.

전역 엔드포인트 지원 모델

전역 엔드포인트는 다음 모델에서 사용할 수 있습니다.

전역 API 엔드포인트 사용 제한

리전 엔드포인트 사용을 강제하려면 constraints/gcp.restrictEndpointUsage 조직 정책 제약 조건을 사용하여 전역 API 엔드포인트에 대한 요청을 차단하세요. 자세한 내용은 엔드포인트 사용 제한을 참고하세요.

멀티 리전 엔드포인트

멀티 리전 엔드포인트를 사용하면 미국 또는 유럽연합과 같은 더 넓은 지리적 영역 내에서 데이터 상주를 유지하면서 파트너 모델에 대한 고가용성 액세스가 가능합니다.

사용하려는 멀티 리전에 적합한 탭을 선택합니다.

미국

미국 멀티 리전 엔드포인트를 사용하려면 엔드포인트 URL을 aiplatform.us.rep.googleapis.com으로 설정합니다.

curl 명령어의 요청 URL은 다음 형식을 사용합니다. https://aiplatform.us.rep.googleapis.com/v1/projects/PROJECT_ID/locations/us/publishers/anthropic/models/MODEL_NAME

EU

EU 멀티 리전 엔드포인트를 사용하려면 엔드포인트 URL을 aiplatform.eu.rep.googleapis.com으로 설정합니다.

curl 명령어의 요청 URL은 다음 형식을 사용합니다. https://aiplatform.eu.rep.googleapis.com/v1/projects/PROJECT_ID/locations/eu/publishers/anthropic/models/MODEL_NAME

MODEL_NAME 형식에 대한 자세한 내용은 Anthropic 문서를 참고하세요.

멀티 리전 엔드포인트 지원 모델:

지원되는 모델은 다음과 같습니다. 버전 날짜가 있는 경우 버전 날짜를 포함한 전체 모델 ID를 사용합니다.

모델 API 모델 ID
claude-opus-4-8 claude-opus-4-8
claude-opus-4-7 claude-opus-4-7

샘플 요청:

다음은 curl을 사용하여 멀티 리전 엔드포인트를 호출하는 방법입니다.

export PROJECT_ID="YOUR_PROJECT_ID"
# Example using claude-opus-4-7

# Option 1: US Region
export LOCATION="us"
export ENDPOINT="aiplatform.us.rep.googleapis.com"

# Option 2: EU Region
# export LOCATION="eu"
# export ENDPOINT="aiplatform.eu.rep.googleapis.com"

export MODEL_ID="claude-opus-4-7"

curl -X POST \
  -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \
  -H "Content-Type: application/json" \
  "https://${ENDPOINT}/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/anthropic/models/${MODEL_ID}:rawPredict" \
  -d '{
    "max_tokens": 300,
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "Why is the sky blue?"
          }
        ]
      }
    ],
    "anthropic_version": "vertex-2023-10-16"
  }'

멀티 리전 할당량:

전용 멀티 리전 할당량이 적용됩니다. 콘솔에서 이러한 기본 할당량 값을 보고 상향 조정을 요청할 수 있습니다. Google Cloud

  • 미국 할당량 예시:

    • UsOnlinePredictionInputTokensPerMinutePerBaseModel
    • UsOnlinePredictionOutputTokensPerMinutePerBaseModel
    • UsOnlinePredictionRequestsPerMinPerProjectPerBaseModel
    • UsOnlinePredictionWebSearchRequestsPerProjectPerPublisher
  • EU 할당량 예시:

    • EuOnlinePredictionInputTokensPerMinutePerBaseModel
    • EuOnlinePredictionOutputTokensPerMinutePerBaseModel
    • EuOnlinePredictionRequestsPerMinPerProjectPerBaseModel
    • EuOnlinePredictionWebSearchRequestsPerProjectPerPublisher

파트너 모델에 대한 사용자 액세스 권한 부여

파트너 모델을 사용 설정하고 프롬프트 요청을 보내려면 Google Cloud관리자가 필요한 권한을 설정하고 조직 정책에서 필요한 API 사용을 허용하는지 확인해야 합니다.

파트너 모델을 사용하는 데 필요한 권한 설정

파트너 모델을 사용하려면 다음 역할과 권한이 필요합니다.

  • 소비자 조달 자격 관리자 Identity and Access Management(IAM) 역할이 있어야 합니다. 이 역할이 부여된 모든 사용자는 Model Garden에서 파트너 모델을 사용 설정할 수 있습니다.

  • aiplatform.endpoints.predict 권한이 있어야 합니다. 이 권한은 Agent Platform 사용자 IAM 역할에 포함되어 있습니다. 자세한 내용은 Gemini Enterprise Agent Platform 사용자액세스 제어를 참고하세요.

콘솔

  1. 사용자에게 소비자 조달 자격 관리자 IAM 역할을 부여하려면 IAM 페이지로 이동합니다.

    IAM으로 이동

  2. 주 구성원 열에서 파트너 모델에 대한 액세스를 사용 설정하려는 사용자 주 구성원을 찾은 후 해당 행에서 주 구성원 수정을 클릭합니다.

  3. 액세스 수정 창에서 다른 역할 추가를 클릭합니다.

  4. 역할 선택에서 소비자 조달 자격 관리자를 선택합니다.

  5. 액세스 수정 창에서 다른 역할 추가를 클릭합니다.

  6. 역할 선택에서 에이전트 플랫폼 사용자를 선택합니다.

  7. 저장 을 클릭합니다.

gcloud

  1. 콘솔에서 Cloud Shell을 활성화합니다. Google Cloud

    Cloud Shell 활성화

  2. Model Garden에서 파트너 모델을 사용 설정하는 데 필요한 소비자 조달 자격 관리자 역할을 부여합니다.

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/consumerprocurement.entitlementManager
    
  3. 프롬프트 요청을 수행하는 데 필요한 aiplatform.endpoints.predict 권한이 포함된 에이전트 플랫폼 사용자 역할을 부여합니다.

    gcloud projects add-iam-policy-binding  PROJECT_ID \
    --member=PRINCIPAL --role=roles/aiplatform.user
    

    PRINCIPAL을 주 구성원 식별자로 바꿉니다. 식별자는 user|group|serviceAccount:email 또는domain:domain 형식을 취합니다(예:user:cloudysanfrancisco@gmail.com, group:admins@example.com, serviceAccount:test123@example.domain.com 또는 domain:example.domain.com).

    다음을 포함하는 정책 바인딩 목록이 출력됩니다.

    -   members:
      -   user:PRINCIPAL
      role: roles/roles/consumerprocurement.entitlementManager
    

    자세한 내용은 단일 역할 부여gcloud projects add-iam-policy-binding을 참조하세요.

파트너 모델 액세스에 대한 조직 정책 설정

파트너 모델을 사용 설정하려면 조직 정책에서 Cloud Commerce Consumer Procurement API - cloudcommerceconsumerprocurement.googleapis.com을 허용해야 합니다.

조직에서 서비스 사용량을 제한하도록 조직 정책을 설정하면 조직 관리자는 조직 정책을 설정하여 cloudcommerceconsumerprocurement.googleapis.com이 허용되는지 확인해야 합니다.

또한 Model Garden에서 모델 사용을 제한하는 조직 정책이 있으면 정책에서 파트너 모델에 대한 액세스를 허용해야 합니다. 자세한 내용은 모델 액세스 제어를 참조하세요.

파트너 모델 규정 준수

파트너 모델이 Gemini Enterprise 에이전트 플랫폼을 사용하는 관리형 API로 사용되는 경우 Gemini Enterprise 에이전트 플랫폼의 생성형 AI에 대한 인증이 계속 적용됩니다. 모델 자체에 관한 세부정보가 필요한 경우 각 모델 카드에서 추가 정보를 확인하거나 각 모델 게시자에게 문의하면 됩니다.

데이터는 Gemini Enterprise 에이전트 플랫폼의 파트너 모델에 선택한 리전이나 멀티 리전 내에 저장되지만 데이터 처리 리전화는 다를 수 있습니다. 파트너 모델의 데이터 처리 약정에 대한 자세한 목록은 파트너 모델의 데이터 상주 를 참조하세요.

파트너 모델을 비롯하여 Gemini Enterprise API를 사용하면 고객 프롬프트와 모델 응답이 서드 파티와 공유되지 않습니다. Google은 고객 데이터를 고객 지시에 따라 처리하며 이는 Cloud 데이터 처리 추가 조항에 자세히 설명되어 있습니다.