MiniMax 모델

Vertex AI 기반 MiniMax 모델은 완전 관리형 및 서버리스 모델을 API로 제공합니다. Vertex AI에서 MiniMax 모델을 사용하려면 Vertex AI API 엔드포인트로 직접 요청을 보내면 됩니다. MiniMax 모델은 관리형 API를 사용하므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.

대답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트(SSE)를 사용하여 응답을 점진적으로 스트리밍합니다.

사용 가능한 MiniMax 모델

Vertex AI에서 사용할 수 있는 MiniMax 모델은 다음과 같습니다. MiniMax 모델에 액세스하려면 Model Garden 모델 카드로 이동합니다.

MiniMax M2

MiniMax M2는 에이전트 및 코드 관련 작업을 위해 설계된 MiniMax의 모델입니다. 엔드 투 엔드 개발 워크플로를 위해 빌드되었으며 복잡한 도구 호출 작업을 계획하고 실행하는 데 강력한 기능을 제공합니다. 이 모델은 성능, 비용, 추론 속도의 균형을 제공하도록 최적화되어 있습니다.

MiniMax M2 모델 카드로 이동

MiniMax 모델 사용

다음 모델 이름을 사용하여 curl 명령어로 Vertex AI 엔드포인트에 요청을 보낼 수 있습니다.

  • MiniMax M2의 경우 minimax-m2-maas를 사용합니다.

MiniMax 모델에 스트리밍 및 비스트리밍 호출을 수행하는 방법을 알아보려면 개방형 모델 API 호출을 참조하세요.

MiniMax 모델 리전 가용성 및 할당량

MiniMax 모델의 경우 모델을 사용할 수 있는 각 리전에 할당량이 적용됩니다. 할당량은 분당 쿼리 수(QPM)로 지정됩니다.

모델 지역 할당량 컨텍스트 길이 최대 출력
MiniMax M2
global endpoint
196,608 4,096

Vertex AI 기반 생성형 AI 할당량을 상향 조정하려면 Google Cloud 콘솔을 사용하여 할당량 상향을 요청하면 됩니다. 할당량에 대한 자세한 내용은 Cloud 할당량 개요를 참조하세요.

다음 단계