Los modelos MiniMax se pueden usar como APIs gestionadas y modelos autodesplegados en Vertex AI. Puedes transmitir tus respuestas para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.
Modelos MiniMax gestionados
Los modelos de MiniMax ofrecen modelos totalmente gestionados y sin servidor como APIs. Para usar un modelo de MiniMax en Vertex AI, envía una solicitud directamente al endpoint de la API de Vertex AI. Si usas los modelos de MiniMax como una API gestionada, no tendrás que aprovisionar ni gestionar ninguna infraestructura.
Los siguientes modelos están disponibles en MiniMax para usarlos en Vertex AI. Para acceder a un modelo MiniMax, ve a su tarjeta de modelo de Model Garden.
MiniMax M2
MiniMax M2 es un modelo de MiniMax diseñado para tareas relacionadas con agentes y código. Se ha diseñado para flujos de trabajo de desarrollo integrales y tiene grandes capacidades para planificar y ejecutar tareas complejas de llamadas a herramientas. El modelo se ha optimizado para ofrecer un equilibrio entre rendimiento, coste y velocidad de inferencia.
Ir a la tarjeta de modelo de MiniMax M2
Usar modelos MiniMax
En el caso de los modelos gestionados, puedes usar comandos curl para enviar solicitudes al endpoint de Vertex AI con los siguientes nombres de modelo:
- En MiniMax M2, usa
minimax-m2-maas
Para saber cómo hacer llamadas de streaming y no de streaming a los modelos de MiniMax, consulta Llamar a APIs de modelos abiertos.
Para usar un modelo de Vertex AI autodesplegado, sigue estos pasos:
- Ve a la consola Model Garden.
- Busca el modelo de Vertex AI pertinente.
- Haz clic en Habilitar y rellena el formulario proporcionado para obtener las licencias de uso comercial necesarias.
Para obtener más información sobre cómo implementar y usar modelos de partners, consulta Implementar un modelo de partner y enviar solicitudes de predicción.
Disponibilidad y cuotas del modelo MiniMax por región
En el caso de los modelos MiniMax, se aplica una cuota a cada región en la que esté disponible el modelo. La cuota se especifica en consultas por minuto (CPM).
| Modelo | Región | Cuotas | Longitud del contexto | Salida máxima |
|---|---|---|---|---|
| MiniMax M2 | ||||
global endpoint |
|
196.608 | 4096 |
Si quieres aumentar alguna de tus cuotas de IA generativa en Vertex AI, puedes solicitarlo a través de la Google Cloud consola. Para obtener más información sobre las cuotas, consulta la descripción general de las cuotas de Cloud.
Siguientes pasos
- Consulta cómo llamar a APIs de modelos abiertos.