Os modelos MiniMax estão disponíveis para utilização como APIs geridas e modelos implementados automaticamente no Vertex AI. Pode transmitir as suas respostas para reduzir a perceção de latência do utilizador final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.
Modelos MiniMax geridos
Os modelos MiniMax oferecem modelos totalmente geridos e sem servidor como APIs. Para usar um modelo MiniMax no Vertex AI, envie um pedido diretamente para o ponto final da API Vertex AI. Quando usa os modelos MiniMax como uma API gerida, não tem de aprovisionar nem gerir a infraestrutura.
Os seguintes modelos estão disponíveis no MiniMax para utilização no Vertex AI. Para aceder a um modelo MiniMax, aceda ao respetivo cartão de modelo do Model Garden.
MiniMax M2
O MiniMax M2 é um modelo da MiniMax concebido para tarefas relacionadas com agentes e código. Foi criado para fluxos de trabalho de desenvolvimento completos e tem capacidades fortes no planeamento e na execução de tarefas complexas de chamadas de ferramentas. O modelo está otimizado para oferecer um equilíbrio entre o desempenho, o custo e a velocidade de inferência.
Aceda ao cartão do modelo MiniMax M2
Use modelos MiniMax
Para modelos geridos, pode usar comandos curl para enviar pedidos para o endpoint do Vertex AI com os seguintes nomes de modelos:
- Para o MiniMax M2, use
minimax-m2-maas
Para saber como fazer chamadas de streaming e não streaming para modelos MiniMax, consulte as APIs de modelos abertos de chamadas.
Para usar um modelo do Vertex AI implementado autonomamente:
- Navegue para a consola do Model Garden.
- Encontre o modelo do Vertex AI relevante.
- Clique em Ativar e preencha o formulário fornecido para obter as licenças de utilização comercial necessárias.
Para mais informações sobre a implementação e a utilização de modelos de parceiros, consulte o artigo Implemente um modelo de parceiro e faça pedidos de previsão.
Disponibilidade regional e quotas do modelo MiniMax
Para os modelos MiniMax, aplica-se uma quota a cada região onde o modelo está disponível. A quota é especificada em consultas por minuto (QPM).
| Modelo | Região | Quotas | Comprimento do contexto | Saída máxima |
|---|---|---|---|---|
| MiniMax M2 | ||||
global endpoint |
|
196 608 | 4096 |
Se quiser aumentar alguma das suas quotas para a IA generativa no Vertex AI, pode usar a Google Cloud consola para pedir um aumento da quota. Para saber mais sobre as quotas, consulte a vista geral das quotas do Google Cloud.
O que se segue?
- Saiba como chamar APIs de modelos abertos.