Os modelos Kimi estão disponíveis para uso como APIs gerenciadas e modelos autodeployados na Vertex AI. É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.
Modelos gerenciados do Kimi
Os modelos Kimi oferecem modelos totalmente gerenciados e sem servidor como APIs. Para usar um modelo Kimi na Vertex AI, envie uma solicitação diretamente ao endpoint de API Vertex AI. Ao usar os modelos do Kimi como uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.
Os modelos a seguir estão disponíveis na Kimi para uso na Vertex AI. Para acessar um modelo Kimi, acesse o card de modelo do Model Garden.
Kimi K2 Thinking
O Kimi K2 Thinking é um modelo de raciocínio da Kimi que se destaca na resolução de problemas complexos e no raciocínio profundo.
Acessar o card de modelo do Kimi K2 Thinking
Usar modelos da Kimi
Para modelos gerenciados, é possível usar comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:
- Para o Kimi K2 Thinking, use
kimi-k2-thinking-maas
Para saber como fazer chamadas de streaming e sem streaming para modelos do Kimi, consulte Chamar APIs de modelo aberto.
Para usar um modelo autoimplantado da Vertex AI:
- Navegue até o console do Model Garden.
- Encontre o modelo relevante da Vertex AI.
- Clique em Ativar e preencha o formulário fornecido para receber as licenças de uso comercial necessárias.
Para mais informações sobre como implantar e usar modelos de parceiros, consulte Implantar um modelo de parceiro e fazer solicitações de previsão.
Disponibilidade e cotas da região do modelo Kimi
Para modelos Kimi, uma cota se aplica a cada região em que o modelo está disponível. A cota é especificada em consultas por minuto (QPM, na sigla em inglês).
| Modelo | Região | Cotas | Tamanho do contexto |
|---|---|---|---|
| Kimi K2 Thinking | |||
global |
|
262144 |
Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte a Visão geral das cotas do Cloud.
A seguir
- Aprenda a chamar APIs de modelo aberto.