Modelos do Kimi

Os modelos Kimi estão disponíveis para uso como APIs gerenciadas e modelos autodeployados na Vertex AI. É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Modelos gerenciados do Kimi

Os modelos Kimi oferecem modelos totalmente gerenciados e sem servidor como APIs. Para usar um modelo Kimi na Vertex AI, envie uma solicitação diretamente ao endpoint de API Vertex AI. Ao usar os modelos do Kimi como uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.

Os modelos a seguir estão disponíveis na Kimi para uso na Vertex AI. Para acessar um modelo Kimi, acesse o card de modelo do Model Garden.

Kimi K2 Thinking

O Kimi K2 Thinking é um modelo de raciocínio da Kimi que se destaca na resolução de problemas complexos e no raciocínio profundo.

Acessar o card de modelo do Kimi K2 Thinking

Usar modelos da Kimi

Para modelos gerenciados, é possível usar comandos curl para enviar solicitações ao endpoint da Vertex AI usando os seguintes nomes de modelos:

  • Para o Kimi K2 Thinking, use kimi-k2-thinking-maas

Para saber como fazer chamadas de streaming e sem streaming para modelos do Kimi, consulte Chamar APIs de modelo aberto.

Para usar um modelo autoimplantado da Vertex AI:

  1. Navegue até o console do Model Garden.
  2. Encontre o modelo relevante da Vertex AI.
  3. Clique em Ativar e preencha o formulário fornecido para receber as licenças de uso comercial necessárias.

Para mais informações sobre como implantar e usar modelos de parceiros, consulte Implantar um modelo de parceiro e fazer solicitações de previsão.

Disponibilidade e cotas da região do modelo Kimi

Para modelos Kimi, uma cota se aplica a cada região em que o modelo está disponível. A cota é especificada em consultas por minuto (QPM, na sigla em inglês).

Modelo Região Cotas Tamanho do contexto
Kimi K2 Thinking
global
262144

Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte a Visão geral das cotas do Cloud.

A seguir