Modelos de Kimi

Los modelos Kimi en Vertex AI ofrecen modelos completamente administrados y sin servidores como APIs. Para usar un modelo de Kimi en Vertex AI, envía una solicitud directamente al extremo de API de Vertex AI. Debido a que los modelos de Kimi usan una API administrada, no es necesario aprovisionar ni administrar la infraestructura.

Puedes transmitir tus respuestas para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Modelos de Kimi disponibles

Los siguientes modelos están disponibles en Kimi para usarlos en Vertex AI. Para acceder a un modelo de Kimi, ve a su tarjeta de modelo de Model Garden.

Kimi, K2, Thinking

Kimi K2 Thinking es un modelo de razonamiento de Kimi que se destaca por su capacidad de resolver problemas complejos y razonar en profundidad.

Ir a la tarjeta de modelo de Kimi K2 Thinking

Usa modelos de Kimi

Puedes usar comandos curl para enviar solicitudes al extremo de Vertex AI con los siguientes nombres de modelos:

  • Para Kimi K2 Thinking, usa kimi-k2-thinking-maas

Para obtener información sobre cómo realizar llamadas de transmisión y no transmisión a los modelos de Kimi, consulta Cómo llamar a las APIs de modelos abiertos.

Disponibilidad y cuotas de la región del modelo de Kimi

En el caso de los modelos de Kimi, se aplica una cuota para cada región en la que el modelo esté disponible. La cuota se especifica en consultas por minuto (QPM).

Modelo Región Cuotas Longitud del contexto
Kimi, K2, Thinking
global
262144

Si quieres aumentar tus cuotas para la IA generativa en Vertex AI, puedes usar la Google Cloud consola para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta la descripción general de cuotas de Cloud.

¿Qué sigue?