Los modelos de Kimi en Vertex AI ofrecen modelos totalmente gestionados y sin servidor como APIs. Para usar un modelo de Kimi en Vertex AI, envía una solicitud directamente al endpoint de la API de Vertex AI. Como los modelos de Kimi usan una API gestionada, no es necesario aprovisionar ni gestionar infraestructura.
Puedes transmitir tus respuestas para reducir la latencia percibida por el usuario final. Una respuesta en streaming usa eventos enviados por el servidor (SSE) para enviar la respuesta de forma incremental.
Modelos de Kimi disponibles
Kimi puede usar los siguientes modelos en Vertex AI. Para acceder a un modelo de Kimi, ve a su tarjeta de modelo de Model Garden.
Kimi K2 Thinking
Kimi K2 Thinking es un modelo de pensamiento de Kimi que destaca en la resolución de problemas complejos y el razonamiento profundo.
Ir a la tarjeta del modelo Kimi K2 Thinking
Usar modelos de Kimi
Puedes usar comandos curl para enviar solicitudes al endpoint de Vertex AI con los siguientes nombres de modelo:
- Para usar el razonamiento de Kimi K2, usa
kimi-k2-thinking-maas
Para saber cómo hacer llamadas de streaming y no de streaming a los modelos de Kimi, consulta Llamar a APIs de modelos abiertos.
Disponibilidad y cuotas del modelo Kimi por regiones
En el caso de los modelos de Kimi, se aplica una cuota a cada región en la que esté disponible el modelo. La cuota se especifica en consultas por minuto (CPM).
| Modelo | Región | Cuotas | Longitud del contexto |
|---|---|---|---|
| Kimi K2 Thinking | |||
global |
|
262144 |
Si quieres aumentar alguna de tus cuotas de IA generativa en Vertex AI, puedes solicitarlo a través de la Google Cloud consola. Para obtener más información sobre las cuotas, consulta la descripción general de las cuotas de Cloud.
Siguientes pasos
- Consulta cómo llamar a APIs de modelos abiertos.