Les modèles Kimi sur Vertex AI offrent des modèles sans serveur et entièrement gérés en tant qu'API. Pour utiliser un modèle Kimi sur Vertex AI, envoyez une requête directement au point de terminaison de l'API Vertex AI. Étant donné que les modèles Kimi utilisent une API gérée, il n'est pas nécessaire de provisionner ni de gérer l'infrastructure.
Vous pouvez diffuser vos réponses en flux continu pour réduire la perception de la latence côté utilisateur. Une réponse en flux continu utilise des événements envoyés par le serveur (SSE) pour diffuser la réponse de manière incrémentielle.
Modèles Kimi disponibles
Les modèles suivants sont disponibles auprès de Kimi pour une utilisation dans Vertex AI. Pour accéder à un modèle Kimi, accédez à sa fiche de modèle Model Garden.
Kimi K2 Thinking
Kimi K2 Thinking est un modèle de réflexion de Kimi qui excelle dans la résolution de problèmes complexes et le raisonnement approfondi.
Accéder à la fiche de modèle Kimi K2 Thinking
Utiliser les modèles Kimi
Vous pouvez utiliser des commandes curl pour envoyer des requêtes au point de terminaison Vertex AI en employant les noms de modèles suivants :
- Pour Kimi K2 Thinking, utilisez
kimi-k2-thinking-maas.
Pour savoir comment effectuer des appels de streaming et non-streaming aux modèles Kimi, consultez Appeler des API de modèles ouverts.
Disponibilité et quotas des régions d'un modèle Kimi
Pour les modèles Kimi, un quota s'applique à chaque région dans laquelle le modèle est disponible. Le quota est spécifié en requêtes par minute (RPM).
| Modèle | Région | Quotas | Longueur du contexte |
|---|---|---|---|
| Kimi K2 Thinking | |||
global |
|
262144 |
Si vous souhaitez augmenter vos quotas pour l'IA générative sur Vertex AI, vous pouvez en faire la demande via la console Google Cloud . Pour en savoir plus sur les quotas, consultez la présentation de Cloud Quotas.
Étapes suivantes
- Découvrez comment appeler des API de modèles ouverts.