Modèles Kimi

Les modèles Kimi sont disponibles en tant qu'API gérées et modèles auto-déployés sur Vertex AI. Vous pouvez diffuser vos réponses en flux continu pour réduire la perception de la latence côté utilisateur. Une réponse en flux continu utilise des événements envoyés par le serveur (SSE) pour diffuser la réponse de manière incrémentielle.

Modèles Kimi gérés

Les modèles Kimi offrent des modèles entièrement gérés et sans serveur en tant qu'API. Pour utiliser un modèle Kimi sur Vertex AI, envoyez une requête directement au point de terminaison de l'API Vertex AI. Lorsque vous utilisez les modèles Kimi en tant qu'API gérée, il n'est pas nécessaire de provisionner ni de gérer l'infrastructure.

Les modèles suivants sont disponibles auprès de Kimi pour une utilisation dans Vertex AI. Pour accéder à un modèle Kimi, accédez à sa fiche de modèle Model Garden.

Kimi K2 Thinking

Kimi K2 Thinking est un modèle de réflexion de Kimi qui excelle dans la résolution de problèmes complexes et le raisonnement approfondi.

Accéder à la fiche de modèle Kimi K2 Thinking

Utiliser les modèles Kimi

Pour les modèles gérés, vous pouvez utiliser des commandes curl pour envoyer des requêtes au point de terminaison Vertex AI à l'aide des noms de modèles suivants :

  • Pour Kimi K2 Thinking, utilisez kimi-k2-thinking-maas.

Pour savoir comment effectuer des appels de streaming et non-streaming aux modèles Kimi, consultez Appeler des API de modèles ouverts.

Pour utiliser un modèle Vertex AI déployé automatiquement :

  1. Accédez à la console Model Garden.
  2. Trouvez le modèle Vertex AI approprié.
  3. Cliquez sur Activer et remplissez le formulaire fourni pour obtenir les licences d'utilisation commerciale nécessaires.

Pour en savoir plus sur le déploiement et l'utilisation des modèles partenaires, consultez Déployer un modèle partenaire et envoyer des requêtes de prédiction .

Disponibilité régionale du modèle Kimi

Les modèles Kimi sont disponibles dans les régions suivantes :

Modèle Régions
Kimi K2 Thinking
  • global
    • Sortie maximale : 262 144
    • Longueur du contexte : 262 144

Étapes suivantes

Découvrez comment appeler des API de modèles ouverts.