I modelli Kimi su Vertex AI offrono modelli serverless e completamente gestiti come API. Per utilizzare un modello Kimi su Vertex AI, invia una richiesta direttamente all'endpoint API Vertex AI. Poiché i modelli Kimi utilizzano un'API gestita, non è necessario eseguire il provisioning o gestire l'infrastruttura.
Puoi trasmettere in streaming le risposte per ridurre la percezione della latenza da parte dell'utente finale. Una risposta in streaming utilizza gli eventi inviati dal server (SSE) per trasmettere in streaming in modo incrementale la risposta.
Modelli Kimi disponibili
I seguenti modelli sono disponibili da Kimi per l'utilizzo in Vertex AI. Per accedere a un modello Kimi, vai alla relativa scheda del modello Model Garden.
Kimi K2 Thinking
Kimi K2 Thinking è un modello di ragionamento di Kimi che eccelle nella risoluzione di problemi complessi e nel ragionamento approfondito.
Vai alla scheda del modello Kimi K2 Thinking
Utilizzare i modelli Kimi
Puoi utilizzare i comandi curl per inviare richieste all'endpoint Vertex AI utilizzando i seguenti nomi di modelli:
- Per Kimi K2 Thinking, utilizza
kimi-k2-thinking-maas
Per scoprire come effettuare chiamate di streaming e non di streaming ai modelli Kimi, consulta la sezione Chiamare le API dei modelli aperti.
Disponibilità e quote per la regione del modello Kimi
Per i modelli Kimi, si applica una quota per ogni regione in cui il modello è disponibile. La quota è specificata in query al minuto (QPM).
| Modello | Regione | Quote | Lunghezza del contesto |
|---|---|---|---|
| Kimi K2 Thinking | |||
global |
|
262144 |
Se vuoi aumentare una delle quote per l'AI generativa su Vertex AI, puoi utilizzare la Google Cloud console per richiedere un aumento di quota. Per saperne di più sulle quote, consulta la panoramica delle quote di Cloud.
Passaggi successivi
- Scopri come chiamare le API dei modelli aperti.