Os modelos GLM no Vertex AI oferecem modelos totalmente geridos e sem servidor como APIs. Para usar um modelo GLM no Vertex AI, envie um pedido diretamente para o ponto final da API Vertex AI. Uma vez que os modelos GLM usam uma API gerida, não é necessário aprovisionar nem gerir a infraestrutura.
Pode transmitir as suas respostas para reduzir a perceção de latência do utilizador final. Uma resposta em stream usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.
Modelos GLM disponíveis
Os seguintes modelos estão disponíveis no GLM para utilização no Vertex AI. Para aceder a um modelo GLM, aceda ao respetivo cartão de modelo do Model Garden.
GLM 4.7
O GLM 4.7 é um modelo do GLM concebido para codificação essencial ou de vibração, utilização de ferramentas e raciocínio complexo.
Aceda ao cartão do modelo GLM 4.7
Use modelos GLM
Pode usar comandos curl para enviar pedidos para o ponto final da Vertex AI com os seguintes nomes de modelos:
- Para o GLM 4.7, use
glm-4.7-maas
Para saber como fazer chamadas de streaming e não streaming para modelos GLM, consulte o artigo Chame APIs de modelos abertos.
Disponibilidade regional e quotas do modelo GLM
Para os modelos GLM, aplica-se uma quota a cada região onde o modelo está disponível. A quota é especificada em consultas por minuto (QPM).
| Modelo | Região | Quotas | Comprimento do contexto |
|---|---|---|---|
| GLM 4.7 | |||
global endpoint |
|
200 000 |
Se quiser aumentar alguma das suas quotas para a IA generativa no Vertex AI, pode usar a Google Cloud consola para pedir um aumento da quota. Para saber mais sobre as quotas, consulte a vista geral das quotas do Google Cloud.
O que se segue?
- Saiba como chamar APIs de modelos abertos.