Modelos GLM

Los modelos GLM de Vertex AI ofrecen modelos totalmente gestionados y sin servidor como APIs. Para usar un modelo GLM en Vertex AI, envía una solicitud directamente al endpoint de la API de Vertex AI. Como los modelos GLM usan una API gestionada, no es necesario aprovisionar ni gestionar ninguna infraestructura.

Puedes transmitir tus respuestas para reducir la latencia que perciben los usuarios finales. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Modelos GLM disponibles

Los siguientes modelos están disponibles en GLM para usarlos en Vertex AI. Para acceder a un modelo GLM, ve a su tarjeta de modelo de Model Garden.

GLM 4.7

GLM 4.7 es un modelo de GLM diseñado para la codificación básica o de ambiente, el uso de herramientas y el razonamiento complejo.

Ir a la tarjeta de modelo de GLM 4.7

Usar modelos GLM

Puedes usar comandos curl para enviar solicitudes al endpoint de Vertex AI con los siguientes nombres de modelo:

En GLM 4.7, usa glm-4.7-maas

Para saber cómo hacer llamadas de streaming y no de streaming a modelos GLM, consulta Llamar a APIs de modelos abiertos.

Disponibilidad y cuotas de las regiones del modelo GLM

En el caso de los modelos GLM, se aplica una cuota a cada región en la que esté disponible el modelo. La cuota se especifica en consultas por minuto (CPM).

Modelo	Región	Cuotas	Longitud del contexto
GLM 4.7
GLM 4.7	`global endpoint`		200.000

Si quieres aumentar alguna de tus cuotas de IA generativa en Vertex AI, puedes solicitarlo a través de la Google Cloud consola. Para obtener más información sobre las cuotas, consulta la descripción general de las cuotas de Cloud.

Siguientes pasos

Consulta cómo llamar a APIs de modelos abiertos.

Modelos GLM Organízate con las colecciones Guarda y clasifica el contenido según tus preferencias.