GLM 模型

Vertex AI 上的 GLM 模型以 API 形式提供全代管式无服务器模型。如需使用 Vertex AI 上的 GLM 模型，请直接向 Vertex AI API 端点发送请求。由于 GLM 模型使用托管式 API，因此无需预配或管理基础设施。

您可以流式传输回答，以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。

GLM 4.7 是 GLM 推出的模型，适用于核心编码、氛围编程、工具使用和复杂推理场景。

GLM 5 是 GLM 推出的模型，适用于复杂的系统工程和长周期智能体任务。

使用 GLM 模型

对于受管理的模型，您可以使用 curl 命令通过以下模型名称向 Vertex AI 端点发送请求：

如需了解如何对 GLM 模型进行流式调用和非流式调用，请参阅调用开放模型 API。

如需使用自行部署的 Vertex AI 模型，请执行以下操作：

如需详细了解如何部署和使用合作伙伴模型，请参阅部署合作伙伴模型并发出预测请求。

GLM 模型可在以下区域使用：

型号	区域
GLM 4.7	`global` 输出上限：128,000 上下文长度：200,000
GLM 5	`global` 输出上限：128,000 上下文长度：200,000