GLM 模型

Vertex AI 上的 GLM 模型以 API 形式提供全代管式无服务器模型。如需使用 Vertex AI 上的 GLM 模型,请直接向 Vertex AI API 端点发送请求。由于 GLM 模型使用托管式 API,因此无需预配或管理基础设施。

您可以流式传输回答,以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。

GLM 4.7

GLM 4.7 是 GLM 推出的模型,适用于核心编码、氛围编程、工具使用和复杂推理场景。

前往 GLM 4.7 模型卡片

GLM 5

GLM 5 是 GLM 推出的模型,适用于复杂的系统工程和长周期智能体任务。

前往 GLM 5 模型卡片

使用 GLM 模型

对于受管理的模型,您可以使用 curl 命令通过以下模型名称向 Vertex AI 端点发送请求:

  • 对于 GLM 4.7,请使用 glm-4.7-maas
  • 对于 GLM 5,请使用 glm-5-maas

如需了解如何对 GLM 模型进行流式调用和非流式调用,请参阅调用开放模型 API

如需使用自行部署的 Vertex AI 模型,请执行以下操作:

  1. 前往 Model Garden 控制台
  2. 找到相关的 Vertex AI 模型。
  3. 点击启用,然后填写提供的表单,以获取必要的商业用途许可。

如需详细了解如何部署和使用合作伙伴模型,请参阅 部署合作伙伴模型并发出预测请求

GLM 模型区域可用性

GLM 模型可在以下区域使用:

型号 区域
GLM 4.7
  • global
    • 输出上限:128,000
    • 上下文长度:200,000
GLM 5
  • global
    • 输出上限:128,000
    • 上下文长度:200,000

后续步骤

了解如何调用开放模型 API