GLM 모델

Vertex AI 기반 GLM 모델은 완전 관리형 서버리스 모델을 API로 제공합니다. Vertex AI에서 GLM 모델을 사용하려면 Vertex AI API 엔드포인트로 직접 요청을 보내면 됩니다. GLM 모델은 관리형 API를 사용하므로 인프라를 프로비저닝하거나 관리할 필요가 없습니다.

대답을 스트리밍하여 최종 사용자의 지연 시간 인식을 줄일 수 있습니다. 스트리밍된 응답은 서버 전송 이벤트(SSE)를 사용하여 응답을 점진적으로 스트리밍합니다.

GLM 4.7

GLM 4.7은 코어 또는 바이브 코딩, 도구 사용, 복잡한 추론을 위해 설계된 GLM의 모델입니다.

GLM 4.7 모델 카드로 이동

GLM 5

GLM 5는 복잡한 시스템 엔지니어링과 장기 에이전트 작업을 타겟팅하는 GLM의 모델입니다.

GLM 5 모델 카드로 이동

GLM 모델 사용

관리형 모델의 경우 curl 명령어를 사용하여 다음 모델 이름으로 Vertex AI 엔드포인트에 요청을 보낼 수 있습니다.

GLM 4.7의 경우 glm-4.7-maas 사용
GLM 5의 경우 glm-5-maas를 사용합니다.

GLM 모델에 스트리밍 및 비스트리밍 호출을 수행하는 방법을 알아보려면 개방형 모델 API 호출을 참고하세요.

자체 배포 Vertex AI 모델을 사용하려면 다음 단계를 따르세요.

Model Garden 콘솔로 이동합니다.
관련 Vertex AI 모델을 찾습니다.
사용 설정을 클릭하고 제공된 양식을 작성하여 필요한 상업적 사용 라이선스를 받습니다.

파트너 모델 배포 및 사용에 관한 자세한 내용은 파트너 모델 배포 및 예측 요청 을 참고하세요.

GLM 모델 리전 가용성

GLM 모델은 다음 리전에서 사용할 수 있습니다.

모델	리전
GLM 4.7	`global` 최대 출력: 128,000 컨텍스트 길이: 200,000
GLM 5	`global` 최대 출력: 128,000 컨텍스트 길이: 200,000

다음 단계

개방형 모델 API를 호출하는 방법 알아보기

GLM 모델 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.