모델 모니터링

이 문서에서는 Vertex AI에서 완전 관리형 모델의 동작, 상태, 성능을 모니터링하는 방법을 설명합니다. 사전 빌드된 모델 모니터링 가능성 대시보드를 사용하여 모델 사용에 관한 통계를 얻고, 지연 시간 문제를 식별하고, 오류를 해결하는 방법을 설명합니다.

다음 작업을 수행하는 방법을 알아봅니다.

  • 모델 모니터링 가능성 대시보드에 액세스하고 이를 해석합니다.
  • 사용 가능한 모니터링 측정항목을 확인합니다.
  • 측정항목 탐색기를 사용하여 모델 엔드포인트 트래픽을 모니터링합니다.

모델 모니터링 가능성 대시보드에 액세스하고 해석하기

Vertex AI의 생성형 AI는 완전 관리형 모델의 동작, 상태, 성능을 볼 수 있는 사전 빌드된 모델 모니터링 가능성 대시보드를 제공합니다. 서비스로서의 모델(MaaS)이라고도 부르는 완전 관리형 모델은 Google에서 제공되며 관리형 엔드포인트와 함께 Google의 Gemini 모델 및 파트너 모델을 포함합니다. 자체 호스팅된 모델의 측정항목은 대시보드에 포함되지 않습니다.

Vertex AI의 생성형 AI는 MaaS 모델의 활동을 자동으로 수집 및 보고하여 지연 시간 문제를 빠르게 문제 해결하고 용량을 모니터링할 수 있게 해줍니다.

Cloud 콘솔의 샘플 모델 모니터링 가능성 대시보드
모델 모니터링 가능성 대시보드 예시

사용 사례

애플리케이션 개발자는 자신이 노출한 모델에 대한 사용자의 상호작용 방법을 확인할 수 있습니다. 예를 들어 모델 사용량(초당 모델 요청 수) 및 사용자 프롬프트의 컴퓨팅 강도(모델 호출 지연 시간)가 시간별로 달라지는 추세를 확인할 수 있습니다. 따라서 이러한 측정항목이 모델 사용량과 관련이 있기 때문에 각 모델을 실행하는 비용도 예상할 수 있습니다.

문제가 발생하면 대시보드에서 빠르게 문제 해결할 수 있습니다. API 오류 비율, 최초 토큰 지연 시간, 토큰 처리량을 보고 모델이 안정적으로 적절한 시간 내에 응답하는지 확인할 수 있습니다.

사용 가능한 모니터링 측정항목

모델 모니터링 가능성 대시보드에는 모델의 초당 요청 수(QPS), 토큰 처리량, 최초 토큰 지연 시간과 같이 Cloud Monitoring에서 수집되는 일부 측정항목이 표시됩니다. 사용 가능한 모든 측정항목을 보려면 대시보드를 확인하세요.

제한사항

Vertex AI는 모델 엔드포인트에 대한 API 호출의 대시보드 측정항목만 캡처합니다. Vertex AI Studio의 측정항목과 같은 Google Cloud 콘솔 사용량은 대시보드에 추가되지 않습니다.

대시보드 보기

  1. Google Cloud 콘솔의 Vertex AI 섹션에서 대시보드 페이지로 이동합니다.

Vertex AI로 이동 1. 대시보드의 모델 모니터링 가능성에서 모든 측정항목 표시를 클릭하여 Google Cloud Observability 콘솔에서 모델 모니터링 가능성 대시보드를 확인합니다.

  1. 특정 모델에 대한 또는 특정 위치에 있는 측정항목을 보려면 대시보드 페이지 맨 위에서 하나 이상의 필터를 설정합니다.

    각 측정항목에 대한 설명은 Google Cloud 측정항목 페이지에서 'aiplatform' 섹션을 참조하세요.

모델 엔드포인트 트래픽 모니터링

다음 안내에 따라 측정항목 탐색기에서 엔드포인트로 전송되는 트래픽을 모니터링하세요.

  1. Google Cloud 콘솔에서 측정항목 탐색기 페이지로 이동합니다.

    측정항목 탐색기로 이동

  2. 측정항목을 보려는 프로젝트를 선택합니다.

  3. 측정항목 드롭다운 메뉴에서 측정항목 선택을 클릭합니다.

  4. 리소스 또는 측정항목 이름으로 필터링 검색창에 Vertex AI Endpoint를 입력합니다.

  5. Vertex AI 엔드포인트 > 예측 측정항목 카테고리를 선택합니다. 활성 측정항목에서 다음 측정항목 중 하나를 선택합니다.

    • prediction/online/error_count
    • prediction/online/prediction_count
    • prediction/online/prediction_latencies
    • prediction/online/response_count

    적용을 클릭합니다. 측정항목을 2개 이상 추가하려면 쿼리 추가를 클릭합니다.

    다음 드롭다운 메뉴를 사용해서 측정항목을 필터링하거나 집계할 수 있습니다.

    • 지정된 기준에 따라 데이터의 하위 집합을 선택하고 보려면 필터 드롭다운 메뉴를 사용하세요. 예를 들어 gemini-2.0-flash-001 모델을 필터링하려면 endpoint_id = gemini-2p0-flash-001을 사용합니다(모델 버전의 .p로 대체됨).

    • 여러 데이터 포인트를 단일 값으로 결합하고 측정항목의 요약 뷰를 보려면 집계 드롭다운 메뉴를 사용하세요. 예를 들어 response_code합계를 집계할 수 있습니다.

  6. 원하는 경우 엔드포인트에 대한 알림을 설정할 수 있습니다. 자세한 내용은 알림 정책 관리를 참조하세요.

대시보드를 사용하여 프로젝트에 추가한 측정항목을 보려면 대시보드 개요를 참조하세요.

다음 단계