Grafana 대시보드를 사용하여 Spanner Omni 모니터링

Grafana 대시보드로 Spanner Omni 배포의 상태와 성능을 모니터링합니다. 이러한 대시보드는 Prometheus로 수집된 Spanner Omni 측정항목을 시각화하여 배포의 운영 상태에 대한 포괄적인 통계를 제공합니다. 전반적인 시스템 상태, 리소스 소비, 중요한 내부 프로세스를 파악할 수 있습니다.

대시보드 인벤토리

다음 표는 사용 가능한 대시보드의 대략적인 요약을 제공합니다.

대시보드 주요 측정항목 주요 목적
개요 QPS, 지연 시간, 처리량 초당 쿼리 수 (QPS), 요청 지연 시간, 데이터 처리량을 비롯한 대략적인 배포 성능을 모니터링합니다.
시스템 통계 CPU, 메모리, 잠금 대기 시간 선택한 데이터베이스의 데이터베이스 수준 리소스 소비 및 상태 (예: CPU, 메모리, 잠금 대기 시간)에 중점을 둡니다.
배포 통계 CPU, 메모리, 네트워크 사용률 전반적인 배포 리소스 소비 및 네트워크 통계에 대한 자세한 통계를 제공합니다.
Spanner Omni 파일 시스템 파일 작업, 지연 시간, 처리량 기본 파일 시스템 작업, 성능, 지연 시간, 처리량을 모니터링합니다.
gRPC RPC 수, 상태, 지연 시간 서버 측 및 클라이언트 측 통신에 대한 자세한 RPC 통계를 추적합니다.
컴팩션 컴팩션 성공 및 실패율, 컴팩션 지연 컴팩션 성공 및 실패율과 컴팩션 지연에 중점을 두고 백그라운드 데이터 유지보수 성능을 시각화합니다.
분할, 병합, 이동 분할, 병합, 이동 수, 그룹 크기 디렉터리 작업 (분할, 병합, 이동), 데이터 그룹 크기 조정, 잠재적 핫스팟을 비롯한 데이터의 동적 분포를 모니터링합니다.
태블릿 태블릿 수, 부하 분산 태블릿 통계, 작업, 부하 분산에 대한 심층적인 통계를 제공하고 잠재적 핫스팟을 식별합니다.
TrueTime 드리프트, 불확실성, SLA 위반 드리프트, 불확실성, SLA 위반을 비롯한 Spanner Omni TrueTime 서비스의 상태와 안정성을 모니터링합니다.
공유 로그 쓰기 속도, 정렬 오류율 공유 로그 성능, 특히 쓰기 속도와 정렬 오류율을 모니터링합니다.

다음은 대시보드에서 사용할 수 있는 일부 차트입니다.

  • 컴퓨팅 용량 (vCPU): 배포 전반에 프로비저닝된 총 vCPUs 수입니다.

  • 메모리 용량: 배포 전반에 프로비저닝된 총 실제 메모리입니다.

  • 스토리지 용량: 총 사용 가능한 파일 시스템 스토리지 용량입니다.

  • 노드 상태: 배포에서 총 서버 수와 비정상 서버 수를 추적합니다.

  • 컴퓨팅 사용률: 사용 중인 총 vCPU 용량의 비율입니다.

  • 메모리 사용률: 배포 전반의 총 메모리 사용량입니다. Spanner Omni는 캐시 목적으로 유휴 메모리를 사용하므로 사용량이 많을 것으로 예상됩니다.

  • 스토리지 사용률: 사용 중인 총 스토리지 용량의 비율입니다.

  • vCPU당 사용된 스토리지: 총 총 vCPU 수에 대한 총 스토리지 사용량의 비율입니다.

  • 서버: CPU 사용률, 메모리 사용률, 업타임, 총 vCPU, 총 메모리, 사용된 스토리지, 스토리지 용량에 대한 서버별 및 영역별 측정항목을 보여주는 상세 표입니다.

시스템 통계 대시보드

시스템 통계 대시보드는 배포의 데이터베이스 상태와 성능에 중점을 둡니다. 이 대시보드에는 다음 차트가 포함됩니다.

  • CPU 사용률 개요: 선택한 서버에서 집계된 데이터베이스 전반의 CPU 사용률입니다.

  • 사용자 및 시스템별 CPU 사용률: 선택한 데이터베이스의 CPU 사용률로, 사용자 및 시스템 태스크와 우선순위별로 그룹화됩니다.

  • 작업 유형별 CPU 사용률: 선택한 서버에서 집계된 선택한 데이터베이스의 작업 유형별로 그룹화된 CPU 사용률입니다.

  • 작업 유형별 CPU 사용률 - 우선순위 높음: 선택한 서버에서 집계된 선택한 CPU 데이터베이스의 작업 유형별로 그룹화되고 우선순위가 높음으로 필터링된 사용률입니다.

  • 작업 유형별 CPU 사용률 - 우선순위 보통: 선택한 서버에서 집계된 선택한 데이터베이스의 작업 유형별로 그룹화되고 우선순위가 보통으로 필터링된 CPU 사용률입니다.

  • 작업 유형별 CPU 사용률 - 우선순위 낮음: 선택한 서버에서 집계된 선택한 데이터베이스의 작업 유형별로 그룹화되고 우선순위가 낮음으로 필터링된 CPU 사용률입니다.

  • 요청 지연 시간 (P50, P90, P99): 선택한 서버에서 읽기 및 쓰기 메서드별로 그룹화된 선택한 데이터베이스 내의 지연 시간입니다.

  • 메서드별 요청 지연 시간 (P50, P90, P99): 선택한 서버에서 API 메서드별로 그룹화된 선택한 데이터베이스 내의 지연 시간입니다.

  • 트랜잭션 지연 시간 (P50, P90, P99): 선택한 서버에서 트랜잭션 유형 및 리더 참여별로 그룹화된 선택한 데이터베이스 내의 요청 지연 시간입니다.

  • 처리량: 선택한 서버에서 선택한 데이터베이스 내의 읽기 및 쓰기 처리량입니다.

  • 메서드별 처리량: 선택한 서버에서 메서드별로 그룹화된 선택한 데이터베이스 내의 처리량입니다.

  • 초당 작업 수: 선택한 데이터베이스 내의 초당 작업 수입니다. 선택한 서버에서 읽기 및 쓰기 메서드별로 그룹화됩니다.

  • 메서드별 초당 작업 수: 선택한 서버에서 메서드별로 그룹화된 선택한 데이터베이스 내의 초당 작업 수입니다.

  • 데이터베이스별 스토리지 사용률: 각 데이터베이스에서 사용하는 복제되지 않은 실제 바이트입니다. 각 그룹의 리더 태블릿은 이 측정항목을 제공합니다. 그룹의 모든 태블릿에서 복제된 실제 바이트는 각 태블릿의 컴팩션 상태에 따라 더 높거나 낮을 수 있지만 이 측정항목은 각 데이터베이스에서 복제되지 않은 실제 스토리지를 얼마나 사용하는지 대략적으로 파악할 수 있도록 해줍니다.

  • 잠금 대기 시간: 5분 간격으로 선택한 데이터베이스의 잠금 충돌에 대한 총 잠금 대기 시간입니다.

  • 취소된 트랜잭션 비율: 취소된 트랜잭션의 비율입니다. 트랜잭션 간에 충돌이 발생하면 취소율이 높아질 수 있습니다.

  • 스키마 객체 수: 선택한 데이터베이스의 스키마 객체 수입니다.

  • 트랜잭션 참여자: 데이터베이스의 각 커밋 시도에서 트랜잭션 참여자 수의 분포입니다.

배포 통계 대시보드

배포 통계 대시보드는 배포 리소스 소비에 대한 추가 통계를 제공합니다. 이 대시보드에는 다음 차트가 포함됩니다.

  • CPU 사용률: 선택한 서버의 집계된 CPU 사용률입니다.

  • 서버 CPU 사용률: CPU 선택한 각 서버의 사용률입니다.

  • 프로세스 CPU 사용률: CPU 집계된 각 프로세스의 사용률 선택한 서버에서.

  • 메모리 사용률: 선택한 서버의 집계된 메모리 사용률입니다. Spanner Omni는 메모리에 데이터를 캐시하므로 값이 높을 것으로 예상됩니다. Spanner Omni는 필요한 경우 메모리를 확보할 수 있습니다.

  • 서버 메모리 사용률: 선택한 각 서버의 메모리 사용률입니다. Spanner Omni는 메모리에 데이터를 캐시하므로 값이 높을 것으로 예상됩니다. Spanner Omni는 필요한 경우 메모리를 확보할 수 있습니다.

  • 프로세스 상주 메모리 크기: 선택한 서버의 각 프로세스에 대한 상주 메모리 크기입니다.

  • 프로세스 가상 메모리 크기: 선택한 서버의 각 프로세스에 대한 가상 메모리 크기입니다.

  • 서버 메모리 분석: 선택한 서버에서 집계된 카테고리별 메모리 사용률 (캐시, 조각화, memtable_pinned, 시스템, 업데이트, 기타)입니다. 이 메모리는 span_server 프로세스에만 해당됩니다.

  • 전송된 네트워크 바이트: 모든 서버에서 집계된 인터페이스당 전송된 바이트입니다.

  • 수신된 네트워크 바이트: 모든 서버에서 집계된 인터페이스당 수신된 바이트입니다.

  • 전송된 네트워크 바이트 기준 상위 10개 서버: 전송된 네트워크 바이트 기준 상위 10개 서버 (표 뷰)입니다.

  • 수신된 네트워크 바이트 기준 상위 10개 서버: 수신된 네트워크 바이트 기준 상위 10개 서버 (표 뷰)입니다.

Spanner Omni 파일 시스템 대시보드

Spanner Omni 파일 시스템 대시보드는 작업 속도, 지연 시간, 처리량을 비롯한 성능에 중요한 기본 파일 시스템 작업을 모니터링합니다. 이 대시보드에는 다음 차트가 포함됩니다.

  • 파일 작업 그래프:

    • 초당 작업 수: 작업별로 그룹화된 총 파일 작업 속도를 추적합니다.

    • 초당 로컬 및 원격 작업 수: 로컬 액세스와 원격 액세스로 구분된 파일 작업 속도를 추적합니다.

    • 초당 작업 오류 수: 작업 및 상태별로 그룹화된 실패한 파일 시스템 작업의 속도를 보여줍니다.

  • 지연 시간 그래프: 작업별로 그룹화된 로컬 및 원격 파일 작업의 P50, P90, P99 지연 시간 차트를 포함합니다.

  • 처리량 그래프:

    • 로컬 및 원격 읽기 및 쓰기 처리량: 로컬 액세스와 원격 액세스로 구분된 읽기 및 쓰기 처리량의 속도를 추적합니다.

    • 작업당 바이트: 로컬 액세스와 원격 액세스를 위해 P50P90 바이트를 포함합니다.

  • 파일 시스템 통계:

    • 영역별 총 파일 시스템 크기: 프로비저닝된 총 파일 시스템 크기를 Spanner Omni 영역별로 그룹화하여 표시합니다.

    • 영역별 파일 시스템 사용량: 현재 사용 중인 파일 시스템 크기를 Spanner Omni 영역별로 그룹화하여 표시합니다.

gRPC 대시보드

gRPC 대시보드는 배포 내의 모든 서버에 대한 자세한 RPC 통계를 추적합니다. 이 대시보드에는 다음 차트가 포함됩니다.

  • 서버 측 측정항목: 서버 관점에서 RPC 성능을 모니터링합니다.

    • 메서드별 RPC 지연 시간 (P50, P90, P99): 서버 측의 RPC 메서드당 지연 시간입니다.

    • 메서드별 서버 전송 처리량: 메서드당 초당 전송된 바이트 선택한 서버의 경우입니다.

    • 프로세스별 서버 전송 처리량: 선택한 서버의 프로세스당 초당 전송된 바이트입니다.

    • 메서드별 서버 수신 처리량: 선택한 서버의 메서드당 초당 수신된 바이트입니다.

    • 프로세스별 서버 수신 처리량: 선택한 서버의 프로세스당 초당 수신된 바이트입니다.

    • 메서드별 서버 표준 상태 수: 선택한 서버의 메서드당 표준 상태 코드 발생률입니다.

    • 메서드별 서버 완료 RPC: 선택한 서버의 메서드당 완료된 RPCs 비율입니다.

    • 서버 활성 채널: 애플리케이션이 시작된 후 생성되어 활성 상태로 유지되는 서버 측 gRPC 채널의 총 개수입니다.

  • 클라이언트 측 측정항목: 클라이언트 관점에서 RPC 성능을 모니터링합니다.

    • 메서드별 클라이언트 왕복 지연 시간 (P50, P90, P99): 서버 지연 시간, 네트워크, 대기열 시간을 포함하는 메서드당 왕복 RPC 지연 시간입니다.

    • 메서드별 클라이언트 전송 처리량: 선택한 서버의 메서드당 초당 전송된 바이트입니다.

    • 프로세스별 클라이언트 전송 처리량: 선택한 서버의 프로세스당 초당 전송된 바이트입니다.

    • 메서드별 클라이언트 수신 처리량: 선택한 서버의 메서드당 초당 수신된 바이트입니다.

    • 프로세스별 클라이언트 수신 처리량: 선택한 서버의 프로세스당 초당 수신된 바이트입니다.

    • 메서드별 클라이언트 표준 상태 수: 선택한 서버의 gRPC 클라이언트로서 메서드당 표준 상태 코드 발생률입니다.

    • 메서드별 클라이언트 완료 RPC: 선택한 서버의 메서드당 완료된 클라이언트 RPCs 비율입니다.

컴팩션 대시보드

컴팩션 대시보드는 백그라운드 컴팩션 작업의 성능을 시각화하여 보여줍니다. 이 대시보드에는 다음 차트가 포함됩니다.

  • 성공한 컴팩션 및 실패한 컴팩션 (최근 1시간): 컴팩션 유형별 및 서버별로 그룹화된 컴팩션 유형의 성공 및 실패 수를 추적합니다.

  • 컴팩션 출력 바이트 속도: 컴팩션 유형별 및 서버별로 그룹화된 2분 간격의 컴팩션 출력 바이트 속도를 추적합니다.

  • 컴팩션 입력 크기 분포: 히트맵은 컴팩션 입력 크기의 분포를 보여줍니다.

  • 컴팩션 입력 크기 (평균): 컴팩션 유형별 및 서버별로 그룹화된 평균 컴팩션 입력 크기를 표시합니다.

  • 컴팩션 입력 크기 (백분위수 추정치): 컴팩션 유형별 및 서버별로 그룹화된 컴팩션 입력 크기의 백분위수 추정치 (P50, P95, P99)를 제공합니다.

  • 주요 컴팩션 지연 분포: 히트맵은 모든 서버에서 집계된 주요 컴팩션 지연의 분포를 보여줍니다.

  • 서버당 주요 컴팩션 지연 (평균): 서버당 주요 컴팩션 지연의 평균을 보여줍니다.

  • 서버당 주요 컴팩션 지연 (백분위수 추정치): 서버당 주요 컴팩션 지연의 백분위수 추정치 (P50, P90, P99)를 제공합니다.

분할, 병합, 이동 대시보드

분할, 병합, 이동 대시보드는 디렉터리 작업 및 그룹 크기 조정을 비롯한 클러스터 전반의 데이터 동적 분포를 추적합니다. 이 대시보드에는 다음 차트가 포함됩니다.

  • 분할 크기 분포: 선택한 서버에서 집계된 P50, P90, P99, P100 백분위수를 비롯한 디렉터리 분할 크기입니다.

  • 그룹 크기 분포: 선택한 서버에서 집계된 P50, P90, P99, P100 백분위수를 비롯한 그룹에 할당된 모든 바이트 (영구 및 메모리 내)입니다.

  • 메모리 내 그룹 크기 분포: 선택한 서버에서 집계된 P50, P90, P99, P100 백분위수를 비롯한 그룹 메모리 내 데이터 구조에 할당된 모든 바이트입니다.

  • 영역별 그룹 크기: Spanner Omni 영역별로 그룹화된 그룹의 모든 할당된 바이트 (영구 및 메모리 내)에 대한 P50, P90, P99, P100 크기입니다.

  • 성공한 내부 데이터 이동 수: 1시간 동안의 디렉터리 및 그룹 이동, 분할, 병합 수로, 시작자, 작업, 이동 유형별로 그룹화됩니다.

  • 실패한 내부 데이터 이동 수: 1시간 동안 시도된 디렉터리 및 그룹 이동, 분할, 병합의 오류 수입니다.

  • 이유 및 유형별 분할할 수 없는 오류: 범위가 분할할 수 없기 때문에 과부하된 분할이 무시되는 분할할 수 없는 오류의 비율입니다.

  • 최대 분할 CPU 사용량 점수: 각 데이터베이스의 모든 분할에서 최대 CPU 사용량 부하입니다.

태블릿 대시보드

태블릿 대시보드는 태블릿 통계, 작업, 잠재적 핫스팟에 대한 심층적인 통계를 제공합니다. 이 대시보드에는 다음 차트가 포함됩니다.

  • 총 태블릿 수: 배포 전반의 총 Paxos 태블릿 수입니다.

  • 영역별 태블릿 수: Spanner Omni 영역별로 그룹화된 태블릿 수입니다.

  • 서버별 태블릿 수: 선택한 서버의 태블릿 수입니다.

  • 영역별 리더 수: Spanner Omni 영역별로 그룹화된 리더 태블릿 수입니다.

  • 서버별 리더 수: 선택한 서버의 리더 태블릿 수입니다.

  • 영역별 할당되지 않은 태블릿: 영역당 할당되지 않은 태블릿 수입니다.

  • 영역별 태블릿 로드: 영역별로 그룹화된 태블릿 로드 속도입니다.

  • 이유별 영역별 태블릿 언로드: 언로드 이유별로 분류된 영역당 태블릿 언로드 속도입니다.

  • 각 서버의 최대 태블릿 로드: 표 뷰는 각 서버의 태블릿에 대한 최대 컴퓨팅 부하를 표시합니다.

  • 핫 태블릿 수: 컴퓨팅 부하 임계값을 초과하는 태블릿인 핫 태블릿의 총 개수입니다.

  • 태블릿 부하 분포: 태블릿당 컴퓨팅 부하의 분포로, P50P90 백분위수 추정치와 정확한 MAX 값을 표시합니다.

TrueTime 대시보드

TrueTime 대시보드는 Spanner Omni TrueTime 서비스의 상태와 안정성을 보여줍니다. 이 대시보드에는 다음 차트가 포함됩니다.

  • TrueTime 가용성: TrueTime 서비스의 전반적인 가용성을 모니터링합니다.

  • P99 TrueTime 드리프트: TrueTime 드리프트의 99번째 백분위수를 추적합니다.

  • P99 TrueTime 불확실성: TrueTime 불확실성의 99번째 백분위수를 추적합니다.

  • 시계 SLA 위반: 시계 서비스수준계약 (SLA) 위반 수를 보여줍니다.

  • VM 마이그레이션 수: 가상 머신 마이그레이션 수를 추적합니다.

  • 리더의 TrueTime 드리프트: 리더 노드에서 TrueTime 드리프트를 구체적으로 모니터링합니다.

  • TrueTime 원하는 스티어링 ppm 및 실제 스티어링 ppm: 원하는 스티어링 값과 실제 스티어링 값 (ppm) 백만당 부분을 비교합니다.

  • TrueTime 스티어링 오류: TrueTime 스티어링 메커니즘의 오류를 추적합니다.

공유 로그 대시보드

공유 로그 대시보드는 공유 로그 성능 및 복구 상태를 모니터링하는 전용 대시보드입니다. 이 대시보드에는 다음 차트가 포함됩니다.

  • 공유 로그 쓰기 속도: 초당 공유 로그 항목 수로, 집계되고 데이터베이스별로 분류됩니다.

  • 공유 로그 작성 바이트: 초당 공유 로그 작성 바이트 (처리량)로, 데이터베이스별로 집계되고 분류됩니다.

  • 공유 로그 일괄 처리 쓰기 속도: 초당 공유 로그 일괄 처리 작성 수 선택한 서버에서 집계되었습니다.

  • 공유 로그 일괄 처리 쓰기 지연 시간 분포: 공유 로그 일괄 처리 쓰기의 P50, P90, P99 지연 시간 분포입니다.

  • 공유 로그 일괄 처리 항목 수 분포: 공유 로그 일괄 처리 내 항목 수의 P50, P90, P99 분포입니다.

  • LogSort 요청 속도: LogSort 요청 속도를 선택한 서버에서 집계했습니다.

  • LogSort 정렬 오류율: 선택한 서버에서 집계된 LogSort 정렬 오류율 입니다.

  • 진행 중인 공유 로그 리더: 태블릿 복구에 참여하는 공유 로그 리더의 총 개수입니다.

다음 단계