Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

인스턴스 및 작업 모니터링

Cloud Monitoring은 Managed Lustre 인스턴스에 관한 정보를 자동으로 수집하고 저장합니다.

이 문서에서는 Google Cloud에서 Managed Lustre를 모니터링하는 데 사용할 수 있는 측정항목을 자세히 설명합니다. 이러한 측정항목은 Managed Lustre 파일 시스템의 성능, 용량, 상태를 파악하는 데 도움이 되므로 병목 현상을 식별하고, 문제를 해결하고, 리소스 사용률을 최적화할 수 있습니다.

Cloud Monitoring에서 이러한 측정항목을 사용하여 커스텀 대시보드를 만들고, 알림을 설정하고, 관리형 Lustre 인스턴스의 동작에 대한 자세한 통계를 얻을 수 있습니다.

Cloud Monitoring은 Managed Lustre에 자동으로 사용 설정됩니다. Google Cloud 콘솔에서 데이터를 수집하거나 측정항목을 볼 때는 요금이 부과되지 않습니다. API 호출 시 요금이 발생할 수 있습니다. 가격 책정 세부정보는 Cloud Monitoring 가격 책정을 참고하세요.

필요한 IAM 역할

다음 역할이 필요합니다.

모니터링 뷰어 (roles/monitoring.viewer) 또는 이에 상응하는 권한이 있어야 Cloud Monitoring에서 측정항목을 볼 수 있습니다.
알림을 구성하려면 모니터링 편집자 (roles/monitoring.editor) 또는 이에 상응하는 권한이 필요합니다.

IAM 역할 부여 방법을 알아보세요.

측정항목 보기

Cloud Monitoring 측정항목은Google Cloud 콘솔의 2개 위치에서 사용할 수 있습니다.

Managed Lustre 인스턴스 세부정보 페이지에 사용 가능한 측정항목이 표시됩니다. 이 페이지에 나열된 측정항목 외에도 복사된 바이트의 대역폭 및 복사되는 객체 비율을 계산합니다.
Cloud Monitoring 페이지에서는 여러 차트 옵션과 맞춤설정을 제공합니다.

인스턴스 세부정보 페이지에서 측정항목 보기

특정 인스턴스의 측정항목을 보려면 다음 단계를 따르세요.

Google Cloud 콘솔에서 인스턴스 페이지로 이동합니다.

인스턴스로 이동
측정항목을 보려는 인스턴스를 클릭합니다. 인스턴스 세부정보 페이지가 표시됩니다.
모니터링 탭을 클릭합니다. 기본 대시보드가 표시됩니다.

Cloud Monitoring에서 측정항목 보기

Cloud Monitoring에서 Managed Lustre 측정항목을 보려면 다음을 수행하세요.

Google Cloud 콘솔에서 측정항목 탐색기 페이지로 이동합니다.

Monitoring으로 이동: 측정항목 탐색기
측정항목 탐색기로 차트 만들기의 안내에 따라 측정항목을 선택하고 표시합니다.

알림 설정

Cloud Monitoring에서 Managed Lustre 파일 시스템이 스토리지 용량 또는 처리량 한도 초과와 같은 특정 조건을 충족할 때 알리도록 알림 정책을 구성할 수 있습니다.

기본 요건

알림 정책을 만들려면 프로젝트에 대한 모니터링 편집자 (roles/monitoring.editor) IAM 역할이 있어야 합니다.

알림 정책 만들기

알림을 설정하려면 측정항목 또는 PromQL 쿼리를 사용하여 조건을 정의하고 알림 채널을 구성합니다.

Google Cloud 콘솔에서 Google Cloud 콘솔의 알림 페이지로 이동합니다.

Monitoring: Alerting으로 이동
+ 정책 만들기를 클릭합니다.
빌더를 선택하고 측정항목을 선택하거나 코드 편집기를 선택하여 PromQL로 쿼리를 입력합니다. 측정항목 선택기에서 Managed Lustre 측정항목은 Lustre 인스턴스 및 Lustre 위치 리소스에 속합니다.
트리거 로직을 구성하고 알림 채널과 알림 설정을 정의합니다.
정책 만들기를 클릭합니다.

트리거 만들기 및 기타 옵션에 대한 자세한 내용은 다음을 참고하세요.

예: 스토리지 용량 알림 만들기

다음 예에서는 프로비저닝된 용량의 80% 를 초과할 때 트리거되는 알림을 Managed Lustre 인스턴스에 만드는 방법을 보여줍니다.

Google Cloud 콘솔에서 Google Cloud 콘솔의 알림 페이지로 이동합니다.

Monitoring: Alerting으로 이동
+ 정책 만들기를 클릭합니다.
코드 편집기를 선택합니다.
쿼리 편집기에 다음 PromQL 쿼리를 붙여넣습니다.
```
(
  sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
  -
  sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)
)
/
sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes)
> 0.8
```
이 쿼리는 모든 인스턴스에서 사용량 비율을 계산합니다((Total - Available) / Total). 0.8 값은 사용량이 80% 에 도달하는 총 바이트를 나타냅니다. 90%에서 알리려면 이 값을 0.9로 변경합니다.
쿼리 실행을 클릭하여 구문을 확인하고 현재 사용 비율의 차트를 확인합니다.
다음을 클릭하고 트리거를 시계열 위반으로 구성합니다.

다음을 클릭합니다. 문서 섹션에서 용량 문제를 해결하기 위한 권장 조치를 추가합니다. 예를 들면 다음과 같습니다.

## Action Required: Lustre Capacity Warning
The Managed Lustre instance is exceeding 80% capacity usage.

**Metric:** Usage Ratio > 0.8
**Severity:** Warning

**Recommended Actions:**
1. Check the instance details in the Google Cloud console.
2. Verify if this is expected data growth or a runaway process.
3. If valid, consider expanding the storage capacity of the instance or deleting old data to free up space.
4. Failure to address this may result in "No Space Left on Device" errors for client applications.

gcloud로 알림 정책 만들기

Google Cloud CLI를 사용하여 알림 정책을 만들 수 있습니다. 나중에 Google Cloud 콘솔에서 알림을 수정하여 특정 알림 채널을 사용 설정해야 합니다.

다음 예시에서는 gcloud를 사용하여 80% 용량 알림을 만듭니다.

gcloud monitoring policies create \
  --policy-from-file=/dev/stdin <<EOF
{
  "displayName": "Lustre High Capacity Usage (>80%)",
  "severity": "WARNING",
  "combiner": "OR",
  "conditions": [
    {
      "displayName": "Capacity Usage Ratio > 0.8",
      "conditionPrometheusQueryLanguage": {
        "query": "(sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) - sum by (instance_id, location) (lustre_googleapis_com:instance_available_bytes)) / sum by (instance_id, location) (lustre_googleapis_com:instance_capacity_bytes) > 0.8",
        "duration": "300s",
        "evaluationInterval": "60s",
        "alertRule": "AlwaysOn"
      }
    }
  ],
  "documentation": {
    "content": "Action Required: The Managed Lustre instance is exceeding 80% capacity usage. Please verify if storage expansion is required.",
    "mimeType": "text/markdown"
  }
}
EOF

측정항목 세부정보

Managed Lustre 측정항목은 다음 모니터링 리소스 유형에 연결됩니다.

lustre.googleapis.com/Instance
lustre.googleapis.com/Job
lustre.googleapis.com/QuotaEntity

데이터는 60초마다 샘플링됩니다. 샘플링되면 데이터가 최대 180초 동안 표시되지 않을 수 있습니다.

스토리지 용량 측정항목

Lustre 파일 시스템에서 사용 가능하고 프로비저닝된 스토리지 공간과 관련된 측정항목입니다.

측정항목 라벨의 경우 target 값은 <fsname>-<TYPE><HEXA> 형식을 사용합니다. 여기서 <HEXA>는 16진수의 타겟 0 기반 색인입니다. 예를 들어 파일 시스템 이름이 filesys이고 43번째 OST가 filesys-OST002a이며 4번째 MDT가 filesys-MDT0003입니다.

스토리지 용량 측정항목은 lustre.googleapis.com/Instance 리소스에 연결됩니다.

측정항목	설명	세부정보
`available_bytes`	특정 객체 스토리지 타겟(OST) 또는 메타데이터 타겟 (MDT)에서 루트가 아닌 사용자에게 제공되는 스토리지 공간의 바이트 수입니다.	표시 이름: 사용 가능한 바이트 측정항목 종류: 게이지 값 유형: INT64 단위: 바이트 라벨: `component`: 타겟 유형: `ost`, `mdt` 또는 `mgt` `target`: 타겟의 이름입니다.
`capacity_bytes`	지정된 타겟에 대해 프로비저닝된 바이트 수입니다. 인스턴스의 총 클러스터 사용 가능 데이터 공간 또는 메타데이터 공간은 지정된 유형의 모든 타겟 용량을 합산하여 얻을 수 있습니다.	표시 이름: 용량 바이트 측정항목 종류: 게이지 값 유형: INT64 단위: 바이트 라벨: `component`: 타겟 유형: `ost`, `mdt` 또는 `mgt` `target`: 타겟의 이름입니다.
`free_bytes`	특정 OST 또는 MDT에서 루트 사용자에게 제공되는 스토리지 공간의 바이트 수입니다.	표시 이름: 여유 바이트 측정항목 종류: 게이지 값 유형: INT64 단위: 바이트 라벨: `component`: 타겟 유형: `ost`, `mdt` 또는 `mgt` `target`: 타겟의 이름입니다.

Inode (객체) 측정항목

사용 가능한 아이노드 (객체) 수 및 최대 용량과 관련된 측정항목입니다.

inode 측정항목은 lustre.googleapis.com/Instance 리소스에 연결됩니다.

측정항목	설명	세부정보
`inodes_free`	지정된 타겟에서 사용할 수 있는 아이노드 (객체) 수입니다.	표시 이름: 사용 가능한 아이노드 측정항목 종류: 게이지 값 유형: INT64 단위: 아이노드 라벨: `component`: 타겟 유형입니다. `target`: 타겟의 이름입니다.
`inodes_maximum`	타겟이 보유할 수 있는 최대 아이노드 (객체) 수입니다.	표시 이름: 최대 아이노드 측정항목 종류: 게이지 값 유형: INT64 단위: 아이노드 라벨: `component`: 타겟 유형입니다. `target`: 타겟의 이름입니다.

I/O 성능 측정항목

데이터 전송 속도와 작업 지연 시간에 대한 통계를 제공하는 측정항목입니다.

I/O 성능 측정항목은 lustre.googleapis.com/Instance 리소스에 연결됩니다.

측정항목	설명	세부정보
`io_time_milliseconds_total`	지연 시간이 버킷팅된 지연 시간 범위 내에 있는 읽기 또는 쓰기 작업 수입니다.	표시 이름: 작업 지연 시간 측정항목 종류: 누적 값 유형: INT64 단위: 작업 라벨: `component`: 타겟 유형입니다. `operation`: 작업 유형입니다. `size`: 버킷화된 지연 시간 범위입니다. 예를 들어 512에는 512ms~1024ms 동안 수행된 작업 수가 포함됩니다. `target`: 타겟의 이름입니다.
`read_bytes_total`	지정된 OST에서 읽은 데이터 바이트 수입니다.	표시 이름: 데이터 읽기 바이트 측정항목 종류: CUMULATIVE 값 유형: INT64 단위: 바이트 라벨: `component`: 타겟 유형: 항상 `ost`입니다. `operation`: 작업 유형: `read` `target`: 타겟의 이름입니다.
`read_samples_total`	지정된 OST에서 수행된 읽기 작업 수입니다.	표시 이름: 데이터 읽기 작업 측정항목 종류: CUMULATIVE 값 유형: INT64 단위: operations 라벨: `component`: 타겟 유형입니다. 항상 `ost`입니다. `operation`: 작업 유형: `read` `target`: 타겟의 이름입니다.
`write_bytes_total`	지정된 OST에 기록된 데이터 바이트 수입니다.	표시 이름: 데이터 쓰기 바이트 측정항목 종류: CUMULATIVE 값 유형: INT64 단위: 바이트 라벨: `component`: 타겟 유형: 항상 `ost`입니다. `operation`: 작업 유형: `write` `target`: 타겟의 이름입니다.
`write_samples_total`	지정된 OST에서 수행된 쓰기 작업 수입니다.	표시 이름: 데이터 쓰기 작업 측정항목 종류: CUMULATIVE 값 유형: INT64 단위: operations 라벨: `component`: 타겟 유형: 항상 `ost`입니다. `operation`: 작업 유형: `write` `target`: 타겟의 이름입니다.

캐시 측정항목

동적 등급이 있는 인스턴스의 데이터 캐싱 레이어 성능 및 활용률에 관한 통계를 제공하는 측정항목입니다.

캐시 측정항목은 lustre.googleapis.com/Instance 리소스에 연결됩니다.

측정항목	설명	세부정보
`cache/read_hits`	특정 타겟의 읽기 조회수입니다.	표시 이름: 캐시 읽기 조회수 측정항목 종류: 누적 값 유형: INT64 단위: 1 라벨: `target`: 타겟의 이름입니다.
`cache/read_misses`	특정 타겟의 읽기 누락 수입니다.	표시 이름: 캐시 읽기 누락 측정항목 종류: CUMULATIVE 값 유형: INT64 단위: 1 라벨: `target`: 타겟의 이름입니다.

클라이언트 연결 측정항목

클라이언트 연결을 이해하기 위한 측정항목입니다.

클라이언트 연결 측정항목은 lustre.googleapis.com/Instance 리소스에 연결됩니다.

측정항목	설명	세부정보
`connected_clients`	지정된 MDT에 현재 연결된 클라이언트 수입니다.	표시 이름: 연결된 클라이언트 측정항목 종류: 게이지 값 유형: INT64 단위: 클라이언트 라벨: `component`: 타겟 유형입니다. 항상 `mdt`입니다. `target`: MDT의 이름입니다.

파일 시스템 할당량 측정항목

파일 시스템 할당량 측정항목을 사용하면 특정 사용자, 그룹, 프로젝트의 스토리지 및 아이노드 소비를 모니터링할 수 있습니다. 이러한 측정항목을 사용하여 파일 시스템에 구성된 소프트 및 하드 한도에 대한 현재 사용량을 추적합니다.

파일 시스템 할당량 측정항목은 lustre.googleapis.com/QuotaEntity 모니터링 리소스와 연결됩니다.

측정항목	설명	세부정보
`used_bytes`	사용자, 그룹 또는 프로젝트에서 현재 소비한 총 바이트 수입니다.	표시 이름: 사용된 할당량 바이트 측정항목 종류: GAUGE 값 유형: INT64 단위: 바이트 라벨: `accounting_type`: `user`, `group`, `project` 중 하나 `id`: 사용자, 그룹 또는 프로젝트의 숫자 ID입니다. `target`: Lustre 대상 기기의 이름입니다.
`soft_limit_bytes`	유예 기간을 트리거하는 스토리지 소비 기준입니다. 유예 기간이 만료된 후에도 사용량이 이 한도를 초과하면 엄격한 한도가 적용됩니다.	표시 이름: 할당량 소프트 한도 바이트 측정항목 종류: 게이지 값 유형: INT64 단위: 바이트 라벨: `accounting_type`: `user`, `group` 또는 `project` 중 하나 `id`: 사용자, 그룹 또는 프로젝트의 숫자 ID입니다. `target`: Lustre 대상 기기의 이름입니다.
`hard_limit_bytes`	사용자, 그룹 또는 프로젝트에 허용되는 최대 스토리지 사용량입니다. 이 한도를 초과하는 쓰기는 거부됩니다.	표시 이름: 할당량 하드 한도 바이트 측정항목 종류: 게이지 값 유형: INT64 단위: 바이트 라벨: `accounting_type`: `user`, `group` 또는 `project` 중 하나 `id`: 사용자, 그룹 또는 프로젝트의 숫자 ID입니다. `target`: Lustre 대상 기기의 이름입니다.
`used_inodes`	사용자, 그룹 또는 프로젝트에서 현재 사용 중인 총 inode (파일 레코드) 수입니다.	표시 이름: 할당량 사용 inode 측정항목 종류: GAUGE 값 유형: INT64 단위: Count 라벨: `accounting_type`: `user`, `group` 또는 `project` 중 하나입니다. `id`: 사용자, 그룹 또는 프로젝트의 숫자 ID입니다. `target`: Lustre 대상 기기의 이름입니다.
`soft_limit_inodes`	유예 기간을 트리거하는 inode 소비 임계값입니다. 유예 기간이 만료된 후에도 사용량이 이 한도를 초과하면 강제 엄격한 한도가 됩니다.	표시 이름: 할당량 소프트 한도 inode 측정항목 종류: 게이지 값 유형: INT64 단위: 개수 라벨: `accounting_type`: `user`, `group` 또는 `project` 중 하나입니다. `id`: 사용자, 그룹 또는 프로젝트의 숫자 ID입니다. `target`: Lustre 대상 기기의 이름입니다.
`hard_limit_inodes`	사용자, 그룹 또는 프로젝트에 허용되는 최대 아이노드 수입니다. 이 한도를 초과하는 파일 생성은 거부됩니다.	표시 이름: 할당량 하드 한도 아이노드 측정항목 종류: 게이지 값 유형: INT64 단위: 개수 라벨: `accounting_type`: `user`, `group` 또는 `project` 중 하나입니다. `id`: 사용자, 그룹 또는 프로젝트의 숫자 ID입니다. `target`: Lustre 대상 기기의 이름입니다.

Jobstats 측정항목

클라이언트에서 구성된 대로 JobID별 읽기, 쓰기, 메타데이터 통계를 제공하는 측정항목

이러한 측정항목을 수집하려면 lctl를 사용하여 Lustre 클라이언트에서 jobid_var 매개변수를 개별적으로 구성하세요. 관리 서버 (MGS)를 통해 이 매개변수를 전역적으로 설정하는 것은 지원되지 않습니다. 시작 스크립트 또는 Chef, Puppet과 같은 구성 관리 도구를 사용하여 클라이언트 전반에서 이 구성을 자동화할 수 있습니다.

특정 식별자 (예: procname_uid)를 보고하도록 클라이언트를 구성하려면 lctl set_param jobid_var 명령어를 사용합니다.

lctl set_param jobid_var=procname_uid

jobstats 작동 방식 또는 사용 가능한 jobid 형식에 대한 자세한 내용은 Lustre Jobstats를 참고하세요.

Jobstats 측정항목을 사용 설정해도 파일 시스템 성능에 미치는 영향은 미미하거나 없습니다. 통계는 서버의 메모리에 유지되며 RPC당 추가 네트워크 오버헤드는 미미합니다.

프로세스 이름이나 사용자 ID와 같은 안정적인 식별자를 JobID에 사용하는 것이 좋습니다. 각 작업에 고유 식별자(예: 임의 UUID)를 사용하면 카디널리티가 높아져 쿼리 속도가 느려질 수 있습니다. 극단적인 경우 안정성을 보장하기 위해 jobstats 수집을 일시중지할 수 있습니다. 쿼리 성능을 적절한 한도 내로 유지하려면 하루에 고유한 JobID가 1, 000개 미만인 것이 좋습니다.

여러 클라이언트에서 작업별 측정항목을 추적하려는 경우 JobID에 클라이언트별 식별자 (예: 호스트 이름)를 포함하지 마세요. 호스트 이름을 포함하면 집계된 작업별 측정항목이 아닌 클라이언트별 측정항목이 생성되며, 클라이언트 수가 많은 경우 측정항목 쿼리 성능에 큰 영향을 미칠 수 있습니다.

Jobstats 측정항목은 lustre.googleapis.com/Job 리소스에 연결됩니다.

측정항목	설명	세부정보
`read_bytes_total`	작업에서 읽은 총 바이트 수입니다.	표시 이름: 작업별 데이터 읽기 바이트 측정항목 종류: 누적 값 유형: INT64 단위: 바이트 라벨: `job_id`: 클라이언트에서 전송한 JobID입니다. `component`: 타겟 유형입니다. `target`: 타겟의 이름입니다. `instance_id`: Managed Lustre 인스턴스의 ID입니다.
`write_bytes_total`	작업에서 작성한 총 바이트 수입니다.	표시 이름: 작업별 데이터 쓰기 바이트 측정항목 종류: CUMULATIVE 값 유형: INT64 단위: 바이트 라벨: `job_id`: 클라이언트에서 전송한 JobID입니다. `component`: 타겟 유형입니다. `target`: 타겟의 이름입니다. `instance_id`: Managed Lustre 인스턴스의 ID입니다.
`metadata_operations_total`	작업에서 실행한 총 메타데이터 작업입니다.	표시 이름: 작업별 메타데이터 작업 측정항목 종류: CUMULATIVE 값 유형: INT64 단위: 작업 라벨: `job_id`: 클라이언트에서 전송한 JobID입니다. `component`: 타겟 유형입니다. `target`: 타겟의 이름입니다. `instance_id`: Managed Lustre 인스턴스의 ID입니다.
`read_samples_total`	작업에서 실행한 총 읽기 작업 수입니다.	표시 이름: 작업별 데이터 읽기 작업 측정항목 종류: CUMULATIVE 값 유형: INT64 단위: 작업 라벨: `job_id`: 클라이언트에서 전송한 JobID입니다. `component`: 타겟 유형입니다. `target`: 타겟의 이름입니다. `instance_id`: Managed Lustre 인스턴스의 ID입니다.
`write_samples_total`	작업에서 실행한 총 쓰기 작업 수입니다.	표시 이름: 작업별 데이터 쓰기 작업 측정항목 종류: CUMULATIVE 값 유형: INT64 단위: 작업 라벨: `job_id`: 클라이언트에서 전송한 JobID입니다. `component`: 타겟 유형입니다. `target`: 타겟의 이름입니다. `instance_id`: Managed Lustre 인스턴스의 ID입니다.
`read_maximum_size_bytes`	작업의 읽기 작업의 최대 크기(바이트)입니다.	표시 이름: 작업별 데이터 읽기 최대 크기 측정항목 종류: 게이지 값 유형: INT64 단위: 바이트 라벨: `job_id`: 클라이언트에서 전송한 JobID입니다. `component`: 타겟 유형입니다. `target`: 타겟의 이름입니다. `instance_id`: Managed Lustre 인스턴스의 ID입니다.
`read_minimum_size_bytes`	작업의 읽기 작업의 최소 크기(바이트)입니다.	표시 이름: 작업별 데이터 읽기 최소 크기 측정항목 종류: 게이지 값 유형: INT64 단위: 바이트 라벨: `job_id`: 클라이언트에서 전송한 JobID입니다. `component`: 타겟 유형입니다. `target`: 타겟의 이름입니다. `instance_id`: Managed Lustre 인스턴스의 ID입니다.
`write_maximum_size_bytes`	작업의 쓰기 작업의 최대 크기(바이트)입니다.	표시 이름: 작업별 데이터 쓰기 최대 크기 측정항목 종류: 게이지 값 유형: INT64 단위: 바이트 라벨: `job_id`: 클라이언트에서 전송한 JobID입니다. `component`: 타겟 유형입니다. `target`: 타겟의 이름입니다. `instance_id`: Managed Lustre 인스턴스의 ID입니다.
`write_minimum_size_bytes`	작업의 쓰기 작업의 최소 크기(바이트)입니다.	표시 이름: 작업별 데이터 쓰기 최소 크기 측정항목 종류: 게이지 값 유형: INT64 단위: 바이트 라벨: `job_id`: 클라이언트에서 전송한 JobID입니다. `component`: 타겟 유형입니다. `target`: 타겟의 이름입니다. `instance_id`: Managed Lustre 인스턴스의 ID입니다.