느린 성능 문제 해결

이 문서에서는 AI 최적화 VM 또는 클러스터에서 실행되는 워크로드에 대해 확인된 느린 성능을 해결하는 방법을 설명합니다.

성능 저하를 식별하는 방법을 알아보려면 Compute Engine 인스턴스 및 Slurm 클러스터 모니터링을 참고하세요.

  1. 워크로드의 의심되는 지연자를 식별하고 해결: 다음 단계를 완료합니다.

    1. 워크로드에 지연 감지를 사용할 수 있는지 확인합니다. 지연 감지 사용에 관한 제한사항 및 요구사항을 검토하려면 Compute Engine 인스턴스 및 Slurm 클러스터 모니터링을 참고하세요.

      지연 감지를 사용할 수 없는 경우 성능 저하 문제 해결을 위한 다른 옵션을 사용하세요.

    2. 워크로드의 VM이 지연된 것으로 의심되는지 확인하려면 지연 감지 측정항목을 확인하세요.

      예를 들어 Cloud Monitoring에서 프로젝트의 의심되는 지연자를 모두 시각화하려면 다음 단계를 완료하세요.

      1. Google Cloud 콘솔에서 대시보드 페이지로 이동합니다.

        대시보드로 이동

        검색창을 사용하여 이 페이지를 찾은 경우 부제목이 Monitoring인 결과를 선택합니다.

      2. 필터 창의 유형 섹션에서 Google 서비스를 클릭합니다.

      3. 이름 열에서 클러스터 디렉터 상태 모니터링을 클릭합니다.

        대시보드의 세부정보 페이지가 열립니다.

      4. 툴바의 시간 범위 선택기를 사용하여 성능이 저하된 시간 범위를 선택합니다. 일반적으로 지연자 감지에는 지연자를 신고하는 데 최대 10분이 걸립니다.

      5. 워크로드의 VM이 지연된 것으로 의심되는지 확인하려면 지연 감지 섹션을 검토하세요. 이 쿼리를 사용하여 의심되는 지연 인스턴스 표에 워크로드의 VM이 나열되는지 확인합니다.

    3. 지연된 것으로 의심되는 워크로드의 VM 수에 따라 다음 단계를 따르세요.

  2. 느린 성능 문제 해결을 위한 다른 옵션 사용: 보고된 지연 VM 의심 목록이 크거나 보고된 지연 VM을 삭제해도 성능이 복원되지 않으면 다음 옵션과 같은 다른 옵션을 사용하여 느린 성능을 해결하세요.