이 문서에서는 AI 최적화 VM 또는 클러스터에서 실행되는 워크로드에 대해 확인된 느린 성능을 해결하는 방법을 설명합니다.
성능 저하를 식별하는 방법을 알아보려면 Compute Engine 인스턴스 및 Slurm 클러스터 모니터링을 참고하세요.
워크로드의 의심되는 지연자를 식별하고 해결: 다음 단계를 완료합니다.
워크로드에 지연 감지를 사용할 수 있는지 확인합니다. 지연 감지 사용에 관한 제한사항 및 요구사항을 검토하려면 Compute Engine 인스턴스 및 Slurm 클러스터 모니터링을 참고하세요.
지연 감지를 사용할 수 없는 경우 성능 저하 문제 해결을 위한 다른 옵션을 사용하세요.
워크로드의 VM이 지연된 것으로 의심되는지 확인하려면 지연 감지 측정항목을 확인하세요.
예를 들어 Cloud Monitoring에서 프로젝트의 의심되는 지연자를 모두 시각화하려면 다음 단계를 완료하세요.
-
Google Cloud 콘솔에서 대시보드 페이지로 이동합니다.
검색창을 사용하여 이 페이지를 찾은 경우 부제목이 Monitoring인 결과를 선택합니다.
필터 창의 유형 섹션에서 Google 서비스를 클릭합니다.
이름 열에서 클러스터 디렉터 상태 모니터링을 클릭합니다.
대시보드의 세부정보 페이지가 열립니다.
툴바의 시간 범위 선택기를 사용하여 성능이 저하된 시간 범위를 선택합니다. 일반적으로 지연자 감지에는 지연자를 신고하는 데 최대 10분이 걸립니다.
워크로드의 VM이 지연된 것으로 의심되는지 확인하려면 지연 감지 섹션을 검토하세요. 이 쿼리를 사용하여 의심되는 지연 인스턴스 표에 워크로드의 VM이 나열되는지 확인합니다.
-
지연된 것으로 의심되는 워크로드의 VM 수에 따라 다음 단계를 따르세요.
지연되는 VM이 없는 것으로 의심되면 지연 감지가 올바르게 실행되고 있는지 확인합니다. 프로젝트에서 이상치 감지 서비스가 실행되고 있는지 확인하려면 이상치 감지 로그 보기 안내에 따라 프로젝트의 모든 이상치 감지 로그에 대한 쿼리를 지정하세요. 그런 다음 다음을 수행하세요.
VM이 10분 이상 실행되는 동안 프로젝트에 이상치 감지 로그가 없으면 프로젝트에 이상치 감지 서비스가 실행되고 있지 않은 것입니다. 이 문제를 해결하려면 Cloud Customer Care에 문의하거나 나중에 다시 시도하세요.
그렇지 않고 프로젝트에 낙오 항목 감지가 실행되고 워크로드에서 낙오 항목 감지를 지원하는지 확인한 경우 성능 저하가 다른 문제로 인해 발생할 수 있습니다. 성능 저하 문제 해결을 위한 다른 옵션 사용
워크로드의 소수의 VM이 지연된 것으로 의심된다고 보고되면 의심되는 VM에서 워크로드를 마이그레이션하는 것을 테스트합니다. 그런 다음 다음을 수행하세요.
마이그레이션으로 워크로드의 성능이 복원되면 의심되는 VM에 결함이 있을 수 있습니다. 이러한 각 VM에 대해 장애가 있는 호스트를 신고하는 단계를 따르고
FAULT_REASON를PERFORMANCE로 설정하고DESCRIPTION를straggler node로 설정합니다.마이그레이션으로 성능이 복원되지 않으면 의심되는 지연 VM이 더 많거나 성능 저하가 다른 문제로 인해 발생할 수 있습니다. 워크로드의 VM 중 지연이 의심되는 VM이 있는지 확인하거나 느린 성능 문제 해결을 위한 다른 옵션을 사용할 수 있습니다.
워크로드의 많은 수의 VM이 지연된 것으로 의심된다고 보고되면 성능 저하 문제 해결을 위해 다른 옵션을 사용하세요.
느린 성능 문제 해결을 위한 다른 옵션 사용: 보고된 지연 VM 의심 목록이 크거나 보고된 지연 VM을 삭제해도 성능이 복원되지 않으면 다음 옵션과 같은 다른 옵션을 사용하여 느린 성능을 해결하세요.
- 클러스터 상태 스캐너를 사용하여 클러스터 테스트
- 실적에 대한 다른 측정항목 검토
- 다른 문제 해결 문서를 검토합니다. 예를 들어 Compute Engine 문서의 GPU VM 문제 해결을 참고하세요.