A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (8 GPU) 머신 시리즈는 대규모 인공지능 (AI) 및 머신러닝 (ML) 클러스터를 실행할 수 있도록 설계되었으며 다음과 같은 클러스터 관리 기능을 제공합니다.
AI 인프라 리소스 공동 배치
A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (8 GPU)를 사용하는 경우 Compute Engine에서 최대한 가깝게 프로비저닝하는 호스트 머신을 요청할 수 있습니다. 이러한 머신은 다음과 같은 기능을 제공합니다.
Compute Engine은 머신을 리소스 블록으로 프로비저닝합니다.
동적 머신러닝 (ML) 네트워크 패브릭이 머신을 상호 연결합니다.
이 리소스 배열은 네트워크 홉을 최소화하고 가장 낮은 네트워크 지연 시간에 맞게 최적화합니다. 가속기 최적화 머신의 밀도 높은 할당 블록을 배포할 용량을 확보하는 방법을 자세히 알아보려면 용량 개요를 참고하세요.
클러스터 토폴로지 인식 배치
A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (8 GPU) 머신 유형을 사용하여 컴퓨팅 인스턴스를 만든 후 노드 및 클러스터 수준에서 토폴로지 정보를 가져올 수 있습니다. 이 정보는 다음을 수행하는 데 도움이 됩니다.
애플리케이션 또는 워크로드 설계를 조정하여 네트워크 지연 시간을 추가로 최소화합니다.
서로 자주 통신하는 인스턴스의 네트워크 지연 시간 및 성능 문제를 파악하고 해결합니다. 인스턴스가 예상치 못하게 멀리 떨어져 있는 경우 이러한 문제가 발생할 수 있습니다.
자세한 내용은 컴퓨팅 인스턴스 토폴로지 보기를 참고하세요.
클러스터 작동 모드
A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (8 GPU) 머신 유형을 사용하여 컴퓨팅 인스턴스 또는 클러스터를 만들기 위해 용량을 예약할 때 예약한 머신 유형에 따라 인스턴스의 클러스터 작동 모드가 결정됩니다. 이 모드는 호스트 오류 또는 장애가 있는 호스트 신고 후 인스턴스가 작동하는 방식을 지정합니다. 인스턴스에 사용할 수 있는 작동 모드는 관리형 모드입니다. 이 모드에서는 Compute Engine이 결함이 있는 머신을 자동으로 교체하지만 인스턴스에 다시 시작하는 데 필요한 리소스가 있도록 예약된 용량 일부를 유지합니다. 또는 모든 용량 모드를 사용할 수 있습니다. 이 모드에서는 전체 예약 용량에 액세스할 수 있지만 장애 및 계획된 유지보수를 관리해야 합니다.
자세한 내용은 예약 운영 모드를 참고하세요.
클러스터 유지보수 예약 및 제어
리소스 블록에서 토폴로지 인식 스케줄링을 사용하여 A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 머신의 유지보수를 제어합니다. 이 기능을 사용하면 업그레이드를 동기화하여 워크로드가 호스트 이벤트에 더 탄력적으로 대응하고 중단을 최소화할 수 있습니다. 이 접근 방식을 사용하면 워크로드의 goodput을 개선할 수 있습니다.
유지보수 이벤트를 완전히 제어하려면 다음 기능을 사용하세요.
유지보수 예약 유형
A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 머신의 컴퓨팅 인스턴스 또는 클러스터를 만들기 위해 용량을 예약할 때 Compute Engine에서 인스턴스가 실행되는 인프라를 유지하는 방법을 정의할 수 있습니다. 인스턴스에 사용할 머신 유형에 따라 인스턴스 간 동기화된 유지보수 (그룹화됨) 또는 서로 다른 유지보수 일정 (독립적) 중에서 선택할 수 있습니다.
자세한 내용은 유지보수 일정 유형을 참고하세요.
호스트 이벤트 관리
A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 인스턴스를 만들고 워크로드를 시작한 후 인스턴스 또는 예약된 블록의 유지보수가 예약, 시작 또는 완료될 때 알림을 설정하고 알림을 받을 수 있습니다. 또한 예약된 시간 전에 인스턴스 또는 예약된 블록에서 유지보수를 확인하고 필요한 경우 수동으로 시작할 수 있습니다. 이러한 옵션을 사용하면 워크로드의 다운타임을 사전에 제어하고 최소화할 수 있습니다.
자세한 내용은 다음을 참조하세요.
클러스터 모니터링 및 진단 도구
모니터링 및 문제 해결을 위해 A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 머신에는 다음 서비스가 포함됩니다.
VM 상태 저하 예측: 향후 5시간 이내에 상태가 저하될 가능성이 있는 VM을 식별하는 데 도움이 됩니다.
장애가 있는 호스트 신고: 개별 호스트 머신의 문제를 신고하는 데 사용할 수 있습니다.
Cloud Monitoring 측정항목 지원: 네트워크 및 GPU 성능을 모니터링하는 데 도움이 됩니다.