A4X Max, A4X, A4, A3 Ultra, A3 Mega, 및 A3 High (GPU 8개) 머신 시리즈는 대규모 인공지능 (AI) 및 머신러닝 (ML) 클러스터를 실행하고 다음과 같은 클러스터 관리 기능을 제공하도록 설계되었습니다.
AI 인프라 리소스 코로케이션
A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개)를 사용하는 경우 Compute Engine이 최대한 가깝게 프로비저닝하는 호스트 머신을 요청할 수 있습니다. 이러한 머신은 다음과 같은 기능을 제공합니다.
Compute Engine은 머신을 리소스 블록으로 프로비저닝합니다.
이러한 리소스 배열은 네트워크 홉을 최소화하고 가장 짧은 네트워크 지연 시간을 제공하도록 최적화합니다. 가속기 최적화 머신의 밀집 할당 블록을 배포할 용량을 확보하는 방법을 자세히 알아보려면 용량 개요를 참조하세요.
클러스터 토폴로지 인식 배치
A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 머신 유형을 사용하여 컴퓨팅 인스턴스를 만든 후 노드 및 클러스터 수준에서 토폴로지 정보를 가져올 수 있습니다. 이 정보를 사용하면 다음 작업을 할 수 있습니다.
애플리케이션 또는 워크로드 설계를 조정하여 네트워크 지연 시간을 한층 더 최소화합니다.
서로 자주 통신하는 인스턴스의 네트워크 지연 시간 및 성능 문제를 파악하고 해결합니다. 이러한 문제는 인스턴스가 예기치 않게 멀리 떨어져 있는 경우에 발생할 수 있습니다.
자세한 내용은 컴퓨팅 인스턴스 토폴로지 보기를 참조하세요.
클러스터 작업 모드
A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 머신 유형을 사용하여 컴퓨팅 인스턴스 또는 클러스터를 만들 용량을 예약하면 예약하는 머신 유형에 따라 인스턴스의 클러스터 작업 모드 가 결정됩니다. 이 모드는 호스트 오류 또는 장애가 있는 호스트 신고 후 인스턴스가 작동하는 방식을 지정합니다. 인스턴스에 사용할 수 있는 작업 모드는 관리형 모드입니다. 이 모드에서는 Compute Engine이 장애가 있는 머신을 자동으로 교체하지만 인스턴스가 다시 시작하는 데 필요한 리소스를 확보할 수 있도록 예약된 용량의 일부를 보류합니다. 또는 전체 용량 모드입니다. 이 모드에서는 전체 예약 용량에 액세스할 수 있지만 장애 및 계획된 유지보수를 관리해야 합니다.
자세한 내용은 예약 작업 모드를 참조하세요.
클러스터 유지보수 일정 예약 및 제어
리소스 블록에서 토폴로지 인식 스케줄링을 사용하여 A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 머신의 유지보수를 제어합니다. 이 기능을 사용하면 업그레이드를 동기화하여 워크로드가 호스트 이벤트에 더 탄력적으로 대응하고 중단을 최소화할 수 있습니다. 이 접근 방식을 사용하면 워크로드의 유효 처리량을 개선할 수 있습니다.
유지보수 이벤트를 완전히 제어하려면 다음 기능을 사용하면 됩니다.
유지보수 예약 유형
A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 머신의 컴퓨팅 인스턴스 또는 클러스터를 만들 용량을 예약할 때 Compute Engine이 인스턴스가 실행되는 인프라를 유지보수하는 방법을 정의할 수 있습니다. 인스턴스에 사용할 머신 유형에 따라 인스턴스 간에 동기화된 유지보수 (그룹화됨) 또는 서로 다른 유지보수 일정 (독립형) 중에서 선택할 수 있습니다.
자세한 내용은 유지보수 예약 유형을 참조하세요.
호스트 이벤트 관리
A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 인스턴스를 만들고 워크로드를 시작한 후 인스턴스 또는 예약된 블록의 유지보수가 예약되거나 시작되거나 완료되면 알림을 설정하고 알림을 받을 수 있습니다. 또한 예약된 시간 전에 인스턴스 또는 예약된 블록에서 유지보수를 보고 필요한 경우 수동으로 시작할 수 있습니다. 이러한 옵션을 사용하면 워크로드의 다운타임을 사전에 제어하고 최소화할 수 있습니다.
자세한 내용은 다음을 참조하세요.
클러스터 모니터링 및 진단 도구
모니터링 및 문제 해결을 위해 A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High (GPU 8개) 머신에는 다음 서비스가 포함됩니다.
VM 상태 저하 예측: 향후 5 시간 이내에 저하될 가능성이 있는 VM을 식별하는 데 도움이 됩니다.
장애가 있는 호스트 신고: 개별 호스트 머신의 문제를 신고하는 데 사용할 수 있습니다.
Cloud Monitoring 측정항목 지원 : 네트워크 및 GPU 성능을 모니터링하는 데 도움이 됩니다.