H4D 인스턴스를 사용한 향상된 HPC 클러스터 관리

향상된 HPC 클러스터 관리 기능을 사용하면 대규모의 밀도 높은 HPC 클러스터를 실행할 수 있으며 다음과 같은 클러스터 관리 기능을 제공합니다.

HPC 인프라 리소스 공동 배치

관리 기능이 강화된 H4D 인스턴스를 사용하면 Compute Engine에 인스턴스를 최대한 가까운 위치에 프로비저닝하도록 요청할 수 있습니다. 이러한 머신은 다음과 같은 기능을 제공합니다.

  • Compute Engine은 머신을 리소스 블록으로 프로비저닝합니다.

  • Cloud RDMA 지원 200Gbps 네트워킹을 통해 워크로드 확장성이 개선되었습니다.

이 리소스 배열은 네트워크 홉을 최소화하고 최저 네트워크 지연 시간에 맞게 최적화합니다. 집중 할당된 머신 블록을 배포할 용량을 확보하는 방법을 자세히 알아보려면 향상된 관리 기능으로 HPC 클러스터 만들기를 참고하세요.

클러스터 토폴로지 인식 배치

H4D VM의 VM 또는 클러스터를 만든 후 노드 및 클러스터 수준에서 토폴로지 정보를 가져올 수 있습니다. 이 정보는 다음을 수행하는 데 도움이 됩니다.

  • 애플리케이션 또는 워크로드 설계를 조정하여 네트워크 지연 시간을 추가로 최소화합니다.

  • 서로 자주 통신하는 VM의 네트워크 지연 시간 및 성능 문제를 파악하고 해결합니다. VM이 예기치 않게 멀리 떨어져 있는 경우 이러한 문제가 발생할 수 있습니다.

자세한 내용은 VM 토폴로지 보기를 참고하세요.

H4D VM의 관리형 유지보수 및 복구

H4D VM 또는 클러스터를 만들기 위해 용량을 예약하면 Google Cloud에서 호스트 오류 또는 결함이 있는 호스트 보고서가 발생한 후 VM의 유지보수 및 복구 프로세스를 자동으로 관리합니다. 관리 모드라고 하는 이 접근 방식은 워크로드에 높은 안정성이 필요하고 다운타임을 최소화하는 자동화된 프로세스가 필요한 경우에 적합합니다.

관리 모드에는 다음과 같은 기능이 있습니다.

  • 복구에만 예약된 용량 사용: Compute Engine은 예약된 용량만 사용하여 VM을 다시 시작합니다. 예약에 사용 가능한 용량이 없으면 Compute Engine은 용량을 추가로 확보한 후에만 VM을 다시 시작합니다.

  • 자동 VM 다시 시작: Google Cloud 는 VM의 전체 복구 프로세스를 처리합니다. 호스트 유지보수가 필요한 경우 Compute Engine은 예약 내에서 사용 가능한 다른 머신으로 VM을 자동으로 마이그레이션하고 VM을 다시 시작합니다.

  • 블록 관리 및 가시성: 개별 예약 및 예약 블록의 토폴로지, 상태, 유지보수 상태를 볼 수 있습니다. 이러한 리소스에 대해 유지보수 알림을 수신하고 예약된 유지보수 시간 전에 선택적으로 유지보수를 시작할 수도 있습니다.

  • 잠재적 API 비율 제한: 결함이 있는 호스트 신고 API 호출은 예약당 비율이 제한될 수 있습니다.

클러스터 유지보수 예약 및 제어

리소스 블록에서 토폴로지 인식 스케줄링을 사용하여 H4D 인스턴스의 유지보수를 제어합니다. 이 기능을 사용하면 워크로드가 호스트 이벤트에 더 탄력적으로 대응하고 중단을 최소화할 수 있도록 업그레이드를 동기화할 수 있습니다.

유지보수 이벤트를 완전히 제어하려면 다음 기능을 사용하세요.

유지보수 예약 유형

H4D VM 인스턴스의 VM 또는 클러스터를 만들기 위해 용량을 예약할 때 VM이 실행되는 인프라를 Compute Engine에서 유지하는 방법을 정의할 수 있습니다. VM을 그룹화하여 유지보수 일정을 동기화할지 (그룹화됨) 또는 VM을 느슨하게 결합하여 독립적인 유지보수 일정을 사용할지 (독립적) 지정할 수 있습니다.

그룹화된 유지보수 일정

그룹화된 유지보수 일정 유형을 사용하면 Compute Engine에서 VM을 프로비저닝하는 시점과 관계없이 동일한 워크로드를 실행하는 모든 VM의 계획된 유지보수 빈도가 동일해집니다. 긴밀하게 결합된 이 유지보수를 사용하면 사용 중인 용량과 사용하지 않는 용량을 완전히 제어하여 작업의 성능을 최적화할 수 있습니다.

그룹 유지보수 예약 유형은 다음과 같은 경우에 유용합니다.

  • 환경에서 Slurm 또는 Google Kubernetes Engine과 같은 작업 스케줄러를 사용합니다.
  • 높은 병렬화 컴퓨팅 워크로드를 실행하려고 합니다.

독립적인 유지보수 일정

독립 유지보수 일정 유형은 VM에 서로 다른 유지보수 일정을 제공합니다. 이 구성은 VM에 별도의 유지보수 일정이 있는 경우 워크로드가 더 효율적으로 실행되는 경우에 적합합니다.

호스트 이벤트 관리

H4D VM을 만들고 워크로드를 시작한 후 VM 또는 예약된 블록의 유지보수가 예약되거나 시작되거나 완료되면 알림을 설정하고 알림을 받을 수 있습니다. 또한 예약된 시간 전에 VM 또는 예약된 블록의 유지보수를 확인하고 필요한 경우 수동으로 시작할 수 있습니다. 이러한 옵션을 사용하면 워크로드의 다운타임을 사전에 제어하고 최소화할 수 있습니다.

자세한 내용은 다음을 참조하세요.

클러스터 모니터링 및 진단 도구

모니터링 및 문제 해결을 위해 H4D 인스턴스에는 결함이 있는 호스트 보고 서비스가 포함되어 있으며, 이 서비스를 사용하여 개별 호스트 머신의 문제를 신고할 수 있습니다.

다음 단계