AI 워크로드를 위한 완전 관리형 Slurm 클러스터 만들기

이 문서에서는 A4X, A4, A3 Ultra, A3 Mega 또는 A3 High 머신 유형을 사용하는 완전 관리형 Slurm 클러스터를 구성하고 배포하는 방법을 설명합니다. 이러한 가속기 최적화 머신 유형에 대해 자세히 알아보려면 GPU 머신 유형을 참고하세요.

이 문서의 단계에서는 Cluster Director를 사용하여 Slurm 클러스터를 만드는 방법을 보여줍니다. Cluster Director는 Slurm 클러스터의 설정과 구성을 자동화하는 Google Cloud 제품입니다. 클러스터 관리 오버헤드를 피하고 워크로드 실행에 집중하려는 IT 관리자와 AI 연구자를 위해 설계되었습니다. 클러스터의 배포 및 관리를 더 세부적으로 제어하려면 클러스터 툴킷을 사용하여 클러스터를 만드세요.

제한사항

클러스터의 Compute Engine 인스턴스에서 사용하는 머신 유형에 따라 다음 제한사항이 적용됩니다.

A4X

  • 이 머신 유형을 사용하는 인스턴스에는 지속 사용 할인 또는 가변형 약정 사용 할인이 적용되지 않습니다.
  • 특정 리전 및 영역에서만 인스턴스를 만들 수 있습니다.
  • Persistent Disk (리전 또는 영역)를 사용할 수 없습니다. Google Cloud Hyperdisk만 사용할 수 있습니다.
  • 이 머신 유형은 NVIDIA Grace 플랫폼에서만 사용할 수 있습니다.
  • A4X에서는 머신 유형 변경이 지원되지 않습니다. 이 머신 유형으로 전환하거나 이 머신 유형에서 전환하려면 새 인스턴스를 만들어야 합니다.
  • 이 머신 유형에서는 Windows 운영체제를 실행할 수 없습니다. 지원되는 Linux 운영체제 목록은 GPU 인스턴스용 지원되는 운영체제를 참고하세요.
  • A4X 인스턴스의 경우 ethtool -S를 사용하여 GPU 네트워킹을 모니터링하면 _phy로 끝나는 실제 포트 카운터가 업데이트되지 않습니다. 이는 MRDMA 가상 함수 (VF) 아키텍처를 사용하는 인스턴스의 예상 동작입니다. 자세한 내용은 MRDMA 기능 및 네트워크 모니터링 도구를 참고하세요.
  • A4X 인스턴스는 다음을 지원하지 않습니다.
  • 2026년 2월 4일 이전에 생성된 Hyperdisk ML 디스크는 A4X 머신 유형에 연결할 수 없습니다.

A4

  • A4 머신 유형을 사용하는 인스턴스에는 지속 사용 할인가변형 약정 사용 할인이 적용되지 않습니다.
  • 특정 리전 및 영역에서만 A4 머신 유형을 사용할 수 있습니다.
  • Persistent Disk (리전 또는 영역)를 사용할 수 없습니다. Google Cloud Hyperdisk만 사용할 수 있습니다.
  • A4 머신 유형은 Emerald Rapids CPU 플랫폼에서만 사용할 수 있습니다.
  • 인스턴스의 머신 유형을 A4 머신 유형으로 변경하거나 A4 머신 유형에서 변경할 수 없습니다. 이 머신 유형으로 새 인스턴스를 만들어야 합니다.
  • A4 머신 유형은 단독 테넌시를 지원하지 않습니다.
  • A4 머신 유형에서는 Windows 운영체제를 실행할 수 없습니다.
  • A4 인스턴스의 경우 ethtool -S를 사용하여 GPU 네트워킹을 모니터링하면 _phy로 끝나는 실제 포트 카운터가 업데이트되지 않습니다. 이는 MRDMA 가상 함수 (VF) 아키텍처를 사용하는 인스턴스의 예상 동작입니다. 자세한 내용은 MRDMA 기능 및 네트워크 모니터링 도구를 참고하세요.
  • 2026년 2월 4일 이전에 생성된 Hyperdisk ML 디스크는 A4 머신 유형에 연결할 수 없습니다.

A3 Ultra

  • A3 Ultra 머신 유형을 사용하는 인스턴스에는 지속 사용 할인가변형 약정 사용 할인이 적용되지 않습니다.
  • A3 Ultra 머신 유형은 특정 리전 및 영역에서만 사용할 수 있습니다.
  • Persistent Disk (리전 또는 영역)를 사용할 수 없습니다. Google Cloud Hyperdisk만 사용할 수 있습니다.
  • A3 Ultra 머신 유형은 Emerald Rapids CPU 플랫폼에서만 사용할 수 있습니다.
  • A3 Ultra 머신 유형에서는 머신 유형 변경이 지원되지 않습니다. 이 머신 유형으로 전환하거나 이 머신 유형에서 전환하려면 새 인스턴스를 만들어야 합니다.
  • A3 Ultra 머신 유형에서는 Windows 운영체제를 실행할 수 없습니다.
  • A3 Ultra 머신 유형은 단독 테넌시를 지원하지 않습니다.
  • A3 Ultra 인스턴스의 경우 ethtool -S를 사용하여 GPU 네트워킹을 모니터링하면 _phy로 끝나는 실제 포트 카운터가 업데이트되지 않습니다. 이는 MRDMA 가상 함수 (VF) 아키텍처를 사용하는 인스턴스의 예상 동작입니다. 자세한 내용은 MRDMA 기능 및 네트워크 모니터링 도구를 참고하세요.

A3 Mega

  • A3 Mega 머신 유형을 사용하는 인스턴스에는 지속 사용 할인가변형 약정 사용 할인이 적용되지 않습니다.
  • A3 Mega 머신 유형은 특정 리전 및 영역에서만 사용할 수 있습니다.
  • A3 Mega 머신 유형을 사용하는 인스턴스에서는 리전 Persistent Disk를 사용할 수 없습니다.
  • A3 Mega 머신 유형은 Sapphire Rapids CPU 플랫폼에서만 사용할 수 있습니다.
  • A3 Mega 머신 유형에서는 머신 유형 변경이 지원되지 않습니다. 이 머신 유형으로 전환하거나 이 머신 유형에서 전환하려면 새 인스턴스를 만들어야 합니다.
  • A3 Mega 머신 유형에서는 Windows 운영체제를 실행할 수 없습니다.

A3 High

  • A3 High 머신 유형을 사용하는 인스턴스에는 지속 사용 할인가변형 약정 사용 할인이 적용되지 않습니다.
  • A3 High 머신 유형은 특정 리전 및 영역에서만 사용할 수 있습니다.
  • A3 High 머신 유형을 사용하는 인스턴스에서는 리전 Persistent Disk를 사용할 수 없습니다.
  • A3 High 머신 유형은 Sapphire Rapids CPU 플랫폼에서만 사용할 수 있습니다.
  • A3 High 머신 유형에서는 머신 유형 변경이 지원되지 않습니다. 이 머신 유형으로 전환하거나 이 머신 유형에서 전환하려면 새 인스턴스를 만들어야 합니다.
  • A3 High 머신 유형에서는 Windows 운영체제를 실행할 수 없습니다.
  • a3-highgpu-8g만 사용할 수 있습니다. GPU가 8개 미만인 A3 High 머신 유형은 지원되지 않습니다.

시작하기 전에

Slurm 클러스터를 만들기 전에 다음 단계를 완료합니다(아직 완료하지 않은 경우).

  1. 소비 옵션 선택: 선택한 소비 옵션에 따라 GPU 리소스를 획득하고 사용하는 방식이 결정됩니다. 자세한 내용은 사용 옵션 선택을 참고하세요.
  2. 용량 획득: 용량을 획득하는 프로세스는 각 소비 옵션마다 다릅니다. 선택한 소비 옵션의 용량을 확보하는 프로세스에 대해 알아보려면 용량 개요를 참고하세요.
  3. Filestore 용량 할당량이 충분한지 확인: 배포하기 전에 대상 리전에 충분한 Filestore 할당량이 있어야 합니다. 필요한 최소 용량은 클러스터의 머신 유형에 따라 다릅니다.
    • A4X Max, A4X, A4, A3 Ultra, A3 Mega: HIGH_SCALE_SSD(영역) 용량이 최소 10TiB (10,240GiB) 필요합니다.
    • A3 High: BASIC_SSD (표준) 용량이 최소 2.5TiB (2,560GiB) 필요합니다.

    할당량을 확인하거나 할당량 상향을 요청하려면 다음을 참고하세요.

  4. 신뢰할 수 있는 이미지 정책 확인: 프로젝트가 있는 조직에 신뢰할 수 있는 이미지 정책 (constraints/compute.trustedImageProjects)이 있는 경우 clusterdirector-public-images 프로젝트가 허용된 프로젝트 목록에 포함되어 있는지 확인합니다. 자세한 내용은 신뢰할 수 있는 이미지 정책 설정을 참고하세요.

필요한 역할

Slurm 클러스터를 만들려면 다음 IAM 역할과 권한이 필요합니다.

Slurm 클러스터 만들기

Cluster Director를 사용하여 AI 최적화 클러스터를 만들려면 다음 단계를 완료하세요.

  1. 컴퓨팅 리소스 구성 구성

  2. 네트워크 구성

  3. 스토리지 리소스 구성

  4. Slurm 환경 구성

컴퓨팅 리소스 구성 구성

클러스터를 만들 때 컴퓨팅 리소스 구성을 구성하려면 다음 단계를 완료하세요.

  1. Google Cloud 콘솔에서 Cluster Director 페이지로 이동합니다.

    Cluster Director로 이동

  2. 클러스터 만들기를 클릭합니다.

  3. 표시되는 대화상자에서 참조 아키텍처를 클릭합니다. 클러스터 만들기 페이지가 열립니다.

  4. 사용 가능한 템플릿 중 하나를 클릭합니다. 필요에 따라 템플릿을 수정하여 워크로드의 요구사항에 맞게 조정할 수 있습니다.

  5. 맞춤설정을 클릭합니다.

  6. 컴퓨트 섹션의 클러스터 이름 필드에 클러스터 이름을 입력합니다. 이름은 최대 10자까지 포함할 수 있으며 숫자 또는 소문자 (a~z)만 사용할 수 있습니다.

  7. 사전 구성된 컴퓨팅 리소스 구성을 수정하거나 구성에서 지정하는 컴퓨팅 인스턴스의 수와 유형을 수정하려면 다음 단계를 따르세요.

    1. 컴퓨팅 섹션에서 리소스 구성 수정을 클릭합니다. 리소스 구성 추가 창이 표시됩니다.

    2. 선택사항: 컴퓨팅 리소스 구성 이름을 변경하려면 이름 필드에 새 이름을 입력합니다.

    3. 선택사항: 클러스터에서 사용하는 컴퓨팅 인스턴스의 수와 유형을 변경하려면 머신 구성 섹션에서 메시지에 따라 컴퓨팅 리소스를 업데이트합니다.

    4. 소비 옵션 섹션에서 리소스를 가져오는 데 사용할 소비 옵션을 지정합니다.

      • 예약을 사용하여 컴퓨팅 인스턴스를 만들려면 다음 단계를 따르세요.

        1. 예약 사용 탭을 클릭합니다.

        2. 예약 선택을 클릭합니다. 예약 선택 창이 표시됩니다. A4X VM 예약을 사용하려면 VM 배치를 제어하기 위해 블록 또는 하위 블록을 선택하면 됩니다.

        3. 사용할 예약을 선택합니다. 그런 다음 선택을 클릭합니다. 이 작업을 수행하면 컴퓨팅 리소스의 리전영역이 자동으로 설정됩니다.

      • Flex-start VM을 만들려면 다음을 실행하세요.

        1. 유연한 시작 탭을 클릭합니다.

        2. VM 시간 제한 섹션에서 컴퓨팅 인스턴스의 실행 시간을 지정합니다. 값은 10분~7일 사이여야 합니다.

        3. 위치 섹션에서 Flex-start VM을 만들려는 리전을 선택합니다.Google Cloud 콘솔은 사용 가능한 리전을 자동으로 필터링하여 선택한 머신 유형에 대해 유연한 시작 VM을 지원하는 리전만 표시합니다.

      • 스팟 VM을 만들려면 다음을 실행하세요.

        1. 스팟 사용 탭을 클릭합니다.

        2. VM 종료 시 목록에서 다음 옵션 중 하나를 선택합니다.

          • 선점 시 스팟 VM을 삭제하려면 삭제를 선택합니다.

          • 선점 시 스팟 VM을 중지하려면 중지를 선택합니다.

        3. 위치 섹션에서 스팟 VM을 만들려는 리전영역을 선택합니다.Google Cloud 콘솔은 사용 가능한 리전을 자동으로 필터링하여 선택한 머신 유형의 스팟 VM을 지원하는 리전만 표시합니다.

    5. 완료를 클릭합니다.

    6. 선택사항: 파티션의 컴퓨팅 리소스 구성을 추가로 만들려면 리소스 구성 추가를 클릭하고 메시지에 따라 컴퓨팅 리소스를 지정합니다.

  8. 계속을 클릭합니다.

네트워크 구성

클러스터에서 사용하는 네트워크를 구성하려면 다음 단계를 완료하세요.

  1. 가상 프라이빗 클라우드 (VPC) 네트워크 선택 섹션에서 다음 중 하나를 실행합니다.

    • 권장사항: AI Hypercomputer에서 클러스터용으로 사전 구성된 VPC 네트워크를 자동으로 만들도록 하려면 다음 단계를 따르세요.

      1. 새 VPC 네트워크 만들기를 선택합니다.

      2. 네트워크 이름 필드에 VPC 네트워크의 이름을 입력합니다.

    • 기존 VPC 또는 공유 VPC 네트워크를 사용하려면 다음 단계를 따르세요.

      1. 현재 프로젝트의 VPC 네트워크 사용 또는 다른 프로젝트에서 호스팅되는 공유 VPC 네트워크 사용을 선택합니다.

      2. VPC 네트워크 선택 또는 공유 VPC 네트워크 목록에서 필수 구성을 충족하는 VPC 또는 공유 VPC 네트워크를 선택합니다.

      3. 서브네트워크 선택 목록에서 기존 서브네트워크를 선택합니다.

  2. 계속을 클릭합니다.

스토리지 리소스 구성

클러스터에서 사용하는 스토리지 리소스를 구성하려면 스토리지 섹션에서 다음 단계를 완료하세요.

  1. 선택사항: 스토리지 리소스를 수정하려면 스토리지 요금제 수정을 클릭한 다음 메시지에 따라 스토리지 리소스의 구성을 업데이트합니다.

  2. 선택사항: 클러스터에 스토리지 리소스를 추가하려면 스토리지 구성 추가를 클릭한 다음 메시지에 따라 스토리지 리소스의 구성을 지정합니다.

  3. 계속을 클릭합니다.

Slurm 환경 구성

클러스터에서 Slurm 환경을 구성하려면 다음 단계를 완료하세요.

  1. 선택사항: 로그인 노드에서 사용하는 컴퓨팅 인스턴스의 수와 유형을 수정하려면 로그인 노드 섹션을 펼친 후 메시지에 따라 컴퓨팅 리소스를 업데이트합니다.

  2. 선택사항: 컴퓨팅 리소스를 구성하기 위해 클러스터의 파티션을 수정하려면 파티션 섹션을 펼친 후 다음 중 하나를 실행합니다.

    • 파티션을 추가하려면 파티션 추가를 클릭한 후 다음을 수행합니다.

      1. 파티션 이름 필드에 파티션 이름을 입력합니다.

      2. 노드 세트를 수정하려면 노드 세트 전환을 클릭합니다. 노드 세트를 추가하려면 노드 세트 추가를 클릭합니다.

      3. 노드 세트 이름 필드에 노드 세트 이름을 입력합니다.

      4. 리소스 구성 필드에서 이전 단계에서 만든 컴퓨팅 리소스 구성을 선택합니다.

      5. 소스 이미지 목록에서 AI 하이퍼컴퓨터용 지원 OS 이미지 중 하나를 선택합니다.

      6. 고정 노드 수 필드에 클러스터에서 항상 실행되어야 하는 최소 컴퓨팅 인스턴스 수를 입력합니다.

      7. 동적 노드 수 필드에 트래픽이 증가하는 동안 AI Hypercomputer가 클러스터를 늘릴 수 있는 최대 컴퓨팅 인스턴스 수를 입력합니다.

      8. 부팅 디스크 유형 목록과 부팅 디스크 크기 필드에 컴퓨팅 인스턴스에서 사용할 부팅 디스크의 유형과 크기를 입력합니다.

      9. 완료를 클릭합니다.

    • 파티션을 삭제하려면 파티션 삭제를 클릭합니다.

  3. 선택사항: Slurm 환경에 프롤로그 또는 에필로그 스크립트를 추가하려면 다음을 실행합니다.

    1. 고급 오케스트레이션 설정 섹션을 펼칩니다.

    2. 스크립트 섹션에서 메시지에 따라 스크립트를 추가합니다.

  4. 만들기를 클릭합니다. 클러스터 페이지가 표시됩니다. 클러스터를 만드는 데 다소 시간이 걸릴 수 있습니다. 완료 시간은 요청한 컴퓨팅 인스턴스 수와 컴퓨팅 인스턴스의 영역에 있는 리소스 가용성에 따라 달라집니다. 요청된 리소스를 사용할 수 없는 경우 AI Hypercomputer는 리소스를 사용할 수 있을 때까지 생성 요청을 유지합니다. 클러스터 생성 작업의 상태를 확인하려면 클러스터 세부정보를 확인하세요.

Slurm 클러스터에 연결

AI 하이퍼컴퓨터가 로그인 노드를 만들면 클러스터 상태가 Ready로 변경됩니다. 그런 다음 클러스터에 연결할 수 있습니다. 하지만 AI 하이퍼컴퓨터가 클러스터에 컴퓨팅 노드를 만든 후에만 워크로드를 실행할 수 있습니다.

Google Cloud 콘솔을 사용하여 SSH를 통해 클러스터의 로그인 노드에 연결하려면 다음 단계를 완료하세요.

  1. Google Cloud 콘솔에서 클러스터 페이지로 이동합니다.

    클러스터로 이동

  2. 클러스터 표의 이름 열에서 이전 섹션에서 만든 클러스터의 이름을 클릭합니다. 클러스터 세부정보를 제공하는 페이지가 표시되고 세부정보 탭이 선택됩니다.

  3. 노드 탭을 클릭합니다.

  4. 로그인 노드 섹션의 연결 열에서 클러스터의 로그인 노드를 찾습니다. 로그인 노드의 이름은 CLUSTER_NAME-login-001입니다.

  5. 로그인 노드의 연결 열에서 SSH 버튼을 클릭합니다. 브라우저에서 SSH를 통해 연결 창이 열립니다.

  6. 메시지가 표시되면 승인을 클릭합니다. 노드에 연결하는 데 최대 1분이 걸릴 수 있습니다.

Slurm 클러스터 상태 확인

컴퓨팅 노드에서 작업을 실행하기 전에 Slurm은 노드에서 빠른 GPU 상태 점검을 자동으로 실행합니다. 노드가 검사에 실패하면 Slurm이 노드를 드레인하고 노드에서 새 작업이 예약되지 않도록 합니다.

클러스터 파티션의 컴퓨팅 노드에서 GPU 상태와 네트워크 대역폭을 더 철저하게 테스트하려면 NVIDIA Collective Communications Library (NCCL) 테스트를 수동으로 실행하면 됩니다. NCCL 테스트에서 비정상 노드가 식별되면 노드를 복구하거나 클러스터를 수정할 수 있습니다. NCCL 테스트를 사용하면 중요한 워크로드를 실행하기 전에 클러스터의 상태를 확인할 수 있습니다. 자세한 내용은 클러스터 상태 확인을 참고하세요.

Slurm 클러스터 삭제

프로젝트에서 Slurm 클러스터를 삭제하려면 다음 옵션 중 하나를 선택합니다.

  1. Google Cloud 콘솔에서 클러스터 페이지로 이동합니다.

    클러스터로 이동

  2. 클러스터 표의 이름 열에서 삭제하려는 클러스터의 이름을 클릭합니다. 클러스터 세부정보를 제공하는 페이지가 표시되고 세부정보 탭이 선택됩니다.

  3. 삭제를 클릭합니다.

  4. 표시되는 대화상자에 클러스터 이름을 입력한 다음 삭제를 클릭하여 확인합니다. 클러스터 페이지가 표시됩니다. 클러스터를 삭제하는 데 다소 시간이 걸릴 수 있습니다.

다음 단계