A4 VM 2개로 완전 관리형 Slurm 클러스터 만들기

이 빠른 시작에서는 Cluster Director를 사용하여 Slurm 클러스터를 만들고 연결하는 방법을 설명합니다. 만드는 클러스터는 대규모 모델 학습 및 추론 워크로드를 Slurm 클러스터에서 효율적으로 처리할 수 있도록 설계된 A4 가상 머신 (VM) 인스턴스 2개를 사용합니다.

Cluster Director는 클러스터 배포를 간소화하고 자동화하는 관리형 서비스로, 운영 오버헤드를 줄이고 워크로드 실행에 집중할 수 있도록 지원합니다. 클러스터의 배포 및 관리를 더 세부적으로 제어하려면 Cluster Toolkit을 사용하여 Slurm 클러스터를 만드세요.


콘솔에서 이 태스크에 대한 단계별 안내를 직접 수행하려면 Google Cloud 둘러보기를 클릭합니다.

둘러보기


시작하기 전에

  1. 계정에 로그인합니다. Google Cloud 를 처음 사용하는 경우 Google Cloud, 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Hypercompute Cluster API, Compute Engine API, Filestore API, Google Cloud Managed Lustre API, Cloud Logging API, Cloud Monitoring API를 사용 설정합니다.

    API 사용 설정
  7. 프로젝트 및 Compute Engine 기본 서비스 계정에 다음 Identity and Access Management (IAM) 역할이 있는지 확인합니다.
  8. 프로젝트가 있는 조직에 신뢰할 수 있는 이미지 정책 (constraints/compute.trustedImageProjects)이 있는 경우 clusterdirector-public-images 프로젝트가 허용된 프로젝트 목록에 포함되어 있는지 확인합니다. 조직의 신뢰할 수 있는 이미지 정책을 보려면, 이미지 액세스 제약 조건 설정을 참고하세요.

비용

이 빠른 시작에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 리소스를 사용합니다.

  • Compute Engine:

    • A4 머신 유형이 있는 VM 2개

    • Slurm 로그인 노드용 영구 디스크 볼륨 1개(100GB)

    • A4 VM용 Google Cloud Hyperdisk Balanced 볼륨 1개(100GB)

  • Filestore: 10TiB (10,240GiB)의 Filestore 인스턴스

프로젝트 사용량을 기준으로 예상 비용을 산출하려면 가격 계산기를 사용하세요.

Slurm 클러스터 만들기

Slurm 클러스터를 만들려면 다음 단계를 완료합니다.

  1. 콘솔에서 Cluster Director 페이지로 이동합니다. Google Cloud

    Cluster Director로 이동

  2. 클러스터 만들기 를 클릭합니다.

  3. 대화상자가 표시되면 단계별 구성 을 클릭합니다. 클러스터 만들기 페이지가 표시됩니다.

  4. 클러스터 이름 필드에 cluster001을 입력합니다.

  5. 컴퓨팅 섹션에서 리소스 구성 을 클릭합니다. 리소스 구성 추가 창이 표시되면 다음 단계를 완료합니다.

    1. GPU 유형 목록에서 NVIDIA B200 180GB 를 선택합니다.

    2. 인스턴스 수 필드에 2를 입력합니다.

    3. 소비 옵션 섹션에서 리소스를 가져오는 데 사용할 소비 옵션을 선택합니다.

    4. 위치 섹션에서 A4 VM을 만들려는 리전영역 또는 VM을 만드는 데 사용할 예약이 있는 위치를 지정합니다.

    5. 완료 를 클릭합니다.

  6. 탐색 메뉴에서 스토리지 를 클릭합니다.

  7. 스토리지 섹션에서 스토리지 구성 수정을 클릭합니다. 스토리지 구성 추가 창이 표시되면 다음 단계를 완료합니다.

    1. 용량 섹션에서 10~100TiB, 2.5TiB 단위로 증가 를 선택합니다.

    2. 완료 를 클릭합니다.

  8. 만들기 를 클릭합니다. 클러스터 페이지가 표시됩니다.

    클러스터를 만드는 데 다소 시간이 걸릴 수 있습니다. 완료 시간은 요청한 VM 수와 VM의 영역에서 리소스 가용성에 따라 달라집니다. 요청된 리소스를 사용할 수 없는 경우 Cluster Director는 리소스를 사용할 수 있을 때까지 생성 요청을 유지합니다.

클러스터 생성 요청 보기

클러스터 생성 요청을 검토하려면 다음 단계를 완료합니다.

  1. 클러스터 표의 이름 열에서 cluster001 을 클릭합니다. 클러스터 세부정보를 제공하는 페이지가 표시되고 세부정보 탭이 선택됩니다.

  2. 컴퓨팅 섹션에서 상태 행을 찾습니다. AI 하이퍼컴퓨터가 값을 Ready로 설정하면 다음 섹션으로 진행할 수 있습니다.

SSH를 통해 클러스터에 연결

SSH를 통해 클러스터에 연결하려면 다음 단계를 완료합니다.

  1. 노드 탭을 클릭합니다.

  2. 로그인 노드 표에서 cluster001-login-001 노드가 포함된 행을 찾습니다. 해당 행의 연결 열에서 SSH 버튼을 클릭합니다. 브라우저에서 SSH를 통해 연결 창이 표시됩니다.

  3. 메시지가 표시되면 승인 을 클릭합니다. 클러스터에 연결하는 데 다소 시간이 걸릴 수 있습니다. 터미널이 준비되면 다음 섹션으로 진행합니다.

샘플 작업 실행

브라우저에서 SSH를 통해 연결 창에서 다음 단계를 완료합니다.

  1. Slurm이 실행 중인지 확인하려면 다음 명령어를 실행합니다.

    sinfo
    
  2. 노드의 호스트 이름을 반환하는 테스트 작업을 제출하려면 다음 명령어를 실행합니다.

    srun hostname
    
  3. 30초 동안 절전 모드로 전환되는 일괄 작업을 제출하려면 다음 명령어를 실행합니다.

    sbatch --wrap="sleep 30"
    
  4. 대기열에 있는 작업의 상태를 확인하려면 다음 명령어를 실행합니다.

    squeue
    
  5. 작업의 회계 데이터를 보려면 다음 명령어를 실행합니다.

    sacct
    

Slurm 클러스터를 만들고 연결하여 샘플 작업을 실행했습니다. AI 하이퍼컴퓨터가 아직 A4 VM을 만들지 않은 경우 클러스터에서 VM을 만들 때까지 기다리거나, VM을 추가 또는 삭제하도록 클러스터를 수정하거나, 불필요한 요금이 청구되지 않도록 클러스터를 삭제할 수 있습니다.

정리

이 페이지에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 수행합니다.

프로젝트 삭제

비용이 청구되지 않도록 하는 가장 쉬운 방법은 튜토리얼에서 만든 프로젝트를 삭제하는 것입니다.

프로젝트를 삭제하는 방법은 다음과 같습니다.

  1. 콘솔에서 리소스 관리 페이지로 이동합니다. Google Cloud

    리소스 관리로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 후 종료 를 클릭하여 프로젝트를 삭제합니다.

클러스터 삭제

이 빠른 시작의 일부로 만든 클러스터와 연결된 리소스를 삭제하려면 다음 단계를 완료합니다.

  1. 클러스터 세부정보가 포함된 페이지에서 삭제를 클릭합니다.

  2. 표시되는 대화상자에서 cluster001을 입력한 다음 삭제 를 클릭하여 확인합니다.

다음 단계