클러스터 만들기 개요

이 문서에서는 AI 하이퍼컴퓨터에서 AI 워크로드용 클러스터를 만드는 방법을 요약합니다. 특히 이 문서에서는 클러스터를 시작할 때의 프로세스와 선택사항을 안내합니다.

시작하기 전에

  • 지원하려는 기존 워크로드가 있어야 합니다.

  • 모델 학습, 추론과 같은 AI 및 ML 워크로드에 일반적으로 사용되는 용어에 익숙해야 합니다.

클러스터 시작

클러스터 시작에는 다음 단계가 포함됩니다.

  1. 워크로드를 결정하고 머신 유형 선택하기
  2. 소비 옵션 선택 및 용량 확보
  3. 배포 옵션 선택
  4. 조정자 선택
  5. 운영체제 및 클러스터 이미지 선택
  6. 클러스터 만들기

워크로드를 확인하고 머신 유형 선택

AI 워크로드의 머신 유형을 선택합니다. AI 하이퍼컴퓨터는 A4X Max, A4X, A4, A3 머신 시리즈를 사용하여 클러스터 생성을 지원합니다. 머신 사용에 관한 다음 권장사항을 고려하세요.

  • 파운데이션 모델 학습 및 추론: A4X Max 또는 A4X

  • 대규모 모델 학습, 미세 조정, 추론: A4 또는 A3 Ultra

  • 주류 모델 추론 및 미세 조정: A3 Mega 또는 A3 High (GPU 8개)

  • 추론 서빙: A3 Edge

각 머신 시리즈에 대한 자세한 내용은 GPU 머신 유형을 참고하세요. 각 머신의 워크로드 권장사항에 대한 자세한 내용은 권장 구성을 참고하세요.

소비 옵션 선택 및 용량 확보

워크로드 가용성 및 선택한 머신 유형에 따라 GPU 리소스의 소비 옵션을 선택합니다. 예를 들어 A4X Max 또는 A4X 머신 유형을 사용하려면 미래용 예약 소비 모델을 사용하여 특정 날짜와 시간에 용량을 예약해야 합니다. 다음 옵션은 소비 모델을 요약합니다.

  • 미래용 예약: A4X Max, A4X, A4, A3 Ultra 머신 유형에 사용할 수 있으며, 리소스가 집약적으로 할당되고 vCPU 및 GPU에 최대 53% 할인이 적용됩니다. 미래용 예약은 파운데이션 모델 사전 학습이나 멀티 호스트 파운데이션 모델 추론과 같이 장기간 안정성이 필요한 워크로드에 적합합니다. 이 소비 옵션을 사용하려면 계정팀을 통해 미래의 시작일과 시간에 대한 용량을 요청해야 합니다.

  • 캘린더 모드의 미래용 예약: A4, A3 Ultra, A3 Mega, A3 High (8-GPU VM만 해당) 머신 유형에 사용할 수 있으며, 리소스가 집약적으로 할당되고 vCPU 및 GPU에 최대 53% 할인이 적용됩니다. 캘린더 모드의 미래용 예약은 사전 학습 또는 미세 조정 모델과 같이 최대 90일 동안 실행되고 안정성이 필요한 워크로드의 리소스를 예약하는 데 도움이 됩니다. 하지만 이 소비 옵션을 사용하려면 미래의 날짜와 시간에 리소스를 예약하는 예약 요청을 만들어야 하며 Google Cloud 에서 요청을 승인해야 합니다.

  • Flex-start: A4X Max 및 A4X를 제외한 모든 GPU 머신 유형에서 사용할 수 있습니다. Flex-start를 사용하면 최대 7일 동안 지속되고 A2 머신 유형 이상의 vCPU 및 GPU에 최대 53% 할인이 적용되는 단기 고밀도 클러스터를 만들 수 있습니다. Compute Engine, Cluster Director, Cluster Toolkit 또는 GKE를 통해 직접 Flex-start 클러스터를 만들 수 있습니다. 하지만 클러스터는 즉시 사용할 수 있는 것이 아니며, 리소스를 사용할 수 있게 되면 Google에서 클러스터를 만듭니다.

  • 스팟: A4X Max 및 A4X를 제외한 모든 GPU 머신 유형에서 사용할 수 있습니다. 스팟 VM을 사용하면 가용성에 따라 즉시 컴퓨팅 리소스를 만들 수 있지만 Compute Engine은 언제든지 가상 머신 (VM) 인스턴스를 선점할 수 있습니다. 스팟 VM은 Compute Engine에서 가능한 가장 큰 할인 (61~90%)이 적용된 가격으로 제공됩니다.

소비 옵션에 관한 자세한 내용은 소비 옵션 비교를 참고하세요.

배포 옵션 선택

클러스터 배포에 필요한 제어 수준에 따라 인프라를 더 많이 제어할 수 있는 고도로 관리되는 배포 또는 덜 관리되는 배포 중에서 선택합니다.

고도로 관리됨

Google에서 인프라를 배포하고 설정하도록 하려면 Cluster Director, Cluster Toolkit 또는 GKE를 사용하세요.

  • Cluster Director: 클러스터의 복잡한 설정과 구성을 자동화하는Google Cloud 제품으로, 클러스터의 컴퓨팅, 네트워킹, 스토리지 리소스를 구성하여 성능을 극대화하고 다운타임을 최소화할 수 있습니다. Cluster Director는 클러스터 관리 오버헤드를 피하고 대신 워크로드 실행에 집중하려는 IT 관리자와 AI 연구자를 위해 설계되었습니다.

  • Cluster Toolkit: GKE 또는 Compute Engine의 클러스터 구성 및 배포를 간소화하는 Google 제공 오픈소스 도구입니다. 사전 정의된 청사진을 사용하여 Slurm이 포함된 A4 머신 유형과 같은 일반적인 구성을 배포합니다. 청사진을 수정하여 배포 및 소프트웨어 스택을 맞춤설정할 수 있습니다.

  • GKE: 관리형 Kubernetes 서비스이자 오픈소스 컨테이너 조정 플랫폼입니다. GKE는 자동 확장 및 고가용성과 같은 기능을 제공합니다. 또한 컨테이너화된 애플리케이션을 오케스트레이션하고, 특수 하드웨어를 지원하며, Google Cloud생태계와 호환되므로 AI 또는 ML 워크로드를 배포하고 관리하는 데 적합합니다. GKE를 직접 사용하거나 Cluster Toolkit을 사용하여 GKE 클러스터를 배포할 수 있습니다. GKE Standard 또는 Autopilot 모드 중에서 선택할 수 있습니다.

관리형 감소, 제어 기능 강화

클러스터와 클러스터에 설치된 소프트웨어를 더 세부적으로 제어하려면 관리형 Compute Engine 인스턴스 그룹 (MIG)을 사용하거나 인스턴스를 일괄적으로 만들어 Compute Engine 클러스터를 만드세요. 그런 다음 인스턴스에 필요한 주요 소프트웨어를 수동으로 설치합니다.

조정자 선택

조정자는 클러스터 관리를 자동화합니다. 조정자를 사용하면 클러스터의 각 컴퓨팅 인스턴스를 관리할 필요가 없습니다. Slurm 또는 GKE와 같은 조정자는 작업 대기열, 리소스 할당, 자동 확장 (GKE의 경우) 및 기타 일상적인 클러스터 관리 작업과 같은 작업을 처리합니다.

  • Slurm: Slurm은 HPC, AI 또는 ML 워크로드에 일반적으로 사용되는 오픈소스 오케스트레이터입니다. Slurm을 사용하려면 클러스터에 Slurm을 자동으로 설치하는 클러스터 청사진을 제공하는 Cluster Toolkit을 사용하거나 Compute Engine 클러스터에 Slurm을 수동으로 설치하면 됩니다.

  • GKE: GKE는 오픈소스 컨테이너 조정 플랫폼인 Kubernetes를 기반으로 빌드된 관리형 서비스입니다. GKE는 컨테이너화된 애플리케이션을 오케스트레이션하고, 특수 하드웨어를 지원하며, Google Cloud생태계에 속해 있으므로 AI 또는 ML 워크로드를 배포하고 관리하는 데 적합합니다. GKE를 직접 사용하거나 Cluster Toolkit을 사용하여 GKE 클러스터를 배포할 수 있습니다.

  • 자체 오케스트레이터 사용: 다른 오케스트레이터를 사용하려면 Compute Engine 클러스터에서 사용해야 합니다. 하지만 Compute Engine 클러스터를 만드는 것은Google Cloud에서 제공하는 옵션 중 가장 관리가 적은 옵션입니다. 이 옵션을 선택하면 인스턴스를 설정, 유지관리, 업데이트해야 합니다.

운영체제 이미지 선택

GKE를 사용하는지 Compute Engine을 사용하는지에 따라 선택한 운영체제가 포함된 이미지를 선택합니다(예: GKE 클러스터의 경우 Container-Optimized OS, Compute Engine 클러스터의 경우 가속기 OS 이미지). 또한 컨테이너의 딥 러닝 소프트웨어 레이어 (DSLS) 이미지를 선택할 수도 있습니다.

자세한 내용은 AI 하이퍼컴퓨터 이미지를 참고하세요.

GKE 클러스터 이미지

GKE 클러스터를 만들 때는 Standard 모드와 Autopilot 모드 모두에 기본 컨테이너 OS 이미지를 사용하는 것이 좋습니다. 하지만 Standard 모드에서는 Ubuntu와 같은 다른 사용 가능한 이미지를 선택할 수도 있습니다.

클러스터 툴킷을 사용하여 클러스터를 배포하는 경우 컨테이너 OS 이미지만 사용할 수 있습니다. 이러한 이미지는 클러스터 블루프린트에 내장된 이미지이기 때문입니다. 각 노드 이미지에 대한 자세한 내용은 GKE 문서의 노드 이미지를 참고하세요.

또한 GKE는 NVIDIA CUDA 및 NCCL과 같은 패키지와 PyTorch와 같은 ML 프레임워크를 설치하는 Deep Learning Software Layer (DLSL) 컨테이너 이미지를 제공하여 딥 러닝 워크로드에 바로 사용할 수 있는 환경을 제공합니다. 이러한 사전 빌드된 DLSL 컨테이너 이미지는 GKE 클러스터에서 원활하게 작동하도록 테스트되고 검증되었습니다.

Compute Engine 클러스터용 OS 이미지

AI 하이퍼컴퓨터는 Compute Engine을 사용하여 AI 및 ML 워크로드를 실행하는 데 최적화된 이미지를 제공합니다. 가장 익숙한 OS를 선택하세요.

  • Rocky Linux 9 가속기
  • Rocky Linux 8 액셀러레이터
  • Ubuntu 24.04 LTS 액셀러레이터
  • Ubuntu 22.04 LTS 액셀러레이터

클러스터 툴킷을 사용하는 경우 클러스터 툴킷이 Ubuntu LTS 액셀러레이터 OS 이미지를 확장하는 맞춤 이미지를 만들기 때문에 이러한 액셀러레이터 이미지가 이미 클러스터 툴킷 청사진에 번들로 제공됩니다.

각 OS 이미지에 대한 자세한 내용은 Compute Engine 문서의 운영체제 세부정보를 참고하세요.

클러스터 만들기

클러스터 생성 프로세스를 검토하고 워크로드에 대한 예비 결정을 내린 후 다음 옵션 중 하나를 사용하여 클러스터를 만듭니다.