Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

클러스터 만들기 개요

이 문서에서는 AI 하이퍼컴퓨터에서 AI 워크로드의 클러스터를 만드는 방법을 요약합니다. 특히 이 문서에서는 클러스터를 시작할 때 수행해야 하는 프로세스와 선택사항을 안내합니다.

시작하기 전에

지원하려는 기존 워크로드가 있어야 합니다.
모델 학습 및 추론과 같은 AI 및 ML 워크로드에 일반적으로 사용되는 용어에 익숙해야 합니다.

클러스터 시작

클러스터 시작에는 다음 단계가 포함됩니다.

워크로드를 결정하고 머신 유형을 선택합니다.
소비 옵션을 선택하고 용량을 확보합니다.
배포 옵션을 선택합니다.
조정자를 선택합니다.
운영체제 및 클러스터 이미지를 선택합니다.
클러스터를 만듭니다.
워크로드의 스토리지를 프로비저닝합니다.

워크로드를 결정하고 머신 유형을 선택합니다.

AI 워크로드의 머신 유형을 선택합니다. AI 하이퍼컴퓨터는 A4X Max, A4X, A4, A3 머신 시리즈를 사용하여 클러스터 생성을 지원합니다. 머신 사용에 관한 다음 권장사항을 고려하세요.

파운데이션 모델 학습 및 추론: A4X Max 또는 A4X

**주의:** A4X Max 및 A4X 머신 시리즈에는 Compute Engine 서비스수준계약 (SLA) 이 적용되지 않습니다.
대규모 모델 학습, 미세 조정, 추론: A4 또는 A3 Ultra
주류 모델 추론 및 미세 조정: A3 Mega 또는 A3 High (GPU 8개)
추론 제공: A3 Edge

각 머신 시리즈에 대한 자세한 내용은 GPU 머신 유형을 참조하세요. 각 머신의 워크로드 권장사항에 대한 자세한 내용은 권장 구성을 참조하세요.

소비 옵션을 선택하고 용량을 확보합니다.

워크로드 가용성과 선택한 머신 유형에 따라 GPU 리소스의 소비 옵션을 선택하세요. 예를 들어 A4X Max 또는 A4X 머신 유형을 사용하려면 미래용 예약 소비 모델을 사용하여 특정 날짜와 시간에 용량을 예약해야 합니다. 다음 옵션은 소비 모델을 요약합니다.

미래용 예약: A4X Max, A4X, A4, A3 Ultra 머신 유형에 사용할 수 있으며, 리소스가 집약적으로 할당되고 vCPU 및 GPU에 최대 53% 할인이 적용됩니다. 미래용 예약은 파운데이션 모델 사전 학습 또는 멀티 호스트 파운데이션 모델 추론과 같이 장기간 안정성이 필요한 워크로드에 적합합니다. 이 소비 옵션을 사용하려면 계정팀을 통해 향후 시작 날짜와 시간에 용량을 요청해야 합니다.
캘린더 모드의 미래용 예약: A4, A3 Ultra, A3 Mega, A3 High (GPU VM 8개만 해당) 머신 유형에 사용할 수 있으며, 리소스가 집약적으로 할당되고 vCPU 및 GPU에 최대 53% 할인이 적용됩니다. 캘린더 모드의 미래용 예약은 최대 90일 동안 실행되고 안정성이 필요한 워크로드(예: 모델 사전 학습 또는 미세 조정)의 리소스를 예약하는 데 도움이 됩니다. 하지만 이 소비 옵션을 사용하려면 향후 날짜와 시간에 리소스를 예약하는 예약 요청을 만들고 Google Cloud 요청을 승인해야 합니다.
Flex-start: A4X Max 및 A4X를 제외한 모든 GPU 머신 유형에 사용할 수 있습니다. Flex-start를 사용하면 최대 7일 동안 지속되고 A2 머신 유형 이상에서 vCPU 및 GPU에 최대 53% 할인이 적용되는 단기 지속 집약형 클러스터를 만들 수 있습니다. Compute Engine, Cluster Director, Cluster Toolkit 또는 GKE를 통해 직접 Flex-start 클러스터를 만들 수 있습니다. 하지만 클러스터는 즉시 사용할 수 없습니다. Google은 리소스를 사용할 수 있게 되는 즉시 클러스터를 만듭니다.
스팟: A4X Max 및 A4X를 제외한 모든 GPU 머신 유형에 사용할 수 있습니다. 스팟 VM을 사용하면 가용성을 기준으로 컴퓨팅 리소스를 즉시 만들 수 있지만 Compute Engine은 언제든지 가상 머신 (VM) 인스턴스를 선점할 수 있습니다. 스팟 VM은 Compute Engine에서 가능한 가장 큰 할인율 (61~90%)로 가격이 책정됩니다.

소비 옵션에 대한 자세한 내용은 소비 옵션 비교를 참조하세요.

배포 옵션 선택

클러스터 배포에 필요한 제어 수준에 따라 인프라를 더 많이 제어할 수 있는 고도로 관리되는 배포 또는 덜 관리되는 배포 중에서 선택합니다.

고도로 관리됨

Google에서 인프라를 배포하고 설정하도록 하려면 Cluster Director, Cluster Toolkit 또는 GKE를 사용하세요.

Cluster Director: 클러스터의 복잡한 설정 및 구성을 자동화하는 제품으로, 클러스터의 컴퓨팅, 네트워킹, 스토리지 리소스를 구성하여 성능을 극대화하고 다운타임을 최소화할 수 있도록 지원합니다.Google Cloud Cluster Director는 클러스터 관리 오버헤드를 방지하고 대신 워크로드 실행에 집중하려는 IT 관리자와 AI 연구원을 위해 설계되었습니다.
Cluster Toolkit: GKE 또는 Compute Engine의 클러스터 구성 및 배포를 간소화하는 Google 제공 오픈소스 도구입니다. 사전 정의된 청사진을 사용하여 Slurm이 포함된 A4 머신 유형과 같은 일반적인 구성을 배포합니다. 청사진을 수정하여 배포 및 소프트웨어 스택을 맞춤설정할 수 있습니다.
GKE: 관리형 Kubernetes 서비스이자 오픈소스 컨테이너 조정 플랫폼입니다. GKE는 자동 확장 및 고가용성과 같은 기능을 제공합니다. 또한 컨테이너화된 애플리케이션을 오케스트레이션하고, 특수 하드웨어를 지원하며, Google Cloud 생태계와 호환되므로 AI 또는 ML 워크로드를 배포하고 관리하는 데 적합합니다. GKE를 직접 사용하거나 Cluster Toolkit을 사용하여 GKE 클러스터를 배포할 수 있습니다. GKE Standard 또는 Autopilot 모드 중에서 선택할 수 있습니다.

관리형 감소, 제어 기능 강화

클러스터와 클러스터에 설치된 소프트웨어를 더 세부적으로 제어하려면 관리형 Compute Engine 인스턴스 그룹 (MIG)을 사용하거나 인스턴스를 일괄적으로 만들어 Compute Engine 클러스터를 만드세요. 그런 다음 인스턴스에 필요한 주요 소프트웨어를 수동으로 설치합니다.

조정자 선택

조정자는 클러스터 관리를 자동화합니다. 조정자를 사용하면 클러스터의 각 컴퓨팅 인스턴스를 관리할 필요가 없습니다. Slurm 또는 GKE와 같은 조정자는 작업 대기열, 리소스 할당, 자동 확장 (GKE의 경우) 및 기타 일상적인 클러스터 관리 작업과 같은 태스크를 처리합니다.

Slurm: Slurm은 HPC, AI, 또는 ML 워크로드에 흔히 사용되는 오픈소스 조정자입니다. Slurm을 사용하려면 클러스터에 Slurm을 자동으로 설치하는 클러스터 청사진을 제공하는 Cluster Toolkit을 사용하거나 Compute Engine 클러스터에 Slurm을 수동으로 설치하면 됩니다.
GKE: GKE는 오픈소스 컨테이너 조정 플랫폼인 Kubernetes를 기반으로 빌드된 관리형 서비스입니다. GKE는 컨테이너화된 애플리케이션을 오케스트레이션하는 기능, 특수 하드웨어 지원, 생태계에서의 위치로 인해 AI 또는 ML 워크로드를 배포하고 관리하는 데 적합합니다. Google CloudGKE를 직접 사용하거나 Cluster Toolkit을 사용하여 GKE 클러스터를 배포할 수 있습니다.
자체 조정자 가져오기: 다른 조정자를 사용하려면 Compute Engine 클러스터에서 조정자를 사용해야 합니다. 하지만 Compute Engine 클러스터 만들기는 에서 제공하는 가장 관리형이 적은 옵션입니다. Google Cloud이 옵션을 선택하면 인스턴스를 설정, 유지보수, 업데이트하는 것은 사용자의 책임입니다.

시스템 이미지 선택

GKE 또는 Compute Engine을 사용하는지에 따라 GKE 클러스터의 Container-Optimized OS 또는 Compute Engine 클러스터의 가속기 OS 이미지와 같이 선택한 운영체제가 포함된 이미지를 선택합니다. 또한 컨테이너의 딥 러닝 소프트웨어 계층 (DSLS) 이미지를 선택할 수도 있습니다.

자세한 내용은 AI 하이퍼컴퓨터 이미지를 검토하세요.

GKE 클러스터용 이미지

GKE 클러스터를 만들려면 Standard 모드와 Autopilot 모드 모두에 기본 컨테이너 OS 이미지를 사용하는 것이 좋습니다. 하지만 Standard 모드에서는 Ubuntu와 같은 다른 사용 가능한 이미지를 선택할 수도 있습니다.

Cluster Toolkit을 사용하여 클러스터를 배포하는 경우 클러스터 청사진에 내장된 이미지이므로 컨테이너 OS 이미지만 사용할 수 있습니다. 각 노드 이미지에 대한 자세한 내용은 GKE 문서의 노드 이미지를 참조하세요.

GKE는 NVIDIA CUDA, NCCL과 같은 패키지뿐만 아니라 PyTorch와 같은 ML 프레임워크를 설치하는 딥 러닝 소프트웨어 계층 (DLSL) 컨테이너 이미지도 제공하여 딥 러닝 워크로드에 바로 사용할 수 있는 환경을 제공합니다. 이러한 사전 빌드된 DLSL 컨테이너 이미지는 GKE 클러스터에서 원활하게 작동하도록 테스트되고 검증되었습니다.

Compute Engine 클러스터용 OS 이미지

AI 하이퍼컴퓨터는 Compute Engine을 사용하여 AI 및 ML 워크로드를 실행하는 데 최적화된 이미지를 제공합니다. 가장 익숙한 OS를 선택하세요.

Rocky Linux 9 가속기
Rocky Linux 8 가속기
Ubuntu 24.04 LTS 가속기
Ubuntu 22.04 LTS 가속기

Cluster Toolkit을 사용하는 경우 이러한 가속기 이미지는 이미 Cluster Toolkit 청사진에 번들로 제공됩니다. Cluster Toolkit은 Ubuntu LTS 가속기 OS 이미지를 확장하는 커스텀 이미지를 만들기 때문입니다.

각 OS 이미지에 대한 자세한 내용은 Compute Engine 문서의 운영체제 세부정보를 참조하세요.