Vertex AI Training 클러스터 개요

Vertex AI Training 클러스터에 관심이 있으면 영업 담당자에게 문의하여 액세스 권한을 받으세요.

Vertex AI Training 클러스터는 가장 크고 복잡한 AI/ML 워크로드를 간소화하고 가속화하도록 Google Cloud 설계된 서비스입니다. 복잡한 클러스터 구성, 프레임워크 최적화, 하드웨어 장애 처리, 서로 다른 도구 모음 통합과 같은 대규모 학습의 문제를 해결하기 위해 특별히 빌드되었습니다.

핵심 가치 제안 및 기능

모델 개발 서비스는 다음과 같은 핵심 이점을 제공합니다.

  • 오픈소스 Slurm UX 및 클러스터 투명성: Vertex AI Training 클러스터는 오픈소스 Slurm 사용자 환경을 통해 작업을 시작하고 관리할 수 있는 친숙하고 유연한 도구를 제공합니다. Slurm은 최적화된 GPU 예약, 자동화된 내결함성, 간소화된 병렬 작업 실행으로 알려진 업계 표준입니다.

  • 자동화된 클러스터 설정 및 구성: Vertex AI Training 클러스터는 클러스터의 설정 및 구성을 자동화하여 예약부터 프로덕션 학습까지 단 몇 시간 내에 전환할 수 있도록 합니다. 사용자는 Google Cloud 콘솔을 사용하거나(참조 아키텍처 또는 단계별 구성 사용) JSON 파일이 포함된 API 호출을 통해 클러스터를 만들 수 있습니다.

  • 사전 구성된 데이터 과학 레시피 및 워크플로: Vertex AI Training 클러스터에는 Llama 및 Gemma 모델과 같은 인기 있는 사용 사례에 대한 학습을 시작하기 위한 맞춤형 도구와 최적화된 학습 레시피가 포함되어 있으며, 사전 학습, SFT(지도 미세 조정), 강화 학습(RL)을 지원합니다. 이러한 레시피는 Google Cloud인프라에서 최첨단(SOTA) 성능을 발휘하도록 사전 구성되어 상당한 성능 향상을 보여줍니다.

  • 하드웨어 복원력 및 높은 업타임: Vertex AI Training 클러스터는 하드웨어 복원력과 함께 클러스터 업타임을 향상시키도록 설계되었습니다. 하드웨어 문제를 자동으로 해결하고, 다양한 실패 모드(예: 정확성 검사, 속도 검사, 오류 정정 코드(ECC) 오류, NVIDIA Data Center GPU Manager(DCGM) 검사, 디스크 공간 용량)를 감지 및 분류하며, 다시 시작, 이미지 재설치, 결함이 있는 노드 교체, 체크포인트에서 재개와 같은 해결 조치를 트리거합니다. 이렇게 하면 대규모 학습에서 작업 중단 및 하드웨어 장애로 인해 발생하는 상당한 비용 증가와 지연을 완화하는 데 도움이 됩니다.

  • 아키텍처 및 구성요소: Vertex AI Training 클러스터는 GPU와 CPU를 지원하는 Compute Engine 인프라에서 실행됩니다. 로그인 및 워커 노드를 비롯한 컴퓨팅 노드를 배포하고 관리하기 위해 관리형 Slurm 조정자를 활용합니다. 이 서비스는 네트워킹 및 스토리지와 같은 다른 Google Cloud 서비스와 통합됩니다.

  • MLOps 및 관측 가능성: 학습된 워크플로의 자동 등록, 추적, 버전 관리를 위한 Vertex AI Model Registry, 자동 확장 및 자동화된 측정항목을 사용한 배포를 위한 Vertex AI Inference와 같은 Vertex ML Ops 도구와 통합됩니다. Training 클러스터에는 Vertex AI TensorBoard와의 자동 모니터링 가능성 통합 기능을 제공하여 학습 프로세스를 시각화하고, 측정항목을 추적하고, 문제를 조기에 식별할 수 있습니다.

Vertex AI Training 클러스터 API를 사용하여 Training 클러스터를 생성, 검색, 나열, 업데이트 및 삭제할 수 있습니다. 클러스터 생성 후 사용자가 노드에 로그인하고 기본 Slurm 명령어(예: sinfo, sbatch)를 실행하고 GPU 관련 워크로드(예: nvidia-smi)를 실행하여 기능을 검증할 수 있습니다. 클러스터 상태 스캐너(CHS) 도구는 클러스터 준비 상태를 확인하기 위해 DCGM 및 NCCL 테스트와 같은 진단을 실행하도록 사전 설치되어 있습니다.

Vertex AI Training 클러스터는 Llama 및 Gemma와 같은 모델에 최적화된 레시피를 사용하여 사전 빌드된 LLM 작업을 실행하는 API를 제공하며, 체크포인트를 통한 사전 학습 및 지속적 사전 학습을 지원합니다. 로그인 노드에 로그인하고 출력 파일과 Slurm 명령어(예: squeue)를 검사하여 작업을 모니터링할 수 있습니다.

용어

이 섹션에서는 Vertex AI Training 클러스터를 이해하고 효과적으로 활용하는 데 필수적인 주요 용어와 개념에 대한 정의를 제공합니다. 이러한 용어는 핵심 서비스 구성요소, 아키텍처 고려사항, 통합 스토리지 기술, 학습 환경을 뒷받침하는 기본 머신러닝(ML) 및 MLOps 개념을 포괄합니다.

핵심 서비스 개념

노드
  • 클러스터에 있는 단일 가상 머신(Compute Engine 인스턴스)입니다. 예약된 클러스터의 관리형 학습 맥락에서 노드는 클러스터 내에서 단일 컴퓨팅 단위 역할을 하는 개별 가상 머신(VM)을 의미합니다. 전체 학습 작업의 일부를 실행하는 전용 작업자 머신 중 하나라고 생각하면 됩니다. 각 노드에는 CPU, 메모리, 액셀러레이터(예: A3 또는 A4 GPU)와 같은 특정 리소스가 장착되어 있으며 이러한 리소스는 모두 조율된 방식으로 함께 작동하여 대규모 분산 학습 작업을 처리합니다.
로그인 노드
  • 로그인 노드는 사용자가 클러스터에 액세스하고 작업을 제출하며 파일을 관리하는 기본 진입점입니다. 자세한 내용은 고성능 컴퓨팅이란 무엇인가요?를 참조하세요.
파티션
  • Slurm에서 노드의 논리적 그룹화로, 하드웨어 구성이 다른 노드를 분리하는 데 자주 사용됩니다.
레시피
  • 관리형 학습 맥락에서 레시피는 특정 대규모 학습 워크로드를 실행하는 데 필요한 모든 것이 포함된 포괄적이고 재사용 가능한 패키지입니다.
Slurm 클러스터
  • Slurm으로 관리되는 Compute Engine 인스턴스 모음으로, 로그인 노드와 학습 작업을 실행할 수 있도록 구성된 작업자 노드 여러 개가 포함됩니다. 자세한 내용은 Slurm 워크로드 관리자를 참조하세요.
워커 노드
  • 워커 노드는 클러스터 내에서 작업을 실행하거나 작업을 수행하는 역할을 하는 개별 머신 또는 컴퓨팅 인스턴스를 의미합니다. Kubernetes 또는 Ray 클러스터와 같은 시스템에서 노드는 컴퓨팅의 기본 단위입니다. 자세한 내용은 고성능 컴퓨팅(HPC)이란 무엇인가요?를 참조하세요.

아키텍처 및 네트워킹

소비자 VPC 네트워크
  • 소비자 VPC 네트워크는 프로듀서 VPC라고 하는 다른 VPC에서 호스팅되는 서비스에 비공개로 액세스하는 Google Cloud 가상 프라이빗 클라우드(VPC)입니다. 자세한 내용은 Private Service Connect를 참조하세요.
최대 전송 단위(MTU)
  • 네트워크에 연결된 기기에서 전송할 수 있는 최대 데이터 패킷 크기입니다. MTU 크기가 클수록(점보 프레임) 특정 워크로드의 네트워크 성능을 향상시킬 수 있습니다. 자세한 내용은 최대 전송 단위를 참조하세요.
비공개 서비스 액세스
  • 비공개 서비스 액세스는 가상 프라이빗 클라우드(VPC) 네트워크와 Google 또는 서드 파티 서비스 제공업체 소유 네트워크 간의 비공개 연결입니다. VPC 네트워크의 가상 머신(VM) 인스턴스가 공개 인터넷에 노출되지 않고도 내부 IP 주소를 사용하여 이러한 서비스와 통신할 수 있습니다. 자세한 내용은 비공개 서비스 액세스를 참조하세요.
VPC 네트워크 피어링
  • 두 VPC 네트워크가 비공개로 통신할 수 있도록 지원하는 네트워킹 연결입니다. 예약된 클러스터의 관리형 학습 맥락에서 VPC 네트워크 피어링은 필수 서비스를 통합하는 데 중요한 구성요소입니다. 예를 들어 클러스터의 VPC를 Filestore 인스턴스에 연결하는 데 필요한 방법입니다. Filestore 인스턴스는 클러스터의 모든 노드에 필요한 공유 `/home` 디렉터리를 제공합니다.
영역
  • Google Cloud 리전에 있는 특정 배포 영역입니다. 예약된 클러스터의 관리형 학습 맥락에서 최상의 성능을 위해 서비스의 모든 구성요소(클러스터, Filestore, Managed Lustre 인스턴스)를 같은 영역에 만들어야 합니다.

통합 스토리지 기술

Cloud Storage Fuse
  • Cloud Storage 버킷을 Linux 또는 macOS 시스템에 파일 시스템으로 마운트할 수 있는 오픈소스 FUSE 어댑터입니다. 자세한 내용은 Cloud Storage Fuse를 참조하세요.
Filestore
  • Google Cloud의 완전 관리형 고성능 파일 저장 서비스로, 주로 공유 파일 시스템이 필요한 애플리케이션에 사용됩니다. 자세한 내용은 Filestore 개요를 참조하세요.
Managed Lustre
  • 고성능 컴퓨팅을 위해 설계된 병렬 분산 파일 시스템입니다. Google Cloud의 Managed Lustre는 까다로운 워크로드에 사용할 수 있는 높은 처리량의 파일 시스템을 제공합니다. 자세한 내용은 Managed Lustre 개요를 참조하세요.
성능 등급
  • Managed Lustre 인스턴스의 구성 설정으로, 처리량 속도(TiB당 MBps)를 정의하고 최소 및 최대 용량에 영향을 미칩니다.

핵심 ML 및 MLOps 개념

체크포인트
  • 학습 중 또는 학습이 완료된 후에 모델 파라미터의 상태를 캡처하는 데이터입니다. 예를 들어 학습 중에 다음 작업을 할 수 있습니다. 1. 의도적으로 또는 특정 오류의 결과로 학습을 중지합니다. 2. 체크포인트를 캡처합니다. 3. 나중에 다른 하드웨어에서 체크포인트를 새로고침합니다. 4. 학습을 다시 시작합니다. Gemini 내에서 체크포인트는 특정 데이터 세트에서 학습된 Gemini 모델의 특정 버전을 나타냅니다.
지도 미세 조정(SFT)
  • 사전 학습된 모델을 더 작은 라벨이 지정된 데이터 세트로 추가 학습시켜 특정 작업에 맞게 조정하는 머신러닝 기법입니다.
Vertex AI 추론
  • 학습된 머신러닝(ML) 모델을 사용하여 처음 접하는 새로운 데이터에서 추론을 수행할 수 있는 Vertex AI 서비스입니다. Vertex AI는 추론할 수 있도록 모델을 배포하는 서비스를 제공합니다. 자세한 내용은 커스텀 학습 모델에서 추론 수행을 참조하세요.
Vertex AI Model Registry
  • Vertex AI Model Registry는 ML 모델의 수명 주기를 관리할 수 있는 중앙 저장소입니다. Vertex AI Model Registry에서 모델 개요가 제공되므로 새 버전을 더욱 효과적으로 구성, 추적하고 학습시킬 수 있습니다. 배포할 모델 버전이 있는 경우 레지스트리에서 직접 모델을 엔드포인트에 할당하거나 별칭을 사용하여 엔드포인트에 배포할 수 있습니다. 자세한 내용은 Vertex AI Model Registry 소개를 참조하세요.
Vertex AI 텐서보드
  • Vertex AI 텐서보드는 데이터 과학자와 ML 엔지니어가 친숙한 오픈소스 텐서보드 인터페이스를 사용하여 머신러닝 실험을 시각화하고, 모델 학습을 디버그하고, 성능 측정항목을 추적할 수 있는 Google Cloud의 관리형 확장 가능 서비스입니다. Vertex AI Training 및 기타 서비스와 원활하게 통합되어 실험 데이터를 위한 영구 스토리지를 제공하고 모델 개발에 대한 공동 분석을 지원합니다. 자세한 내용은 Vertex AI 텐서보드 소개를 참조하세요.