추천 구성

이 문서에서는 다양한 인공지능 (AI), 머신러닝 (ML), 고성능 컴퓨팅 (HPC) 워크로드에 가장 적합한 가속기, 소비 유형, 배포 도구를 추천합니다. 이 문서를 사용하여 워크로드에 가장 적합한 배포를 식별하세요.

AI, ML, HPC 워크로드의 인프라 핵심 요소에 관한 정보와 권장사항은 다음 문서를 참고하세요.

워크로드 개요

AI 하이퍼컴퓨터 아키텍처는 다음 사용 사례를 지원합니다.

워크로드 설명 권장사항
파운데이션 모델 사전 학습 여기에는 대규모 데이터 세트를 사용하여 언어 모델을 빌드하는 작업이 포함됩니다. 파운데이션 모델을 사전 학습한 결과는 일반 작업을 잘 수행하는 새로운 모델입니다.
모델은 크기에 따라 다음과 같이 분류됩니다.
  • 프런티어 모델: 수천억에서 수조 이상의 파라미터를 포함하는 ML 모델입니다. 여기에는 Gemini와 같은 대규모 언어 모델 (LLM)이 포함됩니다.
  • 대규모 모델: 수십억에서 수천억 개 이상의 파라미터를 포함하는 모델입니다.
모델 사전 학습에 대한 권장사항을 참고하세요.
세부 조정 여기에는 학습된 모델을 가져와 전문 데이터 세트나 기타 기법을 사용하여 특정 작업을 수행하도록 조정하는 것이 포함됩니다. 일반적으로 대규모 모델에서 미세 조정이 실행됩니다. 모델 미세 조정 권장사항을 참고하세요.
추론 또는 서빙 여기에는 학습되었거나 미세 조정된 모델을 가져와서 사용자가 소비하거나 애플리케이션이 소비할 수 있도록 만드는 과정이 포함됩니다.
추론 워크로드는 모델 크기에 따라 다음과 같이 분류됩니다.
  • 다중 호스트 파운데이션 모델 추론: 수천억에서 수조 이상의 파라미터에 걸쳐 학습된 ML 모델로 추론을 실행합니다. 이러한 추론 워크로드의 경우 컴퓨팅 부하가 여러 호스트 머신 간에 공유됩니다.
  • 단일 호스트 파운데이션 모델 추론: 수십억에서 수백억 개의 파라미터에 걸쳐 학습된 ML 모델로 추론을 실행합니다. 이러한 추론 워크로드의 경우 컴퓨팅 부하가 단일 호스트 머신으로 제한됩니다.
  • 대규모 모델 추론: 수백억에서 수천억 개의 파라미터에 걸쳐 학습되거나 미세 조정된 ML 모델로 추론을 실행합니다.
추론을 위한 권장사항을 참고하세요.
소형~중형 모델 머신러닝 여기에는 일반적으로 더 전문화된 작업을 위해 크기와 복잡성이 더 작은 ML 모델을 학습시키고 제공하는 것이 포함됩니다. 중소 규모 모델 머신러닝 권장사항을 참고하세요.
HPC 단일 워크스테이션, 서버 또는 컴퓨터보다 높은 성능을 얻기 위해 컴퓨팅 리소스를 집계하는 방식입니다. HPC는 학술 연구, 과학, 설계, 시뮬레이션, 비즈니스 인텔리전스 분야의 문제를 해결하는 데 사용됩니다. HPC 권장사항을 참고하세요.

모델 사전 학습에 대한 권장사항

파운데이션 모델을 사전 학습하려면 대규모 액셀러레이터 클러스터가 필요하며, 이 클러스터는 지속적으로 대량의 데이터를 읽고 순방향 및 역방향 패스를 통해 가중치를 조정하여 데이터로부터 학습합니다. 이러한 학습 작업은 한 번에 몇 주 또는 몇 달 동안 실행됩니다.

다음 섹션에서는 모델 사전 학습 시 사용할 가속기와 권장 소비 유형을 간략히 설명합니다.

추천 가속기

Google Cloud에서 파운데이션 모델을 사전 학습하려면 A4X Max, A4 또는 A3 가속기 최적화 머신 유형을 사용하고 오케스트레이터를 사용하여 클러스터를 배포하는 것이 좋습니다. 이러한 대규모 액셀러레이터 클러스터를 배포하려면 Cluster Director 또는 Cluster Toolkit을 사용하는 것이 좋습니다. 자세한 내용은 다음 표에서 선택한 클러스터의 해당 배포 가이드를 참고하세요.

워크로드 권장사항 클러스터 배포 가이드
머신 유형 조정자
  • 프론티어 모델 학습
  • 대규모 모델 학습
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
GKE 기본 구성으로 AI에 최적화된 GKE 클러스터 만들기
Slurm
  • 프론티어 모델 학습
  • 대규모 모델 학습
A3 Mega GKE Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화
Slurm
  • 대규모 모델 학습
A3 High GKE Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화
Slurm A3 High Slurm 클러스터 배포

권장 소비 유형

최소 비용으로 대규모 액셀러레이터 클러스터를 확보하려면 예약을 사용하고 장기간 예약하는 것이 좋습니다. 소비 유형에 대한 자세한 내용은 소비 옵션 선택을 참고하세요.

모델 미세 조정 권장사항

대규모 파운데이션 모델을 미세 조정하려면 소규모 액셀러레이터 클러스터가 필요하며, 적당한 양의 데이터를 읽고 특정 작업을 수행하도록 모델을 조정해야 합니다. 이러한 미세 조정 작업은 며칠 또는 몇 주 동안 실행됩니다.

다음 섹션에서는 모델을 미세 조정할 때 사용할 권장 가속기와 소비 유형을 간략하게 설명합니다.

추천 가속기

Google Cloud에서 모델을 미세 조정하려면 A4X Max, A4X, A4 또는 A3 가속기 최적화 머신 유형을 사용하고 오케스트레이터를 사용하여 클러스터를 배포하는 것이 좋습니다.

이러한 가속기 클러스터를 배포하려면 Cluster Director 또는 Cluster Toolkit을 사용하는 것이 좋습니다. 자세한 내용은 다음 표에서 선택한 머신 유형에 해당하는 클러스터 배포 가이드를 참고하세요.

워크로드 권장사항 클러스터 배포 가이드
머신 유형 조정자
대규모 모델 미세 조정
  • A4X Max
  • A4X
  • A4
GKE 기본 구성으로 AI에 최적화된 GKE 클러스터 만들기
Slurm
대규모 모델 미세 조정 A3 Mega GKE Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화
Slurm
대규모 모델 미세 조정 A3 High GKE Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화
Slurm A3 High Slurm 클러스터 배포

권장 소비 유형

워크로드 미세 조정의 경우 캘린더 모드의 미래용 예약을 사용하여 리소스를 프로비저닝하는 것이 좋습니다. 사용 옵션에 관한 자세한 내용은 사용 옵션 선택을 참고하세요.

추론을 위한 권장사항

다음 섹션에서는 추론을 실행할 때 사용할 권장되는 액셀러레이터와 소비 유형을 간략하게 설명합니다.

추천 가속기

추론에 권장되는 가속기는 멀티 호스트 프런티어 또는 대규모 모델 추론을 실행하는지 아니면 싱글 호스트 프런티어 추론을 실행하는지에 따라 다릅니다.

권장 가속기 (다중 호스트)

Google Cloud에서 멀티 호스트 프런티어 또는 대규모 모델 추론을 실행하려면 A4X Max, A4X, A4 또는 A3 가속기 최적화 머신 유형을 사용하고 오케스트레이터를 사용하여 머신을 배포하는 것이 좋습니다. 이러한 가속기 클러스터를 배포하려면 Cluster Director 또는 Cluster Toolkit을 사용하는 것이 좋습니다. 이러한 클러스터를 시작할 수 있도록 권장되는 각 머신 유형의 클러스터 배포 가이드 링크가 제공됩니다.

워크로드 권장사항 클러스터 배포 가이드
머신 유형 조정자
멀티 호스트 프런티어 추론
  • A4X Max
  • A4X
  • A4
  • A3 Ultra
GKE 기본 구성으로 AI에 최적화된 GKE 클러스터 만들기
Slurm
멀티 호스트 프런티어 추론 A3 Mega GKE Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화
Slurm
대규모 모델 추론 A3 High GKE Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화
Slurm A3 High Slurm 클러스터 배포

권장 가속기 (단일 호스트)

다음 표에는 단일 호스트 프런티어 추론을 실행할 때 사용할 것을 권장하는 액셀러레이터가 나와 있습니다. 이러한 VM을 시작할 수 있도록 권장되는 각 머신 유형의 VM 배포 가이드 링크가 제공됩니다.

워크로드 권장사항 VM 배포 가이드
머신 유형 조정자
단일 호스트 프런티어 추론
  • A4
  • A3 Ultra
해당 사항 없음 AI 최적화 인스턴스 만들기
단일 호스트 프런티어 추론 A3 High 해당 사항 없음 GPUDirect-TCPX가 사용 설정된 A3 VM 만들기

권장 소비 유형

추론의 경우 장기 실행 예약 또는 캘린더 모드의 미래용 예약을 사용하는 것이 좋습니다. 사용 옵션에 관한 자세한 내용은 사용 옵션 선택을 참고하세요.

중소 규모 모델 머신러닝 권장사항

중소 규모 모델이 포함된 머신러닝 워크로드의 경우 가격과 성능 간의 최적의 균형을 달성하는 것이 주요 고려사항입니다.

추천 가속기

다음 표에는 소규모에서 중간 규모 모델 ML 워크로드에 사용할 권장 가속기가 나와 있습니다.

워크로드 권장사항 VM 배포 가이드
머신 유형 조정자
소규모~중규모 모델 머신러닝
  • G4
  • G2
해당 사항 없음 G2 또는 G4 인스턴스 만들기

HPC 권장사항

HPC 워크로드의 경우 가속기 최적화 머신 시리즈 또는 컴퓨팅 최적화 머신 시리즈가 적합합니다. 가속기 최적화 머신 시리즈를 사용하는 경우 가장 적합한 항목은 GPU로 오프로드해야 하는 컴퓨팅 부하에 따라 달라집니다. HPC 워크로드에 대한 권장사항의 자세한 목록은 HPC 워크로드 실행을 위한 권장사항을 참고하세요.

권장사항 요약

다음은 다양한 워크로드에 권장되는 가속기 및 소비 유형에 대한 권장사항을 요약한 것입니다.


리소스

권장사항
모델 사전 학습
머신 계열 가속기 최적화 머신 유형(A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High) 중 하나를 사용합니다.
소비 유형 예약 사용
모델 미세 조정
머신 계열 A4X Max, A4X, A4 또는 A3 가속기 최적화 머신 유형 사용
소비 유형 예약 사용
추론
머신 계열 가속기 최적화 머신 유형(A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High) 중 하나를 사용합니다.
소비 유형 예약 사용
HPC
HPC 워크로드 실행을 위한 권장사항의 요약 섹션을 참고하세요.