이 문서에서는 다양한 인공지능 (AI), 머신러닝 (ML), 고성능 컴퓨팅 (HPC) 워크로드에 가장 적합한 가속기, 소비 유형, 배포 도구를 추천합니다. 이 문서를 사용하여 워크로드에 가장 적합한 배포를 식별하세요.
AI, ML, HPC 워크로드의 인프라 핵심 요소에 관한 정보와 권장사항은 다음 문서를 참고하세요.
워크로드 개요
AI 하이퍼컴퓨터 아키텍처는 다음 사용 사례를 지원합니다.
| 워크로드 | 설명 | 권장사항 |
|---|---|---|
| 파운데이션 모델 사전 학습 | 여기에는 대규모 데이터 세트를 사용하여 언어 모델을 빌드하는 작업이 포함됩니다. 파운데이션 모델을 사전 학습한 결과는 일반 작업을 잘 수행하는 새로운 모델입니다. 모델은 크기에 따라 다음과 같이 분류됩니다.
|
모델 사전 학습에 대한 권장사항을 참고하세요. |
| 세부 조정 | 여기에는 학습된 모델을 가져와 전문 데이터 세트나 기타 기법을 사용하여 특정 작업을 수행하도록 조정하는 것이 포함됩니다. 일반적으로 대규모 모델에서 미세 조정이 실행됩니다. | 모델 미세 조정 권장사항을 참고하세요. |
| 추론 또는 서빙 | 여기에는 학습되었거나 미세 조정된 모델을 가져와서 사용자가 소비하거나 애플리케이션이 소비할 수 있도록 만드는 과정이 포함됩니다. 추론 워크로드는 모델 크기에 따라 다음과 같이 분류됩니다.
|
추론을 위한 권장사항을 참고하세요. |
| 소형~중형 모델 머신러닝 | 여기에는 일반적으로 더 전문화된 작업을 위해 크기와 복잡성이 더 작은 ML 모델을 학습시키고 제공하는 것이 포함됩니다. | 중소 규모 모델 머신러닝 권장사항을 참고하세요. |
| HPC | 단일 워크스테이션, 서버 또는 컴퓨터보다 높은 성능을 얻기 위해 컴퓨팅 리소스를 집계하는 방식입니다. HPC는 학술 연구, 과학, 설계, 시뮬레이션, 비즈니스 인텔리전스 분야의 문제를 해결하는 데 사용됩니다. | HPC 권장사항을 참고하세요. |
모델 사전 학습에 대한 권장사항
파운데이션 모델을 사전 학습하려면 대규모 액셀러레이터 클러스터가 필요하며, 이 클러스터는 지속적으로 대량의 데이터를 읽고 순방향 및 역방향 패스를 통해 가중치를 조정하여 데이터로부터 학습합니다. 이러한 학습 작업은 한 번에 몇 주 또는 몇 달 동안 실행됩니다.
다음 섹션에서는 모델 사전 학습 시 사용할 가속기와 권장 소비 유형을 간략히 설명합니다.
추천 가속기
Google Cloud에서 파운데이션 모델을 사전 학습하려면 A4X Max, A4 또는 A3 가속기 최적화 머신 유형을 사용하고 오케스트레이터를 사용하여 클러스터를 배포하는 것이 좋습니다. 이러한 대규모 액셀러레이터 클러스터를 배포하려면 Cluster Director 또는 Cluster Toolkit을 사용하는 것이 좋습니다. 자세한 내용은 다음 표에서 선택한 클러스터의 해당 배포 가이드를 참고하세요.
| 워크로드 | 권장사항 | 클러스터 배포 가이드 | |
|---|---|---|---|
| 머신 유형 | 조정자 | ||
|
|
GKE | 기본 구성으로 AI에 최적화된 GKE 클러스터 만들기 |
| Slurm | |||
|
A3 Mega | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | |||
|
A3 High | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | A3 High Slurm 클러스터 배포 | ||
권장 소비 유형
최소 비용으로 대규모 액셀러레이터 클러스터를 확보하려면 예약을 사용하고 장기간 예약하는 것이 좋습니다. 소비 유형에 대한 자세한 내용은 소비 옵션 선택을 참고하세요.
모델 미세 조정 권장사항
대규모 파운데이션 모델을 미세 조정하려면 소규모 액셀러레이터 클러스터가 필요하며, 적당한 양의 데이터를 읽고 특정 작업을 수행하도록 모델을 조정해야 합니다. 이러한 미세 조정 작업은 며칠 또는 몇 주 동안 실행됩니다.
다음 섹션에서는 모델을 미세 조정할 때 사용할 권장 가속기와 소비 유형을 간략하게 설명합니다.
추천 가속기
Google Cloud에서 모델을 미세 조정하려면 A4X Max, A4X, A4 또는 A3 가속기 최적화 머신 유형을 사용하고 오케스트레이터를 사용하여 클러스터를 배포하는 것이 좋습니다.
이러한 가속기 클러스터를 배포하려면 Cluster Director 또는 Cluster Toolkit을 사용하는 것이 좋습니다. 자세한 내용은 다음 표에서 선택한 머신 유형에 해당하는 클러스터 배포 가이드를 참고하세요.
| 워크로드 | 권장사항 | 클러스터 배포 가이드 | |
|---|---|---|---|
| 머신 유형 | 조정자 | ||
| 대규모 모델 미세 조정 |
|
GKE | 기본 구성으로 AI에 최적화된 GKE 클러스터 만들기 |
| Slurm | |||
| 대규모 모델 미세 조정 | A3 Mega | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | |||
| 대규모 모델 미세 조정 | A3 High | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | A3 High Slurm 클러스터 배포 | ||
권장 소비 유형
워크로드 미세 조정의 경우 캘린더 모드의 미래용 예약을 사용하여 리소스를 프로비저닝하는 것이 좋습니다. 사용 옵션에 관한 자세한 내용은 사용 옵션 선택을 참고하세요.
추론을 위한 권장사항
다음 섹션에서는 추론을 실행할 때 사용할 권장되는 액셀러레이터와 소비 유형을 간략하게 설명합니다.
추천 가속기
추론에 권장되는 가속기는 멀티 호스트 프런티어 또는 대규모 모델 추론을 실행하는지 아니면 싱글 호스트 프런티어 추론을 실행하는지에 따라 다릅니다.
권장 가속기 (다중 호스트)
Google Cloud에서 멀티 호스트 프런티어 또는 대규모 모델 추론을 실행하려면 A4X Max, A4X, A4 또는 A3 가속기 최적화 머신 유형을 사용하고 오케스트레이터를 사용하여 머신을 배포하는 것이 좋습니다. 이러한 가속기 클러스터를 배포하려면 Cluster Director 또는 Cluster Toolkit을 사용하는 것이 좋습니다. 이러한 클러스터를 시작할 수 있도록 권장되는 각 머신 유형의 클러스터 배포 가이드 링크가 제공됩니다.
| 워크로드 | 권장사항 | 클러스터 배포 가이드 | |
|---|---|---|---|
| 머신 유형 | 조정자 | ||
| 멀티 호스트 프런티어 추론 |
|
GKE | 기본 구성으로 AI에 최적화된 GKE 클러스터 만들기 |
| Slurm | |||
| 멀티 호스트 프런티어 추론 | A3 Mega | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | |||
| 대규모 모델 추론 | A3 High | GKE | Standard 모드 클러스터에서 GPU 네트워크 대역폭 극대화 |
| Slurm | A3 High Slurm 클러스터 배포 | ||
권장 가속기 (단일 호스트)
다음 표에는 단일 호스트 프런티어 추론을 실행할 때 사용할 것을 권장하는 액셀러레이터가 나와 있습니다. 이러한 VM을 시작할 수 있도록 권장되는 각 머신 유형의 VM 배포 가이드 링크가 제공됩니다.
| 워크로드 | 권장사항 | VM 배포 가이드 | |
|---|---|---|---|
| 머신 유형 | 조정자 | ||
| 단일 호스트 프런티어 추론 |
|
해당 사항 없음 | AI 최적화 인스턴스 만들기 |
| 단일 호스트 프런티어 추론 | A3 High | 해당 사항 없음 | GPUDirect-TCPX가 사용 설정된 A3 VM 만들기 |
권장 소비 유형
추론의 경우 장기 실행 예약 또는 캘린더 모드의 미래용 예약을 사용하는 것이 좋습니다. 사용 옵션에 관한 자세한 내용은 사용 옵션 선택을 참고하세요.
중소 규모 모델 머신러닝 권장사항
중소 규모 모델이 포함된 머신러닝 워크로드의 경우 가격과 성능 간의 최적의 균형을 달성하는 것이 주요 고려사항입니다.
추천 가속기
다음 표에는 소규모에서 중간 규모 모델 ML 워크로드에 사용할 권장 가속기가 나와 있습니다.
| 워크로드 | 권장사항 | VM 배포 가이드 | |
|---|---|---|---|
| 머신 유형 | 조정자 | ||
| 소규모~중규모 모델 머신러닝 |
|
해당 사항 없음 | G2 또는 G4 인스턴스 만들기 |
HPC 권장사항
HPC 워크로드의 경우 가속기 최적화 머신 시리즈 또는 컴퓨팅 최적화 머신 시리즈가 적합합니다. 가속기 최적화 머신 시리즈를 사용하는 경우 가장 적합한 항목은 GPU로 오프로드해야 하는 컴퓨팅 부하에 따라 달라집니다. HPC 워크로드에 대한 권장사항의 자세한 목록은 HPC 워크로드 실행을 위한 권장사항을 참고하세요.
권장사항 요약
다음은 다양한 워크로드에 권장되는 가속기 및 소비 유형에 대한 권장사항을 요약한 것입니다.
리소스 |
권장사항 |
|---|---|
| 모델 사전 학습 | |
| 머신 계열 | 가속기 최적화 머신 유형(A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High) 중 하나를 사용합니다. |
| 소비 유형 | 예약 사용 |
| 모델 미세 조정 | |
| 머신 계열 | A4X Max, A4X, A4 또는 A3 가속기 최적화 머신 유형 사용 |
| 소비 유형 | 예약 사용 |
| 추론 | |
| 머신 계열 | 가속기 최적화 머신 유형(A4X Max, A4X, A4, A3 Ultra, A3 Mega, A3 High) 중 하나를 사용합니다. |
| 소비 유형 | 예약 사용 |
| HPC | |
| HPC 워크로드 실행을 위한 권장사항의 요약 섹션을 참고하세요. | |