Google은 AI 기술을 사용하여 콘텐츠를 사용자의 기본 언어로 번역합니다. AI 번역에는 오류가 있을 수 있습니다.

Goodput 최적화 레시피

이 문서는 워크로드의 유용한 데이터 전송률인 굿풋을 최적화하는 데 도움이 됩니다. 이러한 최적화를 달성하기 위해 일반적인 머신러닝 (ML) 프레임워크와 모델을 사용하는 재현 가능한 처리량 레시피를 선별했습니다. 이러한 레시피를 검토하려면 AI 하이퍼컴퓨터 GitHub 조직을 참고하세요. goodput 레시피는 Cluster Toolkit을 사용하여 생성된 클러스터에서 테스트되었습니다.

최적의 워크로드 안정성을 보장하고 처리량을 극대화하기 위해 향후 5시간 이내에 성능이 저하될 가능성이 있는 Google Kubernetes Engine (GKE) 클러스터의 노드를 사전에 식별할 수도 있습니다. 이 조기 경고를 통해 위험한 VM에 새 워크로드를 예약하지 않도록 하여 작업 중단 위험을 줄일 수 있습니다. 자세한 내용은 노드 상태 예측 사용 설정을 참고하세요.

시작하기 전에

이 문서의 처리량 레시피를 사용하기 전에 다음 단계를 완료하세요(아직 완료하지 않은 경우).

레시피

다음과 같은 재현 가능한 처리량 레시피를 GKE 클러스터에서 사전 학습에 사용할 수 있습니다.

레시피 이름	가속기	모델	Framework	워크로드 유형
Llama3.1 70B - A3 Mega	A3 Mega	Llama3.1 70B	NeMo	GKE에서 사전 학습

다음 단계

NCCL/gIB를 사용하여 클러스터 네트워킹을 최적화하는 방법을 알아봅니다.

Goodput 최적화 레시피 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

시작하기 전에

레시피

다음 단계

Goodput 최적화 레시피