Goodput 최적화 레시피

이 문서는 워크로드의 전송된 유용한 데이터의 비율인 goodput을 최적화하는 데 도움이 됩니다. 이 최적화를 달성하기 위해 일반적인 머신러닝 (ML) 프레임워크와 모델을 사용하는 재현 가능한 goodput 레시피를 선별했습니다. 이러한 레시피를 검토하려면 AI 하이퍼컴퓨터 GitHub 조직을 참조하세요. goodput 레시피는 Cluster Toolkit을 사용하여 만든 클러스터에서 테스트되었습니다.

최적의 워크로드 안정성을 보장하고 goodput을 극대화하기 위해 향후 5시간 이내에 성능이 저하될 가능성이 있는 Google Kubernetes Engine (GKE) 클러스터의 노드를 사전에 식별할 수도 있습니다. 이러한 조기 경고를 통해 위험한 VM에서 새 워크로드를 예약하지 않도록 하여 작업 중단 위험을 줄일 수 있습니다. 자세한 내용은 노드 상태 예측 사용 설정을 참조하세요.

시작하기 전에

이 문서의 goodput 레시피를 사용하기 전에 아직 완료하지 않은 경우 다음 단계를 완료하세요.

  1. 워크로드에 가장 적합한 가속기 선택

  2. 선택한 가속기를 기반으로 소비 방법 선택

  3. 클러스터 만들기

레시피

GKE 클러스터에서 사전 학습에 사용할 수 있는 재현 가능한 goodput 레시피는 다음과 같습니다.

레시피 이름 가속기 모델 프레임워크 워크로드 유형
Llama3.1 70B - A3 Mega A3 Mega Llama3.1 70B NeMo GKE의 사전 학습

다음 단계