Goodput 최적화 레시피

이 문서는 워크로드의 유용한 데이터 전송률인 굿풋을 최적화하는 데 도움이 됩니다. 이러한 최적화를 달성하기 위해 일반적인 머신러닝 (ML) 프레임워크와 모델을 사용하는 재현 가능한 처리량 레시피를 선별했습니다. 이러한 레시피를 검토하려면 AI Hypercomputer GitHub 조직을 참고하세요. goodput 레시피는 Cluster Toolkit을 사용하여 생성된 클러스터에서 테스트되었습니다.

최적의 워크로드 안정성을 보장하고 처리량을 극대화하기 위해 향후 5시간 이내에 성능이 저하될 가능성이 있는 Google Kubernetes Engine (GKE) 클러스터의 노드를 사전에 식별할 수도 있습니다. 이 조기 경고를 통해 위험한 VM에 새 워크로드를 예약하지 않도록 하여 작업 중단 위험을 줄일 수 있습니다. 자세한 내용은 노드 상태 예측 사용 설정을 참고하세요.

시작하기 전에

이 문서의 처리량 레시피를 사용하기 전에 다음 단계를 완료하세요(아직 완료하지 않은 경우).

  1. 워크로드에 가장 적합한 가속기 선택

  2. 선택한 가속기에 따라 소비 방법 선택

  3. 클러스터 만들기

레시피

다음과 같은 재현 가능한 처리량 레시피를 GKE 클러스터에서 사전 학습에 사용할 수 있습니다.

레시피 이름 가속기 모델 Framework 워크로드 유형
Llama3.1 70B - A3 Mega A3 Mega Llama3.1 70B NeMo GKE에서 사전 학습

다음 단계