MaxText와 함께 ML 진단 사용
MaxText는 모델 학습을 위해 TPU 및 GPU에서 실행되도록 빌드된 오픈소스 대규모 언어 모델 (LLM) 라이브러리입니다. ML Diagnostics SDK는 MaxText와 사전 통합되어 있습니다. managed-mldiagnostics 플래그를 사용하여 MaxText로 ML 진단을 사용 설정할 수 있습니다.
이 옵션을 사용 설정하면 다음 작업을 수행할 수 있습니다.
- 모든 MaxText 구성으로 관리형
MachineLearning실행을 만듭니다. profiler="xplane"플래그로 프로파일링이 사용 설정된 경우 프로파일링 트레이스를 업로드합니다.log_period플래그를 사용하여 정의된 간격으로 학습 측정항목을 업로드합니다.
MaxText와 함께 ML 진단을 사용할 때는 다음 플래그를 사용하세요.
managed_mldiagnostics: True # Enable the managed diagnostics
managed_mldiagnostics_run_group: GROUP_NAME # Used to group multiple runs. (Optional)
MaxText에서 ML 진단을 사용 설정하려면 실행의 구성 파일을 변경하거나 명령줄에서 플래그를 전달하면 됩니다. 예를 들어 MaxText.train 명령어와 함께 다음 플래그를 전달합니다.
python3 -m MaxText.train \
src/MaxText/configs/base.yml \
run_name="demo-mldiagnostics-run-2" \
model_name="<your_chosen_model>" \
base_output_directory=gs://<your_gcs_folder>/ \
dataset_type=synthetic \
steps=100 \
log_period=10 \
profiler=xplane \
upload_all_profiler_results=True \
managed_mldiagnostics=True \
managed_mldiagnostics_run_group="demo-mldiagnostics-group"
이 예에서는 upload_all_profiler_results=True 플래그를 설정하면 모든 호스트에서 다중 호스트 프로필이 캡처됩니다.