Menggunakan Diagnostik ML dengan MaxText
MaxText adalah library Model Bahasa Besar (LLM) open source yang dibuat untuk dijalankan di TPU dan GPU untuk pelatihan model. ML Diagnostics SDK sudah terintegrasi dengan MaxText. Anda dapat mengaktifkan
Diagnostik ML dengan MaxText menggunakan tanda managed-mldiagnostics.
Jika diaktifkan, Anda akan dapat melakukan hal berikut:
- Buat operasi
MachineLearningterkelola dengan semua konfigurasi MaxText. - Upload rekaman aktivitas pembuatan profil, jika pembuatan profil diaktifkan oleh tanda
profiler="xplane". - Upload metrik pelatihan pada interval yang ditentukan menggunakan tanda
log_period.
Gunakan flag berikut saat menggunakan Diagnostik ML dengan MaxText:
managed_mldiagnostics: True # Enable the managed diagnostics
managed_mldiagnostics_run_group: GROUP_NAME # Used to group multiple runs. (Optional)
Untuk mengaktifkan Diagnostik ML di MaxText, Anda dapat mengubah file konfigurasi
run, atau meneruskan tanda dari command line. Misalnya, teruskan
flag berikut dengan perintah MaxText.train:
python3 -m MaxText.train \
src/MaxText/configs/base.yml \
run_name="demo-mldiagnostics-run-2" \
model_name="<your_chosen_model>" \
base_output_directory=gs://<your_gcs_folder>/ \
dataset_type=synthetic \
steps=100 \
log_period=10 \
profiler=xplane \
upload_all_profiler_results=True \
managed_mldiagnostics=True \
managed_mldiagnostics_run_group="demo-mldiagnostics-group"
Dalam contoh ini, menyetel tanda upload_all_profiler_results=True akan merekam profil multi-host dari semua host.