Menggunakan Diagnostik ML dengan MaxText

MaxText adalah library Model Bahasa Besar (LLM) open source yang dibuat untuk dijalankan di TPU dan GPU untuk pelatihan model. ML Diagnostics SDK sudah terintegrasi dengan MaxText. Anda dapat mengaktifkan Diagnostik ML dengan MaxText menggunakan tanda managed-mldiagnostics.

Jika diaktifkan, Anda akan dapat melakukan hal berikut:

  • Buat operasi MachineLearning terkelola dengan semua konfigurasi MaxText.
  • Upload rekaman aktivitas pembuatan profil, jika pembuatan profil diaktifkan oleh tanda profiler="xplane".
  • Upload metrik pelatihan pada interval yang ditentukan menggunakan tanda log_period.

Gunakan flag berikut saat menggunakan Diagnostik ML dengan MaxText:

managed_mldiagnostics: True  # Enable the managed diagnostics
managed_mldiagnostics_run_group: GROUP_NAME  # Used to group multiple runs. (Optional)

Untuk mengaktifkan Diagnostik ML di MaxText, Anda dapat mengubah file konfigurasi run, atau meneruskan tanda dari command line. Misalnya, teruskan flag berikut dengan perintah MaxText.train:

python3 -m MaxText.train \
  src/MaxText/configs/base.yml \
  run_name="demo-mldiagnostics-run-2" \
  model_name="<your_chosen_model>" \
  base_output_directory=gs://<your_gcs_folder>/ \
  dataset_type=synthetic \
  steps=100 \
  log_period=10 \
  profiler=xplane \
  upload_all_profiler_results=True \
  managed_mldiagnostics=True \
  managed_mldiagnostics_run_group="demo-mldiagnostics-group"

Dalam contoh ini, menyetel tanda upload_all_profiler_results=True akan merekam profil multi-host dari semua host.