MaxText で ML 診断を使用する
MaxText は、モデル トレーニング用に TPU と GPU で実行するように構築されたオープンソースの大規模言語モデル(LLM)ライブラリです。ML Diagnostics SDK は MaxText に事前に統合されています。managed-mldiagnostics フラグを使用すると、MaxText で ML Diagnostics を有効にできます。
有効にすると、次の操作を行えるようになります。
- すべての MaxText 構成を使用して、マネージド
MachineLearning実行を作成します。 profiler="xplane"フラグでプロファイリングが有効になっている場合は、プロファイリング トレースをアップロードします。log_periodフラグを使用して、定義された間隔でトレーニング指標をアップロードします。
MaxText で ML 診断を使用する場合は、次のフラグを使用します。
managed_mldiagnostics: True # Enable the managed diagnostics
managed_mldiagnostics_run_group: GROUP_NAME # Used to group multiple runs. (Optional)
MaxText で ML 診断を有効にするには、実行の構成ファイルを変更するか、コマンドラインからフラグを渡します。たとえば、MaxText.train コマンドで次のフラグを渡します。
python3 -m MaxText.train \
src/MaxText/configs/base.yml \
run_name="demo-mldiagnostics-run-2" \
model_name="<your_chosen_model>" \
base_output_directory=gs://<your_gcs_folder>/ \
dataset_type=synthetic \
steps=100 \
log_period=10 \
profiler=xplane \
upload_all_profiler_results=True \
managed_mldiagnostics=True \
managed_mldiagnostics_run_group="demo-mldiagnostics-group"
この例では、upload_all_profiler_results=True フラグを設定すると、すべてのホストからマルチホスト プロファイルがキャプチャされます。