Usa ML Diagnostics con MaxText
MaxText es una biblioteca de modelos de lenguaje grandes (LLM) de código abierto creada para ejecutarse en TPU y GPU para el entrenamiento de modelos. El SDK de ML Diagnostics viene preintegrado con MaxText. Puedes habilitar ML Diagnostics con MaxText usando la marca managed-mldiagnostics.
Cuando esté habilitada, podrás realizar las siguientes acciones:
- Crea una ejecución de
MachineLearningadministrada con todas las configuraciones de MaxText. - Sube los registros de seguimiento de la creación de perfiles si la marca
profiler="xplane"habilita la creación de perfiles. - Sube las métricas de entrenamiento en un intervalo definido con la marca
log_period.
Usa las siguientes marcas cuando uses ML Diagnostics con MaxText:
managed_mldiagnostics: True # Enable the managed diagnostics
managed_mldiagnostics_run_group: GROUP_NAME # Used to group multiple runs. (Optional)
Para habilitar ML Diagnostics en MaxText, puedes cambiar el archivo de configuración de tu ejecución o pasar las marcas desde la línea de comandos. Por ejemplo, pasa las siguientes marcas con el comando MaxText.train:
python3 -m MaxText.train \
src/MaxText/configs/base.yml \
run_name="demo-mldiagnostics-run-2" \
model_name="<your_chosen_model>" \
base_output_directory=gs://<your_gcs_folder>/ \
dataset_type=synthetic \
steps=100 \
log_period=10 \
profiler=xplane \
upload_all_profiler_results=True \
managed_mldiagnostics=True \
managed_mldiagnostics_run_group="demo-mldiagnostics-group"
En este ejemplo, establecer la marca upload_all_profiler_results=True captura los perfiles de varios hosts de todos los hosts.