Plataforma de diagnóstico de AA

Google Cloud ML Diagnostics es una plataforma administrada de extremo a extremo para optimizar y diagnosticar cargas de trabajo de IA y AA en Google Cloud. Usa el Diagnóstico de AA para recopilar y visualizar todas las métricas, configuraciones y perfiles de las cargas de trabajo en una sola plataforma. ML Diagnostics se aplica a las cargas de trabajo de entrenamiento y de inferencia, y es compatible con todos los orquestadores en Cloud TPU, incluidos Google Kubernetes Engine (GKE) y los orquestadores personalizados. El Diagnóstico de AA incluye las siguientes funciones:

  • Ejecuciones de aprendizaje automático: Usa ML Diagnostics para crear y registrar tus ejecuciones de aprendizaje automático a través de Google Cloud CLI, o bien integra el SDK de ML Diagnostics con tu carga de trabajo. Puedes implementar instancias de XProf administradas con tus ejecuciones de aprendizaje automático, y recopilar y administrar métricas de cargas de trabajo, configuraciones y sesiones de generación de perfiles.
  • Experiencia de gcloud CLI: Usa las APIs de ML Diagnostics a través de gcloud CLI para registrar y administrar ejecuciones, implementar recursos administrados de XProf, visualizar sesiones de perfil en buckets de almacenamiento y activar capturas de perfiles desde la CLI.
  • SDK de Python: Usa el SDK de ML Diagnostics de código abierto integrado en las cargas de trabajo de AA para obtener una experiencia completa de diagnóstico de cargas de trabajo de AA. Recopila y administra métricas, configuraciones y perfiles de cargas de trabajo en Google Cloud.
  • Perfilamiento administrado: ML Diagnostics implementa una instancia administrada de XProf con un backend escalable en las cuentas asociadas, lo que permite la carga rápida de perfiles grandes. Admite que varios usuarios accedan a los perfiles de forma simultánea y contiene funciones integradas, como la creación de perfiles de varios hosts y la creación de perfiles a pedido.
  • Métricas de carga de trabajo: Realiza un seguimiento de las métricas de carga de trabajo, incluidas la calidad del modelo, el rendimiento del modelo y las métricas del sistema.
  • Administración de la configuración de cargas de trabajo: Realiza un seguimiento de las configuraciones de cargas de trabajo, incluidas las configuraciones de software, las configuraciones del sistema y las configuraciones definidas por el usuario.
  • Visualizaciones en Cluster Director y GKE: Visualiza métricas, configuraciones y perfiles en Cluster Director y Google Kubernetes Engine en la consola de Google Cloud .
  • Uso compartido de vínculos: Colabora con vínculos que se pueden compartir para perfiles y para la información de ejecuciones de aprendizaje automático.

Rutas del usuario

Puedes usar la plataforma de ML Diagnostics a través del SDK o la CLI. Con la CLI, puedes usar gcloud CLI de ML Diagnostics para crear una ejecución de aprendizaje automático y, luego, implementar los recursos administrados de XProf. Con el SDK de ML Diagnostics, este debe integrarse en tu carga de trabajo de AA para recopilar y administrar las métricas y configuraciones de la carga de trabajo, y para implementar recursos administrados de XProf.

Para comenzar, usa una de las siguientes guías:

Generación de perfiles administrada con XProf

Puedes obtener una experiencia de generación de perfiles administrada con XProf cuando usas la CLI o el SDK. XProf es una herramienta de código abierto para la generación de perfiles y el análisis del rendimiento de las cargas de trabajo de aprendizaje automático, y forma parte del ecosistema de OpenXLA.

Estos son algunos de los beneficios de una experiencia de generación de perfiles administrada en comparación con una experiencia de generación de perfiles autohospedada:

  • No se requiere configuración de XProf ni otras dependencias.
  • Mejor seguridad y protección contra vulnerabilidades
  • Vínculos para compartir y colaborar
  • Se cargan más rápido los perfiles grandes.
  • Se admite el acceso simultáneo de varios usuarios a los perfiles con ajuste de escala automático de los recursos según la carga de acceso a los vínculos.
  • Funciones integradas, como la creación de perfiles de varios hosts y la creación de perfiles on demand
  • Carga varias sesiones de perfil en varias ejecuciones con la misma instancia de XProf administrada.
  • No se aplican cargos por los recursos de XProf administrados que implementa la plataforma de ML Diagnostics, lo que hace que XProf administrado sea más rentable que el autohospedaje de XProf.

Requisitos previos

Antes de usar ML Diagnostics, habilita la API de Cluster Director y agrega los permisos de IAM necesarios. Si usas GKE, también debes configurar tu clúster de GKE y etiquetar la carga de trabajo de GKE. Para obtener más información, consulta Configura GKE.

Habilita la API de Cluster Director

No es necesario que uses Cluster Director para implementar y administrar tus clústeres si quieres usar el producto ML Diagnostics. ML Diagnostics funciona con clústeres administrados por GKE, Cluster Director o coordinadores personalizados. ML Diagnostics forma parte de la familia de APIs de Cluster Director, pero no depende de que los usuarios utilicen el producto de Cluster Director en sí.

Para obtener más información sobre cómo habilitar la API de Cluster Director, consulta Habilita una API en tu proyecto de Google Cloud .

Permisos de IAM

La cuenta de servicio Google Cloud que usa tu carga de trabajo requiere los siguientes roles de IAM asignados en el proyecto.

Si usas el SDK de ML Diagnostics, haz lo siguiente:

  • roles/clusterdirector.editor: Para tener acceso completo a la creación y administración de recursos de MLRun y ver la interfaz de usuario
  • roles/logging.logWriter: Para escribir registros y métricas en Cloud Logging
  • roles/storage.objectUser: Para guardar los perfiles en el bucket de Cloud Storage especificado en machinelearning_run.

Si usas gcloud CLI de ML Diagnostics, haz lo siguiente:

  • roles/storage.objectUser: Para guardar perfiles en el bucket de Cloud Storage especificado en machinelearning_run.

Para las cargas de trabajo en Google Kubernetes Engine, usa la federación de Workload Identity para asociar una cuenta de servicio de Kubernetes con una cuenta de servicio de Google Cloud a la que se le otorgaron los roles necesarios.

Precios

Se te cobra por el almacenamiento de métricas a través de Cloud Logging y el almacenamiento de perfiles a través de Cloud Storage. No es necesario habilitar ninguna facturación adicional para estos servicios cuando se usa la plataforma de ML Diagnostics. No se cobra ningún cargo por los recursos administrados de XProf que implementa la plataforma de ML Diagnostics.