Plate-forme de diagnostics ML
Google Cloud ML Diagnostics est une plate-forme gérée de bout en bout permettant d'optimiser et de diagnostiquer les charges de travail d'IA et de ML sur Google Cloud. Utilisez les diagnostics ML pour collecter et visualiser toutes les métriques, configurations et profils de charge de travail sur une seule plate-forme. Les diagnostics ML s'appliquent aux charges de travail d'entraînement et d'inférence. Ils sont compatibles avec tous les orchestrateurs sur Cloud TPU, y compris Google Kubernetes Engine (GKE) et les orchestrateurs personnalisés. ML Diagnostics inclut les fonctionnalités suivantes :
- Exécutions de machine learning : utilisez ML Diagnostics pour créer et enregistrer vos exécutions de machine learning à l'aide de Google Cloud CLI, ou intégrez le SDK ML Diagnostics à votre charge de travail. Vous pouvez déployer des instances XProf gérées avec vos exécutions de machine learning, et collecter et gérer les métriques, les configurations et les sessions de profilage des charges de travail.
- Expérience gcloud CLI : utilisez les API ML Diagnostics via gcloud CLI pour enregistrer et gérer les exécutions, déployer des ressources XProf gérées, visualiser les sessions de profil dans les buckets de stockage et déclencher des captures de profil à partir de la CLI.
- SDK Python : utilisez le SDK ML Diagnostics Open Source intégré aux charges de travail de ML pour une expérience complète de diagnostic des charges de travail de ML. Collectez et gérez les métriques, les configurations et les profils de charge de travail sur Google Cloud.
- Profilage géré : ML Diagnostics déploie une instance gérée de XProf avec un backend évolutif dans les comptes associés, ce qui permet de charger rapidement de grands profils. Il permet à plusieurs utilisateurs d'accéder simultanément aux profils et contient des fonctionnalités intégrées telles que le profilage multihôte et le profilage à la demande.
- Métriques de charge de travail : suivez les métriques de charge de travail, y compris la qualité du modèle, les performances du modèle et les métriques système.
- Gestion de la configuration des charges de travail : suivez les configurations des charges de travail, y compris les configurations logicielles, les configurations système et les configurations définies par l'utilisateur.
- Visualisations dans Cluster Director et GKE : visualisez les métriques, les configurations et les profils dans Cluster Director et Google Kubernetes Engine dans la console Google Cloud .
- Partage de liens : collaborez à l'aide de liens partageables pour les profils et les informations sur les exécutions de machine learning.
Chemins utilisateur
Vous pouvez utiliser la plate-forme ML Diagnostics via le SDK ou la CLI. Avec la CLI, vous pouvez utiliser gcloud CLI ML Diagnostics pour créer une exécution de machine learning et déployer les ressources XProf gérées. Avec le SDK ML Diagnostics, le SDK doit être intégré à votre charge de travail de ML pour collecter et gérer les métriques et configurations de la charge de travail, et déployer les ressources XProf gérées.
Pour commencer, consultez l'un des guides suivants :
Profilage géré avec XProf
Vous pouvez bénéficier d'une expérience de profilage gérée avec XProf lorsque vous utilisez la CLI ou le SDK. XProf est un outil Open Source de profilage et d'analyse des performances pour les charges de travail de machine learning. Il fait partie de l'écosystème OpenXLA.
Les avantages d'une expérience de profilage gérée par rapport à une expérience de profilage auto-hébergée sont les suivants :
- Aucune configuration requise de XProf ni d'autres dépendances.
- Une sécurité et une protection renforcées contre les failles.
- Liens partageables pour la collaboration.
- Chargement plus rapide des profils volumineux.
- Prise en charge de plusieurs utilisateurs accédant simultanément à des profils avec mise à l'échelle automatique des ressources en fonction de la charge d'accès aux liens.
- Fonctionnalités intégrées telles que le profilage multi-hôte et le profilage à la demande.
- Chargez plusieurs sessions de profil sur plusieurs exécutions avec la même instance XProf gérée.
- Les ressources XProf gérées déployées par la plate-forme ML Diagnostics sont sans frais. Elles sont donc plus rentables que l'auto-hébergement de XProf.
Prérequis
Avant d'utiliser les diagnostics ML, activez l'API Cluster Director et ajoutez les autorisations IAM requises. Si vous utilisez GKE, vous devez également configurer votre cluster GKE et attribuer un libellé à la charge de travail GKE. Pour en savoir plus, consultez Configurer GKE.
Activer l'API Cluster Director
Vous n'avez pas besoin d'utiliser Cluster Director pour déployer et gérer vos clusters afin d'utiliser le produit ML Diagnostics. ML Diagnostics fonctionne avec les clusters gérés par GKE, Cluster Director ou des orchestrateurs personnalisés. ML Diagnostics fait partie de la famille d'API Cluster Director, mais ne dépend pas de l'utilisation du produit Cluster Director lui-même par les utilisateurs.
Pour en savoir plus sur l'activation de l'API Cluster Director, consultez Activer une API dans votre projet Google Cloud .
Autorisations IAM
Le compte de service Google Cloud utilisé par votre charge de travail nécessite les rôles IAM suivants attribués au projet.
Si vous utilisez le SDK ML Diagnostics :
roles/clusterdirector.editor: pour accéder à toutes les fonctionnalités permettant de créer et de gérer des ressourcesMLRun, et pour afficher l'interface utilisateur.roles/logging.logWriter: pour écrire des journaux et des métriques dans Cloud Logging.roles/storage.objectUser: pour enregistrer les profils dans le bucket Cloud Storage spécifié dansmachinelearning_run.
Si vous utilisez la gcloud CLI ML Diagnostics :
roles/storage.objectUser: pour enregistrer les profils dans le bucket Cloud Storage spécifié dansmachinelearning_run.
Pour les charges de travail sur Google Kubernetes Engine, utilisez la fédération d'identité de charge de travail pour associer un compte de service Kubernetes à un compte de service Google Cloud auquel les rôles requis ont été attribués.
Tarifs
Le stockage des métriques via Cloud Logging et des profils via Cloud Storage vous est facturé. Il n'est pas nécessaire d'activer la facturation supplémentaire pour ces services lorsque vous utilisez la plate-forme ML Diagnostics. Les ressources XProf gérées déployées par la plate-forme ML Diagnostics ne sont pas facturées.