Plataforma de diagnósticos de ML
OGoogle Cloud ML Diagnostics é uma plataforma gerenciada de ponta a ponta para otimizar e diagnosticar cargas de trabalho de IA e ML no Google Cloud. Use o Diagnóstico de ML para coletar e visualizar todas as métricas, configurações e perfis de carga de trabalho em uma única plataforma. O ML Diagnostics é aplicável a cargas de trabalho de treinamento e inferência e é compatível com todos os orquestradores no Cloud TPU, incluindo o Google Kubernetes Engine (GKE) e orquestradores personalizados. O Diagnóstico de ML inclui os seguintes recursos:
- Execuções de machine learning:use o ML Diagnostics para criar e registrar suas execuções de machine learning pela Google Cloud CLI ou integre o SDK do ML Diagnostics à sua carga de trabalho. É possível implantar instâncias gerenciadas do XProf com suas execuções de machine learning e coletar e gerenciar métricas, configurações e sessões de perfil da carga de trabalho.
- Experiência da CLI gcloud:use as APIs ML Diagnostics pela CLI gcloud para registrar e gerenciar execuções, implantar recursos XProf gerenciados, visualizar sessões de perfil em buckets de armazenamento e acionar capturas de perfil na CLI.
- SDK do Python: use o SDK ML Diagnostics de código aberto integrado a cargas de trabalho de ML para uma experiência completa de diagnóstico de cargas de trabalho de ML. Colete e gerencie métricas, configurações e perfis de carga de trabalho no Google Cloud.
- Criação de perfil gerenciada: o ML Diagnostics implanta uma instância gerenciada do XProf com um back-end escalonável em contas associadas, permitindo o carregamento rápido de perfis grandes. Ele oferece suporte a vários usuários acessando perfis simultaneamente e contém recursos integrados, como criação de perfil de vários hosts e sob demanda.
- Métricas de carga de trabalho: acompanhe métricas de carga de trabalho, incluindo qualidade e desempenho do modelo e métricas do sistema.
- Gerenciamento de configuração de carga de trabalho: rastreie configurações de carga de trabalho, incluindo configurações de software, configurações de sistema e configurações definidas pelo usuário.
- Visualizações no Cluster Director e no GKE: visualize métricas, configurações e perfis no Cluster Director e no Google Kubernetes Engine no console do Google Cloud .
- Compartilhamento de links: colabore com links compartilháveis para perfis e informações de execução de aprendizado de máquina.
Caminhos do usuário
É possível usar a plataforma ML Diagnostics pelo SDK ou pela CLI. Com a CLI, é possível usar a CLI gcloud do ML Diagnostics para criar uma execução de machine learning e implantar os recursos gerenciados do XProf. Com o SDK ML Diagnostics, ele precisa ser integrado à sua carga de trabalho de ML para coletar e gerenciar métricas e configurações de carga de trabalho e implantar recursos gerenciados do XProf.
Para começar, use um dos seguintes guias:
Criação de perfil gerenciada com o XProf
É possível ter uma experiência de criação de perfil gerenciada com o XProf ao usar a CLI ou o SDK. O XProf é uma ferramenta de criação de perfil e análise de desempenho de código aberto para cargas de trabalho de machine learning e faz parte do ecossistema OpenXLA.
Os benefícios de uma experiência de criação de perfil gerenciada em comparação com uma experiência de criação de perfil autohospedada incluem:
- Não é necessário configurar o XProf ou outras dependências.
- Mais segurança e proteção contra vulnerabilidades.
- Links compartilháveis para colaboração.
- Carregamento mais rápido de perfis grandes.
- Suporte para vários usuários acessando perfis simultaneamente com escalonamento automático de recursos com base na carga de acesso ao link.
- Recursos integrados, como criação de perfil de vários hosts e criação de perfil sob demanda.
- Carregue várias sessões de perfil em várias execuções com a mesma instância gerenciada do XProf.
- Não há cobrança pelos recursos gerenciados do XProf implantados pela plataforma ML Diagnostics, o que torna o XProf gerenciado mais econômico do que o autohospedado.
Pré-requisitos
Antes de usar o ML Diagnostics, ative a API Cluster Director e adicione as permissões necessárias do IAM. Se você estiver usando o GKE, também precisará configurar o cluster do GKE e rotular a carga de trabalho do GKE. Para mais informações, consulte Configurar o GKE.
Ativar a API Cluster Director
Não é necessário usar o Cluster Director para implantar e gerenciar seus clusters para usar o produto ML Diagnostics. O ML Diagnostics funciona com clusters gerenciados pelo GKE, pelo Cluster Director ou por orquestradores personalizados. O ML Diagnostics faz parte da família de APIs do Cluster Director, mas não depende de usuários que usam o produto Cluster Director.
Para mais informações sobre como ativar a API Cluster Director, consulte Como ativar uma API no seu projeto Google Cloud .
Permissões do IAM
A Google Cloud conta de serviço usada pela sua carga de trabalho requer os seguintes papéis do IAM atribuídos ao projeto.
Se você estiver usando o SDK ML Diagnostics:
roles/clusterdirector.editor: para acesso total à criação e ao gerenciamento de recursos doMLRune à visualização da interface do usuário.roles/logging.logWriter: para gravar registros e métricas no Cloud Logging.roles/storage.objectUser: para salvar perfis no bucket do Cloud Storage especificado emmachinelearning_run.
Se você estiver usando a CLI gcloud do ML Diagnostics:
roles/storage.objectUser: para salvar perfis no bucket do Cloud Storage especificado emmachinelearning_run.
Para cargas de trabalho no Google Kubernetes Engine, use a federação de identidade da carga de trabalho para associar uma conta de serviço do Kubernetes a uma conta de serviço do Google Google Cloud que recebeu as funções necessárias.
Preços
Você recebe cobranças pelo armazenamento de métricas no Cloud Logging e de perfis no Cloud Storage. Não é necessário ativar nenhum faturamento extra para esses serviços ao usar a plataforma ML Diagnostics. Não há cobrança pelos recursos gerenciados do XProf implantados pela plataforma ML Diagnostics.