Plataforma de diagnósticos de ML

OGoogle Cloud ML Diagnostics é uma plataforma gerenciada de ponta a ponta para otimizar e diagnosticar cargas de trabalho de IA e ML no Google Cloud. Use o Diagnóstico de ML para coletar e visualizar todas as métricas, configurações e perfis de carga de trabalho em uma única plataforma. O ML Diagnostics é aplicável a cargas de trabalho de treinamento e inferência e é compatível com todos os orquestradores no Cloud TPU, incluindo o Google Kubernetes Engine (GKE) e orquestradores personalizados. O Diagnóstico de ML inclui os seguintes recursos:

  • Execuções de machine learning:use o ML Diagnostics para criar e registrar suas execuções de machine learning pela Google Cloud CLI ou integre o SDK do ML Diagnostics à sua carga de trabalho. É possível implantar instâncias gerenciadas do XProf com suas execuções de machine learning e coletar e gerenciar métricas, configurações e sessões de perfil da carga de trabalho.
  • Experiência da CLI gcloud:use as APIs ML Diagnostics pela CLI gcloud para registrar e gerenciar execuções, implantar recursos XProf gerenciados, visualizar sessões de perfil em buckets de armazenamento e acionar capturas de perfil na CLI.
  • SDK do Python: use o SDK ML Diagnostics de código aberto integrado a cargas de trabalho de ML para uma experiência completa de diagnóstico de cargas de trabalho de ML. Colete e gerencie métricas, configurações e perfis de carga de trabalho no Google Cloud.
  • Criação de perfil gerenciada: o ML Diagnostics implanta uma instância gerenciada do XProf com um back-end escalonável em contas associadas, permitindo o carregamento rápido de perfis grandes. Ele oferece suporte a vários usuários acessando perfis simultaneamente e contém recursos integrados, como criação de perfil de vários hosts e sob demanda.
  • Métricas de carga de trabalho: acompanhe métricas de carga de trabalho, incluindo qualidade e desempenho do modelo e métricas do sistema.
  • Gerenciamento de configuração de carga de trabalho: rastreie configurações de carga de trabalho, incluindo configurações de software, configurações de sistema e configurações definidas pelo usuário.
  • Visualizações no Cluster Director e no GKE: visualize métricas, configurações e perfis no Cluster Director e no Google Kubernetes Engine no console do Google Cloud .
  • Compartilhamento de links: colabore com links compartilháveis para perfis e informações de execução de aprendizado de máquina.

Caminhos do usuário

É possível usar a plataforma ML Diagnostics pelo SDK ou pela CLI. Com a CLI, é possível usar a CLI gcloud do ML Diagnostics para criar uma execução de machine learning e implantar os recursos gerenciados do XProf. Com o SDK ML Diagnostics, ele precisa ser integrado à sua carga de trabalho de ML para coletar e gerenciar métricas e configurações de carga de trabalho e implantar recursos gerenciados do XProf.

Para começar, use um dos seguintes guias:

Criação de perfil gerenciada com o XProf

É possível ter uma experiência de criação de perfil gerenciada com o XProf ao usar a CLI ou o SDK. O XProf é uma ferramenta de criação de perfil e análise de desempenho de código aberto para cargas de trabalho de machine learning e faz parte do ecossistema OpenXLA.

Os benefícios de uma experiência de criação de perfil gerenciada em comparação com uma experiência de criação de perfil autohospedada incluem:

  • Não é necessário configurar o XProf ou outras dependências.
  • Mais segurança e proteção contra vulnerabilidades.
  • Links compartilháveis para colaboração.
  • Carregamento mais rápido de perfis grandes.
  • Suporte para vários usuários acessando perfis simultaneamente com escalonamento automático de recursos com base na carga de acesso ao link.
  • Recursos integrados, como criação de perfil de vários hosts e criação de perfil sob demanda.
  • Carregue várias sessões de perfil em várias execuções com a mesma instância gerenciada do XProf.
  • Não há cobrança pelos recursos gerenciados do XProf implantados pela plataforma ML Diagnostics, o que torna o XProf gerenciado mais econômico do que o autohospedado.

Pré-requisitos

Antes de usar o ML Diagnostics, ative a API Cluster Director e adicione as permissões necessárias do IAM. Se você estiver usando o GKE, também precisará configurar o cluster do GKE e rotular a carga de trabalho do GKE. Para mais informações, consulte Configurar o GKE.

Ativar a API Cluster Director

Não é necessário usar o Cluster Director para implantar e gerenciar seus clusters para usar o produto ML Diagnostics. O ML Diagnostics funciona com clusters gerenciados pelo GKE, pelo Cluster Director ou por orquestradores personalizados. O ML Diagnostics faz parte da família de APIs do Cluster Director, mas não depende de usuários que usam o produto Cluster Director.

Para mais informações sobre como ativar a API Cluster Director, consulte Como ativar uma API no seu projeto Google Cloud .

Permissões do IAM

A Google Cloud conta de serviço usada pela sua carga de trabalho requer os seguintes papéis do IAM atribuídos ao projeto.

Se você estiver usando o SDK ML Diagnostics:

  • roles/clusterdirector.editor: para acesso total à criação e ao gerenciamento de recursos do MLRun e à visualização da interface do usuário.
  • roles/logging.logWriter: para gravar registros e métricas no Cloud Logging.
  • roles/storage.objectUser: para salvar perfis no bucket do Cloud Storage especificado em machinelearning_run.

Se você estiver usando a CLI gcloud do ML Diagnostics:

  • roles/storage.objectUser: para salvar perfis no bucket do Cloud Storage especificado em machinelearning_run.

Para cargas de trabalho no Google Kubernetes Engine, use a federação de identidade da carga de trabalho para associar uma conta de serviço do Kubernetes a uma conta de serviço do Google Google Cloud que recebeu as funções necessárias.

Preços

Você recebe cobranças pelo armazenamento de métricas no Cloud Logging e de perfis no Cloud Storage. Não é necessário ativar nenhum faturamento extra para esses serviços ao usar a plataforma ML Diagnostics. Não há cobrança pelos recursos gerenciados do XProf implantados pela plataforma ML Diagnostics.