Escolha um método de treinamento

Neste documento, explicamos as principais diferenças entre os métodos de treinamento disponíveis no Google Cloud. Sua escolha depende da experiência da equipe, do nível de controle necessário e da preferência de infraestrutura.

  • Com o AutoML, você cria e treina um modelo com o mínimo de esforço técnico. é possível usar o AutoML para prototipar modelos rapidamente e explorar novos conjuntos de dados, antes de investir em desenvolvimento. Por exemplo, é possível usá-lo para saber quais recursos são melhores para um determinado conjunto de dados.

  • Com o treinamento personalizado, é possível criar um aplicativo de treinamento otimizado para o resultado desejado. Você tem controle total sobre a funcionalidade do aplicativo de treinamento, desde jobs de nó único até treinamento distribuído massivo de vários nós. Ou seja, é possível focar em qualquer objetivo, usar qualquer algoritmo, desenvolver funções ou métricas de perda próprias ou fazer qualquer outra personalização.

    • Treinamento sem servidor da Vertex AI: uma abordagem sem servidor em que você envia seu job de treinamento e o Google Cloud provisiona, gerencia e libera os recursos de computação para você. É ideal para experimentos e jobs em que você não precisa de capacidade garantida.

    • Os clusters de treinamento da Vertex AI são um recurso do treinamento personalizado projetado para jobs de treinamento de grande escala e alto desempenho. Ele permite reservar um cluster dedicado de recursos de computação avançados (como GPUs A100 ou H100) para uso exclusivo, garantindo capacidade e desempenho para tarefas de treinamento essenciais e de longa duração.

  • Com o Ray na Vertex AI, é possível usar o framework de computação distribuída do Ray na infraestrutura do Google Cloud . O Ray na Vertex AI oferece um ambiente gerenciado com recursos de computação configuráveis, integração com serviços como a inferência da Vertex AI e o BigQuery, além de opções de rede flexíveis para desenvolver e executar cargas de trabalho distribuídas.

  • Com o BigQuery, é possível treinar modelos usando os dados do BigQuery diretamente no BigQuery. Com os comandos SQL, é possível criar rapidamente um modelo e usá-lo para receber inferências em lote.

Para comparar as diferentes funcionalidades e especialidades necessárias para cada serviço, consulte a tabela a seguir.

AutoML Treinamento sem servidor Clusters de treinamento Ray na Vertex AI BigQuery ML
É preciso ter experiência em ciência de dados. Não Sim, para desenvolver o aplicativo de treinamento e processar a preparação de dados. Sim, para desenvolver o aplicativo de treinamento e processar a preparação de dados. É útil ter uma compreensão básica dos conceitos de ML e dos fluxos de trabalho de dados. Não
Capacidade de programação necessária Não, o AutoML não tem código. Sim, para desenvolver o aplicativo de treinamento. Sim, para desenvolver o aplicativo de treinamento. Sim. Sim.
Tempo para treinar o modelo Baixo. Não é necessário preparar os dados, e não é necessário nenhum desenvolvimento. Alto. Envolve o desenvolvimento de código e o tempo de provisionamento de recursos sob demanda para cada job. Alto. Envolve o desenvolvimento de código, mas a inicialização do job é mais rápida porque os recursos já estão reservados, eliminando filas e tempo de provisionamento. O tempo de treinamento depende da lógica do código (preparação e treinamento de dados) e do tempo de provisionamento de recursos. Baixo. O desenvolvimento de modelos é rápido porque o BigQuery ML usa o mecanismo computacional do BigQuery para treinamento, avaliação e inferência.
Limites dos objetivos de machine learning Sim. É preciso segmentar um dos objetivos predefinidos do AutoML. Não Não Não Sim
Pode otimizar manualmente o desempenho do modelo com o ajuste de hiperparâmetro Não. O AutoML faz alguns ajustes automáticos, mas não é possível modificar os valores. Sim. É possível ajustar o modelo durante cada execução de treinamento para fins de experimentação e comparação. Sim. É possível ajustar o modelo durante cada execução de treinamento para fins de experimentação e comparação. Sim. Você fornece o código de treinamento personalizado, o que dá controle total sobre os valores de hiperparâmetros. Sim. O BigQuery ML tem suporte para ajuste de hiperparâmetros durante o treinamento de modelos.
Pode controlar aspectos do ambiente de treinamento Limitado. É possível especificar o orçamento para horas de treinamento e ativar a parada antecipada. Sim. Você especifica o tipo de máquina do Compute Engine, o tamanho do disco e a imagem do contêiner para cada job. Sim. Você tem controle máximo, reservando tipos de máquinas específicos de alto desempenho (por exemplo, H100s), configurações de disco e configurações de rede para seu uso exclusivo, garantindo a capacidade. Sim. Você tem controle significativo, incluindo imagens Docker personalizadas, tipos de máquinas para nós principais e de worker, além do número e tipo de aceleradores (GPUs). Não
Limites no tamanho dos dados Sim. As limitações de tamanho de dados variam de acordo com o tipo de conjunto de dados. Não Não Não. No entanto, há um tamanho máximo de resposta de consulta de 10 GB para leituras do BigQuery. Sim. O BigQuery ML aplica cotas adequadas por projeto. Para saber mais, consulte Cotas e limites.

A seguir