Neste documento, explicamos as principais diferenças entre os métodos de treinamento disponíveis no Google Cloud. Sua escolha depende da experiência da equipe, do nível de controle necessário e da preferência de infraestrutura.
Com o AutoML, você cria e treina um modelo com o mínimo de esforço técnico. é possível usar o AutoML para prototipar modelos rapidamente e explorar novos conjuntos de dados, antes de investir em desenvolvimento. Por exemplo, é possível usá-lo para saber quais recursos são melhores para um determinado conjunto de dados.
Com o treinamento personalizado, é possível criar um aplicativo de treinamento otimizado para o resultado desejado. Você tem controle total sobre a funcionalidade do aplicativo de treinamento, desde jobs de nó único até treinamento distribuído massivo de vários nós. Ou seja, é possível focar em qualquer objetivo, usar qualquer algoritmo, desenvolver funções ou métricas de perda próprias ou fazer qualquer outra personalização.
Treinamento sem servidor da Vertex AI: uma abordagem sem servidor em que você envia seu job de treinamento e o Google Cloud provisiona, gerencia e libera os recursos de computação para você. É ideal para experimentos e jobs em que você não precisa de capacidade garantida.
Os clusters de treinamento da Vertex AI são um recurso do treinamento personalizado projetado para jobs de treinamento de grande escala e alto desempenho. Ele permite reservar um cluster dedicado de recursos de computação avançados (como GPUs A100 ou H100) para uso exclusivo, garantindo capacidade e desempenho para tarefas de treinamento essenciais e de longa duração.
Com o Ray na Vertex AI, é possível usar o framework de computação distribuída do Ray na infraestrutura do Google Cloud . O Ray na Vertex AI oferece um ambiente gerenciado com recursos de computação configuráveis, integração com serviços como a inferência da Vertex AI e o BigQuery, além de opções de rede flexíveis para desenvolver e executar cargas de trabalho distribuídas.
Com o BigQuery, é possível treinar modelos usando os dados do BigQuery diretamente no BigQuery. Com os comandos SQL, é possível criar rapidamente um modelo e usá-lo para receber inferências em lote.
Para comparar as diferentes funcionalidades e especialidades necessárias para cada serviço, consulte a tabela a seguir.
| AutoML | Treinamento sem servidor | Clusters de treinamento | Ray na Vertex AI | BigQuery ML | |
|---|---|---|---|---|---|
| É preciso ter experiência em ciência de dados. | Não | Sim, para desenvolver o aplicativo de treinamento e processar a preparação de dados. | Sim, para desenvolver o aplicativo de treinamento e processar a preparação de dados. | É útil ter uma compreensão básica dos conceitos de ML e dos fluxos de trabalho de dados. | Não |
| Capacidade de programação necessária | Não, o AutoML não tem código. | Sim, para desenvolver o aplicativo de treinamento. | Sim, para desenvolver o aplicativo de treinamento. | Sim. | Sim. |
| Tempo para treinar o modelo | Baixo. Não é necessário preparar os dados, e não é necessário nenhum desenvolvimento. | Alto. Envolve o desenvolvimento de código e o tempo de provisionamento de recursos sob demanda para cada job. | Alto. Envolve o desenvolvimento de código, mas a inicialização do job é mais rápida porque os recursos já estão reservados, eliminando filas e tempo de provisionamento. | O tempo de treinamento depende da lógica do código (preparação e treinamento de dados) e do tempo de provisionamento de recursos. | Baixo. O desenvolvimento de modelos é rápido porque o BigQuery ML usa o mecanismo computacional do BigQuery para treinamento, avaliação e inferência. |
| Limites dos objetivos de machine learning | Sim. É preciso segmentar um dos objetivos predefinidos do AutoML. | Não | Não | Não | Sim |
| Pode otimizar manualmente o desempenho do modelo com o ajuste de hiperparâmetro | Não. O AutoML faz alguns ajustes automáticos, mas não é possível modificar os valores. | Sim. É possível ajustar o modelo durante cada execução de treinamento para fins de experimentação e comparação. | Sim. É possível ajustar o modelo durante cada execução de treinamento para fins de experimentação e comparação. | Sim. Você fornece o código de treinamento personalizado, o que dá controle total sobre os valores de hiperparâmetros. | Sim. O BigQuery ML tem suporte para ajuste de hiperparâmetros durante o treinamento de modelos. |
| Pode controlar aspectos do ambiente de treinamento | Limitado. É possível especificar o orçamento para horas de treinamento e ativar a parada antecipada. | Sim. Você especifica o tipo de máquina do Compute Engine, o tamanho do disco e a imagem do contêiner para cada job. | Sim. Você tem controle máximo, reservando tipos de máquinas específicos de alto desempenho (por exemplo, H100s), configurações de disco e configurações de rede para seu uso exclusivo, garantindo a capacidade. | Sim. Você tem controle significativo, incluindo imagens Docker personalizadas, tipos de máquinas para nós principais e de worker, além do número e tipo de aceleradores (GPUs). | Não |
| Limites no tamanho dos dados | Sim. As limitações de tamanho de dados variam de acordo com o tipo de conjunto de dados. | Não | Não | Não. No entanto, há um tamanho máximo de resposta de consulta de 10 GB para leituras do BigQuery. | Sim. O BigQuery ML aplica cotas adequadas por projeto. Para saber mais, consulte Cotas e limites. |
A seguir
- Escolha um tutorial de introdução para começar o Vertex AI Training.
- Saiba mais sobre como treinar um modelo ML.
- Saiba mais sobre o treinamento sem servidor da Vertex AI.
- Saiba mais sobre os clusters de treinamento da Vertex AI.
- Saiba mais sobre o Ray na Vertex AI.