Este documento explica as principais diferenças entre os métodos de treinamento disponíveis no Google Cloud. Tudo depende do nível de experiência da sua equipe, do controle que você precisa e da sua preferência de infraestrutura.
Com o AutoML, você cria e treina um modelo com o mínimo de esforço técnico. é possível usar o AutoML para prototipar modelos rapidamente e explorar novos conjuntos de dados, antes de investir em desenvolvimento. Por exemplo, é possível usá-lo para saber quais recursos são melhores para um determinado conjunto de dados.
Com o treinamento personalizado, é possível criar um aplicativo de treinamento otimizado para o resultado desejado. Você tem controle total sobre a funcionalidade do aplicativo de treinamento, desde jobs de nó único até treinamento distribuído em vários nós. Ou seja, é possível focar em qualquer objetivo, usar qualquer algoritmo, desenvolver funções ou métricas de perda próprias ou fazer qualquer outra personalização.
Treinamento sem servidor do Gemini Enterprise Agent Platform: uma abordagem sem servidor em que você envia o job de treinamento e o Google Cloud provisiona, gerencia e libera os recursos de computação para você. É ideal para experimentos e jobs em que você não precisa de capacidade garantida.
Os clusters de treinamento da plataforma de agentes do Gemini Enterprise são um recurso do treinamento personalizado projetado para jobs de treinamento de alta performance e em grande escala. Ele permite reservar um cluster dedicado de recursos de computação avançados (como GPUs A100 ou H100) para uso exclusivo, garantindo capacidade e desempenho para tarefas de treinamento essenciais e de longa duração.
Com o Ray na Vertex AI, é possível usar o framework de computação distribuída do Ray na infraestrutura do Google Cloud . O Ray na Vertex AI oferece um ambiente gerenciado com recursos de computação configuráveis, integração com serviços como a inferência da Vertex AI e o BigQuery, além de opções de rede flexíveis para desenvolver e executar cargas de trabalho distribuídas.
Com o BigQuery, é possível treinar modelos usando os dados do BigQuery diretamente no BigQuery. Com os comandos SQL, é possível criar rapidamente um modelo e usá-lo para receber inferências em lote.
Para comparar as diferentes funcionalidades e especialidades necessárias para cada serviço, consulte a tabela a seguir.
| AutoML | Treinamento sem servidor | Clusters de treinamento | Ray no BigQuery | BigQuery ML | |
|---|---|---|---|---|---|
| É preciso ter experiência em ciência de dados. | Não | Sim, para desenvolver o aplicativo de treinamento e processar a preparação de dados. | Sim, para desenvolver o aplicativo de treinamento e processar a preparação de dados. | É útil ter um entendimento básico dos conceitos de ML e fluxos de trabalho de dados. | Não |
| Capacidade de programação necessária | Não, o AutoML não tem código. | Sim, para desenvolver o aplicativo de treinamento. | Sim, para desenvolver o aplicativo de treinamento. | Sim. | Sim. |
| Tempo para treinar o modelo | Baixo. Não é necessário preparar os dados, e não é necessário nenhum desenvolvimento. | Alto. Envolve o desenvolvimento de código e o tempo de provisionamento de recursos sob demanda para cada job. | Alto. Envolve desenvolvimento de código, mas a inicialização do job é mais rápida porque os recursos já estão reservados, eliminando filas e tempo de provisionamento. | O tempo de treinamento depende da lógica do código (preparação e treinamento de dados) e do tempo de provisionamento de recursos. | Baixo. O desenvolvimento de modelos é rápido porque o BigQuery ML usa o mecanismo computacional do BigQuery para treinamento, avaliação e inferência. |
| Limites dos objetivos de machine learning | Sim. É preciso segmentar um dos objetivos predefinidos do AutoML. | Não | Não | Não | Sim |
| Pode otimizar manualmente o desempenho do modelo com o ajuste de hiperparâmetro | Não. O AutoML faz alguns ajustes automáticos, mas não é possível modificar os valores. | Sim. É possível ajustar o modelo durante cada execução de treinamento para fins de experimentação e comparação. | Sim. É possível ajustar o modelo durante cada execução de treinamento para fins de experimentação e comparação. | Sim. Você fornece o código de treinamento personalizado, o que dá controle total sobre os valores de hiperparâmetros. | Sim. O BigQuery ML tem suporte para ajuste de hiperparâmetros durante o treinamento de modelos. |
| Pode controlar aspectos do ambiente de treinamento | Limitado. É possível especificar o orçamento para horas de treinamento e ativar a parada antecipada. | Sim. Você especifica o tipo de máquina do Compute Engine, o tamanho do disco e a imagem do contêiner para cada job. | Sim. Você tem controle máximo, reservando tipos de máquinas específicos de alto desempenho (por exemplo, H100s), configurações de disco e configurações de rede para seu uso exclusivo, garantindo a capacidade. | Sim. Você tem controle significativo, incluindo imagens Docker personalizadas, tipos de máquinas para nós principais e de worker, além do número e do tipo de aceleradores (GPUs). | Não |
| Limites no tamanho dos dados | Sim. As limitações de tamanho de dados variam de acordo com o tipo de conjunto de dados. | Não | Não | Não. No entanto, há um tamanho máximo de resposta de consulta de 10 GB para leituras do BigQuery. | Sim. O BigQuery ML aplica cotas adequadas por projeto. Para saber mais, consulte Cotas e limites. |
A seguir
- Escolha um tutorial de introdução para começar o Vertex AI Training.
- Saiba mais sobre como treinar um modelo ML.
- Saiba mais sobre o treinamento sem servidor da plataforma de agentes do Gemini Enterprise.
- Saiba mais sobre os clusters de treinamento da plataforma de agentes do Gemini Enterprise.
- Saiba mais sobre o Ray no BigQuery.