Este documento explica as principais diferenças entre os métodos de treinamento disponíveis no Google Cloud. Sua escolha depende da experiência da equipe, do nível de controle necessário e da preferência de infraestrutura.
Com AutoML, você cria e treina um modelo com o mínimo de esforço técnico. é possível usar o AutoML para prototipar modelos rapidamente e explorar novos conjuntos de dados, antes de investir em desenvolvimento. Por exemplo, é possível usá-lo para saber quais recursos são melhores para um determinado conjunto de dados.
Com treinamento personalizado é possível criar um aplicativo de treinamento otimizado para os resultados desejados. Você tem controle total sobre a funcionalidade do aplicativo de treinamento, desde jobs de nó único até treinamento distribuído massivo de vários nós. Ou seja, é possível focar em qualquer objetivo, usar qualquer algoritmo, desenvolver funções ou métricas de perda próprias ou fazer qualquer outra personalização.
Treinamento sem servidor da plataforma de agentes do Gemini Enterprise: essa é uma abordagem sem servidor em que você envia o job de treinamento e Google Cloud provisiona, gerencia e libera os recursos de computação para você. É ideal para experimentação e para jobs em que você não precisa de capacidade garantida.
Os clusters de treinamento da plataforma de agentes do Gemini Enterprise são um recurso do treinamento personalizado projetado para jobs de treinamento de alta performance em grande escala. Ele permite reservar um cluster dedicado de recursos de computação avançados (como GPUs A100 ou H100) para uso exclusivo, garantindo capacidade e performance para tarefas de treinamento essenciais e de longa duração.
Com Ray na Vertex AI, é possível usar o framework de computação distribuída doRay na Google Cloud infraestrutura. O Ray na Vertex AI oferece um ambiente gerenciado com recursos de computação configuráveis, integração com serviços como a Vertex AI Inference e o BigQuery, além de opções de rede flexíveis para desenvolver e executar cargas de trabalho distribuídas.
Com o BigQuery, é possível treinar modelos usando os dados do BigQuery diretamente no BigQuery. Com os comandos SQL, é possível criar rapidamente um modelo e usá-lo para receber inferências em lote.
Para comparar as diferentes funcionalidades e especialidades necessárias para cada serviço, consulte a tabela a seguir.
| AutoML | Treinamento sem servidor | Clusters de treinamento | Ray no BigQuery | BigQuery ML | |
|---|---|---|---|---|---|
| É preciso ter experiência em ciência de dados. | Não | Sim, para desenvolver o aplicativo de treinamento e processar a preparação de dados. | Sim, para desenvolver o aplicativo de treinamento e processar a preparação de dados. | É útil ter um conhecimento básico dos conceitos de ML e dos fluxos de trabalho de dados. | Não |
| Capacidade de programação necessária | Não. O AutoML não tem código. | Sim, para desenvolver o aplicativo de treinamento. | Sim, para desenvolver o aplicativo de treinamento. | Sim. | Sim. |
| Tempo para treinar o modelo | Baixo. Não é necessário preparar os dados, e não é necessário nenhum desenvolvimento. | Alto. Envolve o desenvolvimento de código e o tempo de provisionamento de recursos sob demanda para cada job. | Alto. Envolve o desenvolvimento de código, mas a inicialização do job é mais rápida, já que os recursos já estão reservados, eliminando filas e tempo de provisionamento. | O tempo de treinamento depende da lógica do código (preparação e treinamento de dados) e do tempo para provisionar recursos. | Baixo. O desenvolvimento de modelos é rápido, já que o BigQuery ML usa o mecanismo computacional do BigQuery para treinamento, avaliação e inferência. |
| Limites dos objetivos de machine learning | Sim. É preciso segmentar um dos objetivos predefinidos do AutoML. | Não | Não | Não | Sim |
| Pode otimizar manualmente o desempenho do modelo com o ajuste de hiperparâmetro | Não. O AutoML realiza alguns ajustes automatizados, mas não é possível modificar os valores. | Sim. É possível ajustar o modelo durante cada execução de treinamento para fins de experimentação e comparação. | Sim. É possível ajustar o modelo durante cada execução de treinamento para fins de experimentação e comparação. | Sim. Você fornece o código de treinamento personalizado, oferecendo controle total sobre os valores de hiperparâmetros. | Sim. O BigQuery ML tem suporte para ajuste de hiperparâmetros durante o treinamento de modelos. |
| Pode controlar aspectos do ambiente de treinamento | Limitado. É possível especificar o orçamento para horas de treinamento e ativar a parada antecipada. | Sim. Você especifica o tipo de máquina do Compute Engine, o tamanho do disco e a imagem do contêiner para cada job. | Sim. Você tem controle máximo, reservando tipos de máquina de alta performance específicos (por exemplo, H100s), configurações de disco e configurações de rede para uso exclusivo, garantindo capacidade. | Sim. Você tem controle significativo, incluindo imagens Docker personalizadas, tipos de máquina para nós principais e de worker, além do número e tipo de aceleradores (GPUs). | Não |
| Limites no tamanho dos dados | Sim. As limitações de tamanho de dados variam de acordo com o tipo de conjunto de dados. | Não | Não | Não. No entanto, há um tamanho máximo de resposta de consulta de 10 GB para leituras do BigQuery. | Sim. O BigQuery ML aplica cotas adequadas por projeto. Para saber mais, consulte Cotas e limites. |
A seguir
- Escolha um tutorial de introdução para começar o Vertex AI Training.
- Saiba mais sobre como treinar um modelo ML.
- Saiba mais sobre o treinamento sem servidor da plataforma de agentes do Gemini Enterprise.
- Saiba mais sobre os clusters de treinamento da plataforma de agentes do Gemini Enterprise.
- Saiba mais sobre Ray no BigQuery.