Este documento fornece recomendações sobre os aceleradores, tipos de consumo e ferramentas de implantação mais adequados para diferentes cargas de trabalho de inteligência artificial (IA), machine learning (ML) e computação de alto desempenho (HPC). Use este documento para identificar a melhor implantação para sua carga de trabalho.
Para informações e recomendações sobre os pilares da infraestrutura para cargas de trabalho de IA, ML e HPC, consulte os seguintes documentos:
Visão geral das cargas de trabalho
A arquitetura do Hipercomputador de IA oferece suporte aos seguintes casos de uso:
| Cargas de trabalho | Descrição | Recomendação |
|---|---|---|
| Pré-treinamento de modelos de fundação | Isso envolve a criação de um modelo de linguagem usando um grande conjunto de dados. O resultado do pré-treinamento de modelos de fundação é um novo modelo que é bom em realizar tarefas gerais. Os modelos são categorizados com base no tamanho da seguinte forma:
|
Consulte recomendações para modelos de pré-treinamento |
| Ajuste de detalhes | Isso envolve pegar um modelo treinado e adaptá-lo para realizar tarefas específicas usando conjuntos de dados especializados ou outras técnicas. O ajuste geralmente é feito em modelos grandes. | Consulte recomendações para ajuste fino de modelos |
| Inferência ou disponibilização | Isso envolve pegar um modelo treinado ou ajustado e disponibilizá-lo para consumo por usuários ou aplicativos. As cargas de trabalho de inferência são categorizadas com base no tamanho dos modelos da seguinte maneira:
|
Consulte recomendações para inferência |
| Aprendizado de máquina com modelos pequenos a médios | Isso envolve treinar e disponibilizar modelos de ML menores em tamanho e complexidade, geralmente para tarefas mais especializadas. | Consulte recomendações para aprendizado de máquina de modelos pequenos a médios |
| HPC | Essa é a prática de agregar recursos de computação para conseguir um desempenho maior do que o de uma única estação de trabalho, servidor ou computador. A HPC é usada para resolver problemas na pesquisa acadêmica, ciência, design, simulação e Business Intelligence. | Consulte recomendações para HPC. |
Recomendações para modelos de pré-treinamento
O pré-treinamento de modelos de fundação envolve grandes clusters de aceleradores, leitura contínua de grandes volumes de dados e ajuste de pesos por transmissões diretas e indiretas para aprender com os dados. Esses jobs de treinamento são executados por semanas ou até meses.
As seções a seguir descrevem os aceleradores e o tipo de consumo recomendado a serem usados no pré-treinamento de modelos.
Aceleradores recomendados
Para pré-treinar modelos de fundação no Google Cloud, recomendamos usar os tipos de máquina otimizados para aceleradores A4X Max, A4 ou A3 e um orquestrador para implantar o cluster. Para implantar esses grandes clusters de aceleradores, recomendamos o uso do Cluster Director ou do Cluster Toolkit. Para mais informações, consulte o guia de implantação do cluster escolhido na tabela a seguir.
| Cargas de trabalho | Recomendações | Guia de implantação de cluster | |
|---|---|---|---|
| Tipo de máquina | Orquestrador | ||
|
|
GKE | Criar um cluster do GKE otimizado para IA com configuração padrão |
| Slurm | |||
|
A3 Mega | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | |||
|
A3 High | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | Implantar um cluster A3 High Slurm | ||
Tipo de consumo recomendado
Para ter um alto nível de garantia na obtenção de grandes clusters de aceleradores com custos mínimos, recomendamos usar uma reserva e solicitar essa reserva por um longo período. Para mais informações sobre tipos de consumo, consulte Escolher uma opção de consumo.
Recomendações para ajuste fino de modelos
O ajuste fino de modelos de fundação grandes envolve clusters menores de aceleradores, leitura de volumes moderados de dados e ajuste do modelo para realizar tarefas específicas. Esses jobs de ajuste fino são executados por dias ou até semanas.
As seções a seguir descrevem os aceleradores e o tipo de consumo recomendados para usar ao ajustar modelos.
Aceleradores recomendados
Para ajustar modelos no Google Cloud, recomendamos usar os tipos de máquina otimizados para aceleradores A4X Max, A4X, A4 ou A3 e usar um orquestrador para implantar o cluster.
Para implantar esses clusters de aceleradores, também recomendamos usar o Cluster Director ou o Cluster Toolkit. Para mais informações, consulte o guia de implantação de cluster respectivo para o tipo de máquina escolhido na tabela a seguir.
| Cargas de trabalho | Recomendações | Guia de implantação de cluster | |
|---|---|---|---|
| Tipo de máquina | Orquestrador | ||
| Ajuste fino de modelos grandes |
|
GKE | Criar um cluster do GKE otimizado para IA com configuração padrão |
| Slurm | |||
| Ajuste fino de modelos grandes | A3 Mega | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | |||
| Ajuste fino de modelos grandes | A3 High | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | Implantar um cluster A3 High Slurm | ||
Tipo de consumo recomendado
Para cargas de trabalho de ajuste refinado, recomendamos usar a reserva futura no modo de calendário para provisionar recursos. Para mais informações sobre as opções de consumo, consulte Escolher uma opção de consumo.
Recomendações para inferência
As seções a seguir descrevem os aceleradores e o tipo de consumo recomendados para realizar inferências.
Aceleradores recomendados
Os aceleradores recomendados para inferência dependem de você estar realizando inferência de fronteira multi-host ou de modelo grande ou inferência de fronteira de host único.
Aceleradores recomendados (vários hosts)
Para realizar inferência de modelo grande ou de fronteira de vários hosts no Google Cloud, recomendamos usar um tipo de máquina otimizado para acelerador A4X Max, A4X, A4 ou A3 e implantar a máquina usando um orquestrador. Para implantar esses clusters de aceleradores, também recomendamos usar o Cluster Director ou o Cluster Toolkit. Para começar a usar esses clusters, fornecemos um link para um guia de implantação de cluster para cada tipo de máquina recomendado.
| Cargas de trabalho | Recomendações | Guia de implantação de cluster | |
|---|---|---|---|
| Tipo de máquina | Orquestrador | ||
| Inferência de fronteira de vários hosts |
|
GKE | Criar um cluster do GKE otimizado para IA com configuração padrão |
| Slurm | |||
| Inferência de fronteira de vários hosts | A3 Mega | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | |||
| Inferência de modelos grandes | A3 High | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | Implantar um cluster A3 High Slurm | ||
Aceleradores recomendados (host único)
A tabela a seguir descreve os aceleradores recomendados para usar ao realizar inferência de fronteira de host único. Para começar a usar essas VMs, fornecemos um link para um guia de implantação de VM para cada tipo de máquina recomendado.
| Cargas de trabalho | Recomendações | Guia de implantação de VMs | |
|---|---|---|---|
| Tipo de máquina | Orquestrador | ||
| Inferência de fronteira de host único |
|
N/A | Criar uma instância otimizada para IA |
| Inferência de fronteira de host único | A3 High | N/A | Criar uma VM A3 com o GPUDirect-TCPX ativado |
Tipo de consumo recomendado
Para inferência, recomendamos usar uma reserva de longa duração ou uma reserva adiantada no modo de calendário. Para mais informações sobre as opções de consumo, consulte Escolher uma opção de consumo.
Recomendações para machine learning de modelos pequenos a médios
Para cargas de trabalho de machine learning que envolvem modelos de pequeno a médio porte, alcançar um equilíbrio ideal entre preço e desempenho é uma consideração principal.
Aceleradores recomendados
A tabela a seguir descreve os aceleradores recomendados para cargas de trabalho de ML de modelos pequenos a médios.
| Cargas de trabalho | Recomendações | Guia de implantação de VMs | |
|---|---|---|---|
| Tipo de máquina | Orquestrador | ||
| Aprendizado de máquina de modelos pequenos a médios |
|
N/A | Criar uma instância G2 ou G4 |
Recomendações para HPC
Para cargas de trabalho de HPC, qualquer série de máquinas otimizada para aceleradores ou série de máquinas otimizada para computação funciona bem. Se você estiver usando uma série de máquinas otimizadas para aceleradores, a melhor opção vai depender da quantidade de computação que precisa ser transferida para a GPU. Para conferir uma lista detalhada de recomendações para cargas de trabalho de HPC, consulte Práticas recomendadas para executar cargas de trabalho de HPC.
Resumo das recomendações
Confira a seguir um resumo das recomendações de acelerador e tipo de consumo para diferentes cargas de trabalho.
Recurso |
Recomendação |
|---|---|
| Pré-treinamento de modelos | |
| Família de máquinas | Use um dos seguintes tipos de máquina otimizados para aceleradores: A4X Max, A4X, A4, A3 Ultra, A3 Mega ou A3 High |
| Tipo de consumo | Usar reservas |
| Ajuste fino de modelos | |
| Família de máquinas | Use os tipos de máquina A4X Max, A4X, A4 ou A3 otimizados para aceleradores |
| Tipo de consumo | Usar reservas |
| Inferência | |
| Família de máquinas | Use um dos seguintes tipos de máquina otimizados para aceleradores: A4X Max, A4X, A4, A3 Ultra, A3 Mega ou A3 High |
| Tipo de consumo | Usar reservas |
| HPC | |
| Consulte a seção de resumo das práticas recomendadas para executar cargas de trabalho de HPC. | |