Este documento fornece recomendações sobre qual acelerador, tipo de consumo, serviço de armazenamento e ferramenta de implantação são mais adequados para diferentes cargas de trabalho de inteligência artificial (IA), machine learning (ML) e computação de alto desempenho (HPC). Use este documento para identificar a melhor implantação para sua carga de trabalho.
Visão geral das cargas de trabalho
A arquitetura do Hipercomputador de IA é compatível com os seguintes casos de uso:
| Cargas de trabalho | Descrição | Recomendação |
|---|---|---|
| Pré-treinamento de modelos de fundação | Isso envolve a criação de um modelo de linguagem usando um grande conjunto de dados. O resultado do pré-treinamento de modelos de fundação é um novo modelo que é bom em realizar tarefas gerais. Os modelos são categorizados com base no tamanho da seguinte forma:
|
Consulte recomendações para modelos de pré-treinamento |
| Ajuste de detalhes | Isso envolve pegar um modelo treinado e adaptá-lo para realizar tarefas específicas usando conjuntos de dados especializados ou outras técnicas. O ajuste geralmente é feito em modelos grandes. | Confira recomendações para ajuste fino de modelos |
| Inferência ou exibição | Isso envolve pegar um modelo treinado ou ajustado e disponibilizá-lo para consumo por usuários ou aplicativos. As cargas de trabalho de inferência são categorizadas com base no tamanho dos modelos da seguinte maneira:
|
Consulte recomendações para inferência |
| Machine learning de modelos pequenos a médios | Isso envolve treinar e disponibilizar modelos de ML menores em tamanho e complexidade, geralmente para tarefas mais especializadas. | Consulte recomendações para aprendizado de máquina de modelos pequenos a médios |
| HPC | Essa é a prática de agregar recursos de computação para conseguir um desempenho maior do que o de uma única estação de trabalho, servidor ou computador. A HPC é usada para resolver problemas na pesquisa acadêmica, ciência, design, simulação e Business Intelligence. | Consulte recomendações para HPC. |
Recomendações para modelos de pré-treinamento
O pré-treinamento de modelos de fundação envolve grandes clusters de aceleradores, leitura contínua de grandes volumes de dados e ajuste de pesos por transmissões diretas e indiretas para aprender com os dados. Esses jobs de treinamento são executados por semanas ou até meses.
As seções a seguir descrevem os aceleradores, o tipo de consumo recomendado e o serviço de armazenamento a serem usados no pré-treinamento de modelos.
Aceleradores recomendados
Para pré-treinar modelos de base no Google Cloud, recomendamos usar máquinas otimizadas para aceleradores A4X, A4 ou A3 e um orquestrador para implantar essas máquinas. Para implantar esses grandes clusters de aceleradores, recomendamos o uso do Cluster Director ou do Cluster Toolkit. Para mais informações, consulte o guia de implantação do cluster escolhido na tabela a seguir.
| Cargas de trabalho | Recomendações | Guia de implantação de cluster | |
|---|---|---|---|
| Tipo de máquina | Orquestrador | ||
|
|
GKE | Criar um cluster do GKE otimizado para IA com configuração padrão |
| Slurm | |||
|
A3 Mega | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | |||
|
A3 High | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | Implantar um cluster A3 High Slurm | ||
Tipo de consumo recomendado
Para ter um alto nível de garantia na obtenção de grandes clusters de aceleradores com custos mínimos, recomendamos usar uma reserva e solicitar essa reserva por um longo período. Para mais informações sobre tipos de consumo, consulte Escolher uma opção de consumo.
Serviços de armazenamento recomendados
Para o pré-treinamento, os dados de treinamento precisam estar prontos continuamente e com rapidez. Também recomendamos a criação de checkpoints frequentes e rápidos do modelo em treinamento. Para a maioria dessas necessidades, recomendamos que você use o Google Cloud Managed Lustre. Como alternativa, você pode usar o Cloud Storage com o Cloud Storage FUSE e o cache em qualquer lugar ativado. Para mais informações sobre opções de armazenamento, consulte Serviços de armazenamento.
Recomendações para ajuste de modelos
O ajuste fino de modelos de fundação grandes envolve clusters menores de aceleradores, leitura de volumes moderados de dados e ajuste do modelo para realizar tarefas específicas. Esses jobs de ajuste fino são executados por dias ou até semanas.
As seções a seguir descrevem os aceleradores, o tipo de consumo recomendado e o serviço de armazenamento a serem usados ao ajustar modelos.
Aceleradores recomendados
Para ajustar modelos no Google Cloud, recomendamos usar máquinas otimizadas para aceleradores A4X, A4 ou A3 e um orquestrador para implantar essas máquinas.
Para implantar esses clusters de aceleradores, também recomendamos usar o Cluster Director ou o Cluster Toolkit. Para mais informações, consulte o guia de implantação de cluster respectivo para o tipo de máquina escolhido na tabela a seguir.
| Cargas de trabalho | Recomendações | Guia de implantação de cluster | |
|---|---|---|---|
| Tipo de máquina | Orquestrador | ||
| Ajuste de modelos grandes |
|
GKE | Criar um cluster do GKE otimizado para IA com configuração padrão |
| Slurm | |||
| Ajuste de modelos grandes | A3 Mega | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | |||
| Ajuste de modelos grandes | A3 High | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | Implantar um cluster A3 High Slurm | ||
Tipo de consumo recomendado
Para cargas de trabalho de ajuste refinado, recomendamos usar a reserva futura no modo de calendário para provisionar recursos. Para mais informações sobre as opções de consumo, consulte Escolher uma opção de consumo.
Serviços de armazenamento recomendados
Para modelos de ajuste detalhado, a quantidade de dados necessária pode ser significativa, especialmente quando se trata de velocidades de leitura para o desempenho do ajuste detalhado. Recomendamos a criação de pontos de verificação frequentes e rápidos do modelo que está sendo refinado. Assim como no pré-treinamento, recomendamos o Lustre gerenciado do Google Cloud para a maioria dos casos de uso. Como alternativa, use o Cloud Storage com o Cloud Storage FUSE e o cache em qualquer lugar ativado. Para mais informações sobre opções de armazenamento, consulte Serviços de armazenamento.
Recomendações para inferência
As seções a seguir descrevem os aceleradores, o tipo de consumo recomendado e o serviço de armazenamento a serem usados ao realizar a inferência.
Aceleradores recomendados
Os aceleradores recomendados para inferência dependem de você estar realizando inferência de fronteira multi-host ou de modelo grande, ou inferência de fronteira de host único.
Aceleradores recomendados (vários hosts)
Para realizar inferência de modelo grande ou de fronteira de vários hosts no Google Cloud, recomendamos usar máquinas otimizadas para aceleradores A4X, A4 ou A3 e implantar essas máquinas usando um orquestrador. Para implantar esses clusters de aceleradores, também recomendamos usar o Cluster Director ou o Cluster Toolkit. Para começar a usar esses clusters, fornecemos um link para um guia de implantação de cluster para cada tipo de máquina recomendado.
| Cargas de trabalho | Recomendações | Guia de implantação de cluster | |
|---|---|---|---|
| Tipo de máquina | Orquestrador | ||
| Inferência de fronteira de vários hosts |
|
GKE | Criar um cluster do GKE otimizado para IA com configuração padrão |
| Slurm | |||
| Inferência de fronteira de vários hosts | A3 Mega | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | |||
| Inferência de modelos grandes | A3 High | GKE | Maximizar a largura de banda da rede GPU em clusters do modo Standard |
| Slurm | Implantar um cluster A3 High Slurm | ||
Aceleradores recomendados (host único)
A tabela a seguir descreve os aceleradores recomendados para usar ao realizar inferência de fronteira de host único. Para começar a usar essas VMs, fornecemos um link para um guia de implantação de VM para cada tipo de máquina recomendado.
| Cargas de trabalho | Recomendações | Guia de implantação de VMs | |
|---|---|---|---|
| Tipo de máquina | Orquestrador | ||
| Inferência de fronteira de host único |
|
N/A | Criar uma instância otimizada para IA |
| Inferência de fronteira de host único | A3 High | N/A | Criar uma VM A3 com o GPUDirect-TCPX ativado |
Tipo de consumo recomendado
Para inferência, recomendamos usar uma reserva de longa duração ou uma reserva adiantada no modo de calendário. Para mais informações sobre as opções de consumo, consulte Escolher uma opção de consumo.
Serviços de armazenamento recomendados
Para inferência, o carregamento rápido dos binários e pesos de inferência em muitos servidores exige leituras de dados rápidas. Recomendamos usar o Cloud Storage com o Cloud Storage FUSE e o Anywhere Cache ativados para o carregamento de modelos. O Anywhere Cache oferece uma solução de armazenamento em cache de dados zonais que acelera os tempos de carregamento de modelos e também reduz as taxas de saída de rede. Quando combinado com o Cloud Storage FUSE, o Anywhere Cache é particularmente útil para carregar modelos em várias zonas e multirregiões. Se você estiver usando o Managed Lustre do Google Cloud para treinamento, recomendamos que também use o Managed Lustre do Google Cloud para carregamento de modelos, já que ele permite leituras rápidas de dados e é uma solução de armazenamento zonal persistente. Para mais informações sobre opções de armazenamento, consulte Serviços de armazenamento.
Recomendações para machine learning de modelos pequenos a médios
Para cargas de trabalho de machine learning que envolvem modelos de pequeno a médio porte, alcançar um equilíbrio ideal entre preço e desempenho é uma consideração principal.
Aceleradores recomendados
A tabela a seguir descreve os aceleradores recomendados para cargas de trabalho de ML de modelos pequenos a médios.
| Cargas de trabalho | Recomendações | Guia de implantação de VMs | |
|---|---|---|---|
| Tipo de máquina | Orquestrador | ||
| Aprendizado de máquina de modelos pequenos a médios |
|
N/A | Criar uma instância G2 ou G4 |
Recomendações para HPC
Para cargas de trabalho de HPC, qualquer série de máquinas otimizada para aceleradores ou série de máquinas otimizada para computação funciona bem. Se você estiver usando uma série de máquinas com otimização de acelerador, a melhor opção dependerá da quantidade de computação que precisa ser transferida para a GPU. Para conferir uma lista detalhada de recomendações para cargas de trabalho de HPC, consulte Práticas recomendadas para executar cargas de trabalho de HPC.
Resumo das recomendações
Confira abaixo um resumo das recomendações de acelerador, tipo de consumo e serviço de armazenamento para diferentes cargas de trabalho.
Recurso |
Recomendação |
|---|---|
| Pré-treinamento de modelo | |
| Família de máquinas | Use um dos seguintes tipos de máquina otimizados para aceleradores: A4, A3 Ultra, A3 Mega ou A3 High |
| Tipo de consumo | Usar reservas |
| Armazenamento | Use um Google Cloud serviço gerenciado, como o Lustre gerenciado do Google Cloud ou o Cloud Storage FUSE. |
| Ajuste de modelos | |
| Família de máquinas | Use tipos de máquinas A4X, A4 ou A3 com otimização para aceleradores |
| Tipo de consumo | Usar reservas |
| Armazenamento | Use um serviço gerenciado, como o Google Cloud Managed Lustre ou o Cloud Storage FUSE. Google Cloud |
| Inferência | |
| Família de máquinas | Use um dos seguintes tipos de máquina otimizados para aceleradores: A4, A3 Ultra, A3 Mega ou A3 High |
| Tipo de consumo | Usar reservas |
| Armazenamento | Use um Google Cloud serviço gerenciado, como o Lustre gerenciado do Google Cloud ou o Cloud Storage FUSE. |
| HPC | |
| Consulte a seção de resumo das práticas recomendadas para executar cargas de trabalho de HPC. | |