Configurações recomendadas

Este documento fornece recomendações sobre qual acelerador, tipo de consumo, serviço de armazenamento e ferramenta de implantação são mais adequados para diferentes cargas de trabalho de inteligência artificial (IA), machine learning (ML) e computação de alto desempenho (HPC). Use este documento para identificar a melhor implantação para sua carga de trabalho.

Visão geral das cargas de trabalho

A arquitetura do Hipercomputador de IA é compatível com os seguintes casos de uso:

Cargas de trabalho Descrição Recomendação
Pré-treinamento de modelos de fundação Isso envolve a criação de um modelo de linguagem usando um grande conjunto de dados. O resultado do pré-treinamento de modelos de fundação é um novo modelo que é bom em realizar tarefas gerais.
Os modelos são categorizados com base no tamanho da seguinte forma:
  • Modelo de fronteira: são modelos de ML que abrangem centenas de bilhões a trilhões de parâmetros ou mais. Esses incluem modelos de linguagem grandes (LLMs) como o Gemini.
  • Modelo grande:são modelos que abrangem de dezenas a centenas de bilhões de parâmetros ou mais.
Consulte recomendações para modelos de pré-treinamento
Ajuste de detalhes Isso envolve pegar um modelo treinado e adaptá-lo para realizar tarefas específicas usando conjuntos de dados especializados ou outras técnicas. O ajuste geralmente é feito em modelos grandes. Confira recomendações para ajuste fino de modelos
Inferência ou exibição Isso envolve pegar um modelo treinado ou ajustado e disponibilizá-lo para consumo por usuários ou aplicativos.
As cargas de trabalho de inferência são categorizadas com base no tamanho dos modelos da seguinte maneira:
  • Inferência de modelo de fundação multihospedeiro: realiza inferência com modelos de ML treinados que abrangem centenas de bilhões a trilhões de parâmetros ou mais. Para essas cargas de trabalho de inferência, a carga computacional é compartilhada entre várias máquinas host.
  • Inferência de modelo de fundação de host único: execução de inferência com modelos de ML treinados que abrangem dezenas a centenas de bilhões de parâmetros. Para essas cargas de trabalho de inferência, a carga computacional fica confinada a uma única máquina host.
  • Inferência de modelos grandes:realizar inferência com modelos de ML treinados ou refinados que abrangem dezenas a centenas de bilhões de parâmetros.
Consulte recomendações para inferência
Machine learning de modelos pequenos a médios Isso envolve treinar e disponibilizar modelos de ML menores em tamanho e complexidade, geralmente para tarefas mais especializadas. Consulte recomendações para aprendizado de máquina de modelos pequenos a médios
HPC Essa é a prática de agregar recursos de computação para conseguir um desempenho maior do que o de uma única estação de trabalho, servidor ou computador. A HPC é usada para resolver problemas na pesquisa acadêmica, ciência, design, simulação e Business Intelligence. Consulte recomendações para HPC.

Recomendações para modelos de pré-treinamento

O pré-treinamento de modelos de fundação envolve grandes clusters de aceleradores, leitura contínua de grandes volumes de dados e ajuste de pesos por transmissões diretas e indiretas para aprender com os dados. Esses jobs de treinamento são executados por semanas ou até meses.

As seções a seguir descrevem os aceleradores, o tipo de consumo recomendado e o serviço de armazenamento a serem usados no pré-treinamento de modelos.

Aceleradores recomendados

Para pré-treinar modelos de base no Google Cloud, recomendamos usar máquinas otimizadas para aceleradores A4X, A4 ou A3 e um orquestrador para implantar essas máquinas. Para implantar esses grandes clusters de aceleradores, recomendamos o uso do Cluster Director ou do Cluster Toolkit. Para mais informações, consulte o guia de implantação do cluster escolhido na tabela a seguir.

Cargas de trabalho Recomendações Guia de implantação de cluster
Tipo de máquina Orquestrador
  • Treinamento de modelo de fronteira
  • Treinamento de modelo grandes
  • A4X
  • A4
  • A3 Ultra
GKE Criar um cluster do GKE otimizado para IA com configuração padrão
Slurm
  • Treinamento de modelo de fronteira
  • Treinamento de modelo grandes
A3 Mega GKE Maximizar a largura de banda da rede GPU em clusters do modo Standard
Slurm
  • Treinamento de modelo grandes
A3 High GKE Maximizar a largura de banda da rede GPU em clusters do modo Standard
Slurm Implantar um cluster A3 High Slurm

Tipo de consumo recomendado

Para ter um alto nível de garantia na obtenção de grandes clusters de aceleradores com custos mínimos, recomendamos usar uma reserva e solicitar essa reserva por um longo período. Para mais informações sobre tipos de consumo, consulte Escolher uma opção de consumo.

Serviços de armazenamento recomendados

Para o pré-treinamento, os dados de treinamento precisam estar prontos continuamente e com rapidez. Também recomendamos a criação de checkpoints frequentes e rápidos do modelo em treinamento. Para a maioria dessas necessidades, recomendamos que você use o Google Cloud Managed Lustre. Como alternativa, você pode usar o Cloud Storage com o Cloud Storage FUSE e o cache em qualquer lugar ativado. Para mais informações sobre opções de armazenamento, consulte Serviços de armazenamento.

Recomendações para ajuste de modelos

O ajuste fino de modelos de fundação grandes envolve clusters menores de aceleradores, leitura de volumes moderados de dados e ajuste do modelo para realizar tarefas específicas. Esses jobs de ajuste fino são executados por dias ou até semanas.

As seções a seguir descrevem os aceleradores, o tipo de consumo recomendado e o serviço de armazenamento a serem usados ao ajustar modelos.

Aceleradores recomendados

Para ajustar modelos no Google Cloud, recomendamos usar máquinas otimizadas para aceleradores A4X, A4 ou A3 e um orquestrador para implantar essas máquinas.

Para implantar esses clusters de aceleradores, também recomendamos usar o Cluster Director ou o Cluster Toolkit. Para mais informações, consulte o guia de implantação de cluster respectivo para o tipo de máquina escolhido na tabela a seguir.

Cargas de trabalho Recomendações Guia de implantação de cluster
Tipo de máquina Orquestrador
Ajuste de modelos grandes
  • A4X
  • A4
GKE Criar um cluster do GKE otimizado para IA com configuração padrão
Slurm
Ajuste de modelos grandes A3 Mega GKE Maximizar a largura de banda da rede GPU em clusters do modo Standard
Slurm
Ajuste de modelos grandes A3 High GKE Maximizar a largura de banda da rede GPU em clusters do modo Standard
Slurm Implantar um cluster A3 High Slurm

Tipo de consumo recomendado

Para cargas de trabalho de ajuste refinado, recomendamos usar a reserva futura no modo de calendário para provisionar recursos. Para mais informações sobre as opções de consumo, consulte Escolher uma opção de consumo.

Serviços de armazenamento recomendados

Para modelos de ajuste detalhado, a quantidade de dados necessária pode ser significativa, especialmente quando se trata de velocidades de leitura para o desempenho do ajuste detalhado. Recomendamos a criação de pontos de verificação frequentes e rápidos do modelo que está sendo refinado. Assim como no pré-treinamento, recomendamos o Lustre gerenciado do Google Cloud para a maioria dos casos de uso. Como alternativa, use o Cloud Storage com o Cloud Storage FUSE e o cache em qualquer lugar ativado. Para mais informações sobre opções de armazenamento, consulte Serviços de armazenamento.

Recomendações para inferência

As seções a seguir descrevem os aceleradores, o tipo de consumo recomendado e o serviço de armazenamento a serem usados ao realizar a inferência.

Aceleradores recomendados

Os aceleradores recomendados para inferência dependem de você estar realizando inferência de fronteira multi-host ou de modelo grande, ou inferência de fronteira de host único.

Aceleradores recomendados (vários hosts)

Para realizar inferência de modelo grande ou de fronteira de vários hosts no Google Cloud, recomendamos usar máquinas otimizadas para aceleradores A4X, A4 ou A3 e implantar essas máquinas usando um orquestrador. Para implantar esses clusters de aceleradores, também recomendamos usar o Cluster Director ou o Cluster Toolkit. Para começar a usar esses clusters, fornecemos um link para um guia de implantação de cluster para cada tipo de máquina recomendado.

Cargas de trabalho Recomendações Guia de implantação de cluster
Tipo de máquina Orquestrador
Inferência de fronteira de vários hosts
  • A4X
  • A4
  • A3 Ultra
GKE Criar um cluster do GKE otimizado para IA com configuração padrão
Slurm
Inferência de fronteira de vários hosts A3 Mega GKE Maximizar a largura de banda da rede GPU em clusters do modo Standard
Slurm
Inferência de modelos grandes A3 High GKE Maximizar a largura de banda da rede GPU em clusters do modo Standard
Slurm Implantar um cluster A3 High Slurm

Aceleradores recomendados (host único)

A tabela a seguir descreve os aceleradores recomendados para usar ao realizar inferência de fronteira de host único. Para começar a usar essas VMs, fornecemos um link para um guia de implantação de VM para cada tipo de máquina recomendado.

Cargas de trabalho Recomendações Guia de implantação de VMs
Tipo de máquina Orquestrador
Inferência de fronteira de host único
  • A4
  • A3 Ultra
N/A Criar uma instância otimizada para IA
Inferência de fronteira de host único A3 High N/A Criar uma VM A3 com o GPUDirect-TCPX ativado

Tipo de consumo recomendado

Para inferência, recomendamos usar uma reserva de longa duração ou uma reserva adiantada no modo de calendário. Para mais informações sobre as opções de consumo, consulte Escolher uma opção de consumo.

Serviços de armazenamento recomendados

Para inferência, o carregamento rápido dos binários e pesos de inferência em muitos servidores exige leituras de dados rápidas. Recomendamos usar o Cloud Storage com o Cloud Storage FUSE e o Anywhere Cache ativados para o carregamento de modelos. O Anywhere Cache oferece uma solução de armazenamento em cache de dados zonais que acelera os tempos de carregamento de modelos e também reduz as taxas de saída de rede. Quando combinado com o Cloud Storage FUSE, o Anywhere Cache é particularmente útil para carregar modelos em várias zonas e multirregiões. Se você estiver usando o Managed Lustre do Google Cloud para treinamento, recomendamos que também use o Managed Lustre do Google Cloud para carregamento de modelos, já que ele permite leituras rápidas de dados e é uma solução de armazenamento zonal persistente. Para mais informações sobre opções de armazenamento, consulte Serviços de armazenamento.

Recomendações para machine learning de modelos pequenos a médios

Para cargas de trabalho de machine learning que envolvem modelos de pequeno a médio porte, alcançar um equilíbrio ideal entre preço e desempenho é uma consideração principal.

Aceleradores recomendados

A tabela a seguir descreve os aceleradores recomendados para cargas de trabalho de ML de modelos pequenos a médios.

Cargas de trabalho Recomendações Guia de implantação de VMs
Tipo de máquina Orquestrador
Aprendizado de máquina de modelos pequenos a médios
  • G4
  • G2
N/A Criar uma instância G2 ou G4

Recomendações para HPC

Para cargas de trabalho de HPC, qualquer série de máquinas otimizada para aceleradores ou série de máquinas otimizada para computação funciona bem. Se você estiver usando uma série de máquinas com otimização de acelerador, a melhor opção dependerá da quantidade de computação que precisa ser transferida para a GPU. Para conferir uma lista detalhada de recomendações para cargas de trabalho de HPC, consulte Práticas recomendadas para executar cargas de trabalho de HPC.

Resumo das recomendações

Confira abaixo um resumo das recomendações de acelerador, tipo de consumo e serviço de armazenamento para diferentes cargas de trabalho.


Recurso

Recomendação
Pré-treinamento de modelo
Família de máquinas Use um dos seguintes tipos de máquina otimizados para aceleradores: A4, A3 Ultra, A3 Mega ou A3 High
Tipo de consumo Usar reservas
Armazenamento Use um Google Cloud serviço gerenciado, como o Lustre gerenciado do Google Cloud ou o Cloud Storage FUSE.
Ajuste de modelos
Família de máquinas Use tipos de máquinas A4X, A4 ou A3 com otimização para aceleradores
Tipo de consumo Usar reservas
Armazenamento Use um serviço gerenciado, como o Google Cloud Managed Lustre ou o Cloud Storage FUSE. Google Cloud
Inferência
Família de máquinas Use um dos seguintes tipos de máquina otimizados para aceleradores: A4, A3 Ultra, A3 Mega ou A3 High
Tipo de consumo Usar reservas
Armazenamento Use um Google Cloud serviço gerenciado, como o Lustre gerenciado do Google Cloud ou o Cloud Storage FUSE.
HPC
Consulte a seção de resumo das práticas recomendadas para executar cargas de trabalho de HPC.