Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Configurações recomendadas

Este documento fornece recomendações sobre os aceleradores, tipos de consumo e ferramentas de implantação mais adequados para diferentes cargas de trabalho de inteligência artificial (IA), machine learning (ML) e computação de alto desempenho (HPC). Use este documento para identificar a melhor implantação para sua carga de trabalho.

Para informações e recomendações sobre os pilares da infraestrutura para cargas de trabalho de IA, ML e HPC, consulte os seguintes documentos:

Visão geral das cargas de trabalho

A arquitetura do Hipercomputador de IA oferece suporte aos seguintes casos de uso:

Cargas de trabalho	Descrição	Recomendação
Pré-treinamento de modelos de fundação	Isso envolve a criação de um modelo de linguagem usando um grande conjunto de dados. O resultado do pré-treinamento de modelos de fundação é um novo modelo que é bom em realizar tarefas gerais. Os modelos são categorizados com base no tamanho da seguinte forma: *Modelo de fronteira: são modelos de ML que abrangem centenas de bilhões a trilhões de parâmetros ou mais. Isso inclui modelos de linguagem grandes (LLMs), como o Gemini. Modelo grande*:são modelos que abrangem dezenas a centenas de bilhões de parâmetros ou mais.	Consulte recomendações para modelos de pré-treinamento
Ajuste de detalhes	Isso envolve pegar um modelo treinado e adaptá-lo para realizar tarefas específicas usando conjuntos de dados especializados ou outras técnicas. O ajuste geralmente é realizado em modelos grandes.	Confira recomendações para ajuste fino de modelos
Inferência ou disponibilização	Isso envolve pegar um modelo treinado ou refinado e disponibilizá-lo para consumo por usuários ou aplicativos. As cargas de trabalho de inferência são categorizadas com base no tamanho dos modelos da seguinte forma: *Inferência de modelo de fundação multihospedeiro: execução de inferência com modelos de ML treinados que abrangem centenas de bilhões a trilhões de parâmetros ou mais. Para essas cargas de trabalho de inferência, a carga computacional é compartilhada entre várias máquinas host. Inferência de modelo de fundação de host único: execução de inferência com modelos de ML treinados que abrangem dezenas a centenas de bilhões de parâmetros. Para essas cargas de trabalho de inferência, a carga computacional fica confinada a uma única máquina host. Inferência de modelos grandes*:realizar inferência com modelos de ML treinados ou refinados que abrangem dezenas a centenas de bilhões de parâmetros.	Consulte recomendações para inferência.
Aprendizado de máquina de modelos pequenos a médios	Isso envolve treinar e disponibilizar modelos de ML menores em tamanho e complexidade, geralmente para tarefas mais especializadas.	Consulte recomendações para aprendizado de máquina de modelos pequenos a médios
HPC	Essa é a prática de agregar recursos de computação para conseguir um desempenho maior do que o de uma única estação de trabalho, servidor ou computador. A HPC é usada para resolver problemas na pesquisa acadêmica, ciência, design, simulação e Business Intelligence.	Consulte recomendações para HPC.

Recomendações para modelos de pré-treinamento

O pré-treinamento de modelos de fundação envolve grandes clusters de aceleradores, leitura contínua de grandes volumes de dados e ajuste de pesos por transmissões diretas e indiretas para aprender com os dados. Esses jobs de treinamento são executados por semanas ou até meses.

As seções a seguir descrevem os aceleradores e o tipo de consumo recomendado a serem usados no pré-treinamento de modelos.

Aceleradores recomendados

Para pré-treinar modelos de fundação no Google Cloud, recomendamos usar tipos de máquina otimizados para aceleradores A4X Max, A4 ou A3 e um orquestrador para implantar o cluster. Para implantar esses grandes clusters de aceleradores, recomendamos o uso do Cluster Director ou do Cluster Toolkit. Para mais informações, consulte o guia de implantação do cluster escolhido na tabela a seguir.

Cargas de trabalho	Recomendações		Guia de implantação de cluster
	Tipo de máquina	Orquestrador
Treinamento de modelo de fronteira Treinamento de modelo grandes	A4X Max A4X A4 A3 Ultra	GKE	Criar um cluster do GKE otimizado para IA com configuração padrão
	A4X Max A4X A4 A3 Ultra	Slurm	Criar um cluster do Slurm totalmente gerenciado para cargas de trabalho de IA Criar um cluster do Slurm autogerenciado para cargas de trabalho de IA
Treinamento de modelo de fronteira Treinamento de modelo grandes	A3 Mega	GKE	Maximizar a largura de banda da rede GPU em clusters do modo Standard
	A3 Mega	Slurm	Criar um cluster otimizado para IA com base em um modelo Implantar um cluster A3 Mega Slurm para treinamento de ML
Treinamento de modelo grandes	A3 High	GKE	Maximizar a largura de banda da rede GPU em clusters do modo Standard
Treinamento de modelo grandes	A3 High	Slurm	Implantar um cluster A3 High Slurm

Tipo de consumo recomendado

Para ter um alto nível de garantia na obtenção de grandes clusters de aceleradores, recomendamos usar uma reserva. Especificamente, para minimizar os custos dos recursos reservados, recomendamos solicitar essa reserva por um período longo o suficiente para receber descontos por compromisso de uso. Para mais informações sobre tipos de consumo, consulte Escolher uma opção de consumo.

Recomendações para ajuste fino de modelos

O ajuste fino de modelos de fundação grandes envolve clusters menores de aceleradores, leitura de volumes moderados de dados e ajuste do modelo para realizar tarefas específicas. Esses jobs de ajuste fino são executados por dias ou até semanas.

As seções a seguir descrevem os aceleradores e o tipo de consumo recomendados para usar ao ajustar modelos.

Aceleradores recomendados

Para ajustar modelos no Google Cloud, recomendamos usar os tipos de máquina otimizados para aceleradores A4X Max, A4X, A4 ou A3 e usar um orquestrador para implantar o cluster.

Para implantar esses clusters de aceleradores, também recomendamos usar o Cluster Director ou o Cluster Toolkit. Para mais informações, consulte o guia de implantação de cluster respectivo para o tipo de máquina escolhido na tabela a seguir.

Cargas de trabalho	Recomendações		Guia de implantação de cluster
	Tipo de máquina	Orquestrador
Ajuste fino de modelos grandes	A4X Max A4X A4	GKE	Criar um cluster do GKE otimizado para IA com configuração padrão
Ajuste fino de modelos grandes	A4X Max A4X A4	Slurm	Criar um cluster do Slurm totalmente gerenciado para cargas de trabalho de IA Criar um cluster do Slurm autogerenciado para cargas de trabalho de IA
Ajuste fino de modelos grandes	A3 Mega	GKE	Maximizar a largura de banda da rede GPU em clusters do modo Standard
Ajuste fino de modelos grandes	A3 Mega	Slurm	Criar um cluster otimizado para IA com base em um modelo Implantar um cluster A3 Mega Slurm para treinamento de ML
Ajuste fino de modelos grandes	A3 High	GKE	Maximizar a largura de banda da rede GPU em clusters do modo Standard
Ajuste fino de modelos grandes	A3 High	Slurm	Implantar um cluster A3 High Slurm

Tipo de consumo recomendado

Para cargas de trabalho de ajuste refinado, recomendamos usar a reserva adiantada no modo de calendário para provisionar recursos. Para mais informações sobre as opções de consumo, consulte Escolher uma opção de consumo.

Recomendações para inferência

As seções a seguir descrevem os aceleradores e o tipo de consumo recomendados para realizar inferências.

Aceleradores recomendados

Os aceleradores recomendados para inferência dependem de você estar realizando inferência de fronteira multi-host ou de modelo grande, ou inferência de fronteira de host único.

Aceleradores recomendados (vários hosts)

Para realizar inferências de modelos grandes ou de fronteira em vários hosts no Google Cloud, recomendamos usar um tipo de máquina otimizado para acelerador A4X Max, A4X, A4 ou A3 e implantar a máquina usando um orquestrador. Para implantar esses clusters de aceleradores, também recomendamos usar o Cluster Director ou o Cluster Toolkit. Para começar a usar esses clusters, fornecemos um link para um guia de implantação de cluster para cada tipo de máquina recomendado.

Cargas de trabalho	Recomendações		Guia de implantação de cluster
	Tipo de máquina	Orquestrador
Inferência de fronteira de vários hosts	A4X Max A4X A4 A3 Ultra	GKE	Criar um cluster do GKE otimizado para IA com configuração padrão
Inferência de fronteira de vários hosts	A4X Max A4X A4 A3 Ultra	Slurm	Criar um cluster do Slurm totalmente gerenciado para cargas de trabalho de IA Criar um cluster do Slurm autogerenciado para cargas de trabalho de IA
Inferência de fronteira de vários hosts	A3 Mega	GKE	Maximizar a largura de banda da rede GPU em clusters do modo Standard
Inferência de fronteira de vários hosts	A3 Mega	Slurm	Criar um cluster otimizado para IA com base em um modelo Implantar um cluster A3 Mega Slurm para treinamento de ML
Inferência de modelos grandes	A3 High	GKE	Maximizar a largura de banda da rede GPU em clusters do modo Standard
Inferência de modelos grandes	A3 High	Slurm	Implantar um cluster A3 High Slurm

Aceleradores recomendados (host único)

A tabela a seguir descreve os aceleradores recomendados para usar ao realizar inferência de fronteira de host único. Para começar a usar essas VMs, fornecemos um link para um guia de implantação de VM para cada tipo de máquina recomendado.

Cargas de trabalho	Recomendações		Guia de implantação de VMs
	Tipo de máquina	Orquestrador
Inferência de fronteira de host único	A4 A3 Ultra	N/A	Criar uma instância otimizada para IA
Inferência de fronteira de host único	A3 High	N/A	Criar uma VM A3 com o GPUDirect-TCPX ativado

Tipo de consumo recomendado

Para inferência, recomendamos usar uma reserva de longa duração ou uma reserva adiantada no modo de calendário. Para mais informações sobre as opções de consumo, consulte Escolher uma opção de consumo.

Recomendações para machine learning de modelos pequenos a médios

Para cargas de trabalho de machine learning que envolvem modelos de pequeno a médio porte, alcançar um equilíbrio ideal entre preço e desempenho é uma consideração principal.

Aceleradores recomendados

A tabela a seguir descreve os aceleradores recomendados para cargas de trabalho de ML de modelos pequenos a médios.

Cargas de trabalho	Recomendações		Guia de implantação de VMs
	Tipo de máquina	Orquestrador
Aprendizado de máquina de modelos pequenos a médios	G4 G2	N/A	Criar uma instância G2 ou G4

Recomendações para HPC

Para cargas de trabalho de HPC, qualquer série de máquinas otimizada para aceleradores ou série de máquinas otimizada para computação funciona bem. Se você estiver usando uma série de máquinas otimizadas para aceleradores, a melhor opção vai depender da quantidade de computação que precisa ser transferida para a GPU. Para conferir uma lista detalhada de recomendações para cargas de trabalho de HPC, consulte Práticas recomendadas para executar cargas de trabalho de HPC.

Resumo das recomendações

Confira a seguir um resumo das recomendações de acelerador e tipo de consumo para diferentes cargas de trabalho.

Recurso	Recomendação
Pré-treinamento de modelos
Família de máquinas	Use um dos seguintes tipos de máquina otimizados para aceleradores: A4X Max, A4X, A4, A3 Ultra, A3 Mega ou A3 High.
Tipo de consumo	Usar reservas
Ajuste fino de modelos
Família de máquinas	Use os tipos de máquina A4X Max, A4X, A4 ou A3 otimizados para aceleradores
Tipo de consumo	Usar reservas
Inferência
Família de máquinas	Use um dos seguintes tipos de máquina otimizados para aceleradores: A4X Max, A4X, A4, A3 Ultra, A3 Mega ou A3 High.
Tipo de consumo	Usar reservas
HPC
Consulte a seção de resumo das práticas recomendadas para executar cargas de trabalho de HPC.

Configurações recomendadas Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Visão geral das cargas de trabalho

Recomendações para modelos de pré-treinamento

Aceleradores recomendados

Tipo de consumo recomendado

Recomendações para ajuste fino de modelos

Aceleradores recomendados

Tipo de consumo recomendado

Recomendações para inferência

Aceleradores recomendados

Aceleradores recomendados (vários hosts)

Aceleradores recomendados (host único)

Tipo de consumo recomendado

Recomendações para machine learning de modelos pequenos a médios

Aceleradores recomendados

Recomendações para HPC

Resumo das recomendações

Configurações recomendadas