Zonas de IA

As zonas de IA são especializadas e usadas para cargas de trabalho de treinamento e inferência de inteligência artificial e machine learning (IA e ML). Elas oferecem uma capacidade significativa de acelerador de ML (GPU e TPU).

Dentro de uma região, as zonas de IA estão geograficamente localizadas longe das zonas padrão (não de IA). A figura a seguir mostra um exemplo de uma zona de IA (us-central1-ai1a) localizada mais distante em relação às zonas padrão na região us-central1.

Espaço para a família

Cada zona de IA está associada a uma zona padrão na região, chamada de zona principal. Uma zona principal é uma zona padrão com o mesmo sufixo da zona de IA. Por exemplo, no diagrama, us-central1-a é a zona mãe de us-central1-ai1a. Eles compartilham cronogramas de atualização de software e, às vezes, infraestrutura. Isso significa que qualquer problema de software ou infraestrutura que afete uma zona principal também pode afetar a zona de IA. Ao projetar suas soluções de alta disponibilidade, revise as Considerações de alta disponibilidade (HA) para considerar a dependência da zona principal.

Quando usar zonas de IA

As zonas de IA são otimizadas para cargas de trabalho de IA e ML. Use as orientações a seguir para determinar quais das suas cargas de trabalho são mais adequadas para zonas de IA e quais são mais bem atendidas por zonas padrão.

Recomendado para:

Treinamento em grande escala:ideal para cargas de trabalho de treinamento em grande escala, como treinamento de modelos de linguagem grandes (LLMs) e de fundação, devido à disponibilidade de um grande número de aceleradores.
Treinamento em pequena escala, ajuste fino, inferência em massa e retreinamento:as zonas de IA têm bom desempenho para cargas de trabalho que exigem capacidade substancial de acelerador.
Inferência de ML em tempo real:as zonas de IA são compatíveis com cargas de trabalho de inferência em tempo real. O desempenho depende do design do aplicativo e dos requisitos de latência do modelo, especialmente se a carga de trabalho exigir solicitações de ida e volta para a região principal.

Não recomendado para:

Cargas de trabalho que não são de ML:como as zonas de IA não oferecem todos os Google Cloud serviços localmente, recomendamos executar as cargas de trabalho que não são de ML nas zonas padrão.

Acessar serviços em uma zona de IA

É possível acessar todos os produtos do Google Cloud em uma Google Cloud região na zona de IA. No entanto, acessar serviços em uma região Google Cloud de uma zona de IA pode aumentar a latência de rede, já que a zona de IA é fisicamente separada dos locais das zonas padrão da região.

Alguns produtos permitem criar ou acessar recursos zonais localmente em uma zona de IA. Para mais informações sobre esses serviços, consulte a tabela a seguir:

Produto	Descrição
Google Kubernetes Engine (GKE)	Configuração para usar zonas de IA em clusters do GKE, incluindo configuração com ComputeClasses, provisionamento automático de nós e pools de nós padrão do GKE. Como usar zonas de IA no GKE
Cloud Storage	Configuração do armazenamento de objetos para cargas de trabalho em zonas de IA, incluindo armazenamento zonal para maximizar o desempenho durante trabalhos ativos e armazenamento permanente para conjuntos de dados e checkpoints de modelos. Usar zonas de IA com o Cloud Storage
Compute Engine	Métodos para identificar zonas de IA disponíveis usando o console, a Google Cloud CLI e a API REST, incluindo como filtrar por convenção de nomenclatura, tipo de acelerador ou máquina Encontrar zonas de IA disponíveis

Locais

As zonas de IA estão disponíveis nos seguintes locais:

Zona de IA	Localização da zona de IA	Google Cloud região	Local da regiãoGoogle Cloud	Zona mãe
`us-south1-ai1b`	Austin, Texas, América do Norte	`us-south1`	Dallas, Texas, América do Norte	`us-south1-b`
`us-central1-ai1a`	Lincoln, Nebraska, América do Norte	`us-central1`	Council Bluffs, Iowa, América do Norte	`us-central1-a`

Como usar zonas de IA

As zonas de IA podem ser acessadas pelo console Google Cloud , pela Google Cloud CLI ou pela REST. No entanto, ao usar o consoleGoogle Cloud para criar VMs, é necessário selecionar manualmente uma zona de IA. Ela não é selecionada para você, como acontece com as zonas padrão. Para usar as zonas de IA com os seguintes recursos, selecione explicitamente uma zona de IA ao configurar esses recursos.

Alguns recursos do Compute Engine e do GKE: as zonas de IA não são selecionadas automaticamente em alguns recursos regionais do Compute Engine e do GKE (por exemplo, grupos gerenciados de instâncias regionais, clusters regionais do GKE). Para mais detalhes sobre o GKE, consulte a documentação do GKE.
Restrições de carga de trabalho sem acelerador: ao executar VMs somente de CPU em zonas de IA, fique atento às restrições impostas pelo Compute Engine. Isso pode incluir requisitos para proporções e reservas de GPU:CPU.
Vertex AI: os produtos regionais da Vertex AI baseados no GKE precisam configurar o GKE para incluir zonas de IA em clusters regionais. Não é necessário ativar a Vertex AI. A Vertex AI gerencia essa configuração.
APIGoogle Cloud Service Metadata Locations: ative a flag --extraLocationTypes ao usar a API locations.list para garantir que as zonas de IA apareçam apenas para quem pretende usá-las.

Como usar zonas de IA no GKE

Por padrão, o GKE não implanta cargas de trabalho em zonas de IA. Para usar uma zona de IA, configure uma das seguintes opções:

ComputeClasses:defina a prioridade mais alta para solicitar TPUs sob demanda em uma zona de IA. As ComputeClasses ajudam você a definir uma lista priorizada de configurações de hardware para suas cargas de trabalho. Para um exemplo, consulte Sobre ComputeClasses.
Provisionamento automático de nós:use um nodeSelector ou nodeAffinity na especificação do pod para instruir o provisionamento automático de nós a criar um pool de nós na zona de IA. Se a carga de trabalho não segmentar explicitamente uma zona de IA, o provisionamento automático de nós considerará apenas as zonas padrão ao criar novos pools de nós. Essa configuração garante que as cargas de trabalho que não executam modelos de IA/ML permaneçam em zonas padrão, a menos que você configure explicitamente o contrário. Para um exemplo de manifesto que usa um nodeSelector, consulte Definir as zonas padrão para nós criados automaticamente.
GKE Standard:se você gerenciar diretamente seus pools de nós, use uma zona de IA na flag --node-locations ao criar um pool de nós. Para um exemplo, consulte Implantar cargas de trabalho de TPU no GKE Standard.

Limitações

Os seguintes recursos não estão disponíveis nas zonas de IA:

Considerações de design com zonas de IA

Considere o seguinte ao projetar seus aplicativos para usar zonas de IA.

Considerações sobre alta disponibilidade (HA)

As zonas de IA compartilham implantações de software e infraestrutura com as zonas principais. Para garantir alta disponibilidade para suas cargas de trabalho, evite estes padrões de implantação ao selecionar zonas, seja de forma automática ou manual:

Evite implantar cargas de trabalho de alta disponibilidade em uma zona de IA e na zona principal.
Evite implantar cargas de trabalho de alta disponibilidade em duas zonas de IA que compartilham a mesma zona principal.

Práticas recomendadas de armazenamento

Recomendamos uma arquitetura de armazenamento em camadas para equilibrar custo, durabilidade e desempenho:

Camada de armazenamento a frio:use buckets regionais do Cloud Storage em zonas padrão para armazenamento persistente e altamente durável dos seus conjuntos de dados de treinamento e checkpoints de modelo.
Camada de desempenho:use serviços de armazenamento zonais especializados para atuar como um cache de alta velocidade ou espaço de trabalho temporário. Essa abordagem elimina a latência entre zonas e maximiza o goodput durante jobs ativos.

Para garantir que as GPUs e TPUs permaneçam totalmente saturadas, maximizando o goodput, provisione sua camada de performance na mesma zona de IA que os recursos de computação.

As seguintes soluções de armazenamento são recomendadas para otimizar a performance do sistema de IA e ML com zonas de IA:

Serviço de armazenamento	Descrição	Casos de uso
Recurso Anywhere Cache do Cloud Storage	Um cache de leitura zonal totalmente gerenciado com suporte de SSD que traz dados lidos com frequência de um bucket para a zona de IA.	Recomendado para: Cargas de trabalho com muita leitura Treinamento e disponibilização de modelos de baixa latência Não recomendado para: Aplicativos que exigem conformidade total com POSIX

Serviço de armazenamento

Descrição

Casos de uso

Recurso Anywhere Cache do Cloud Storage

Um cache de leitura zonal totalmente gerenciado com suporte de SSD que traz dados lidos com frequência de um bucket para a zona de IA.