Serviços de armazenamento

Este documento descreve casos de uso e recomendações para serviços de armazenamento em cargas de trabalho de inteligência artificial (IA) e machine learning (ML).

Casos de uso do armazenamento

Os serviços de armazenamento podem ser usados nas seguintes cargas de trabalho de IA e ML:

  • Preparar e carregar dados para treinamento
  • Carregando pesos de modelo para inferência
  • Salvar e restaurar checkpoints de modelos
  • Carregando imagens de VM
  • Dados do Logging
  • Diretórios comuns
  • Carregamento de bibliotecas, pacotes e dependências de aplicativos

Recomendações de armazenamento

As seguintes soluções de armazenamento são recomendadas para otimizar o desempenho do sistema de IA e ML:

Serviço de armazenamento Recursos Casos de uso
Cloud Storage

Visão geral: um armazenamento de objetos altamente escalonável, durável e de baixo custo. Ele é adequado para armazenar grandes conjuntos de dados necessários para treinamento e checkpoints de modelos, além de hospedar os modelos finais treinados. O Cloud Storage com o Cloud Storage FUSE é a solução de armazenamento recomendada para a maioria dos casos de uso de IA e ML porque permite escalonar o armazenamento de dados com mais eficiência de custo do que os serviços de sistema de arquivos.

  • Aceita dados de treinamento em grande escala (até EBs) para clusters de GPU e TPU.
  • Oferece suporte a alta capacidade de processamento (até 1,25 TB/s de largura de banda ou mais). Para maximizar a capacidade de processamento no Cloud Storage, solicite mais largura de banda.
  • Com a integração ao Cloud Storage FUSE, os buckets do Cloud Storage podem ser montados como sistemas de arquivos locais. O driver CSI do Cloud Storage FUSE também permite ativar buckets como sistemas de arquivos locais no Google Kubernetes Engine (GKE) para cargas de trabalho de IA e ML escalonadas.
  • Use o Anywhere Cache para alocar armazenamento na mesma zona que as cargas de trabalho de computação, oferecendo maior capacidade de processamento (até 2,5 TB/s), menor latência e flexibilidade de local quando usado com um bucket multirregional.
  • Para mais informações sobre como usar o Cloud Storage FUSE para cargas de trabalho de IA e ML, consulte Otimizar cargas de trabalho de IA e ML com o Cloud Storage FUSE.

Recomendado para:

  • Economia
  • Tratamento e preparação de dados
  • Treinamento e inferência de modelos
  • Salvar e restaurar checkpoints de modelos

Não recomendado para:

  • Aplicativos que exigem conformidade total com POSIX
  • Diretórios comuns
Google Cloud Managed Lustre

Visão geral: um sistema de arquivos paralelo de alto desempenho e totalmente gerenciado otimizado para aplicativos de IA e computação de alto desempenho (HPC). Adequado para ambientes em que vários nós de computação precisam de acesso rápido e consistente a dados compartilhados para simulações, modelagem e análise.

  • Escalonamento para capacidade de 8 PB e até 1 TB/s de capacidade.
  • Suporta milhares de IOPS/TiB.
  • Oferece latência ultrabaixa de menos de um milissegundo.
  • Tem suporte total a POSIX, o que permite a migração imediata de cargas de trabalho de IA locais para o Google Cloud.
  • Para mais informações sobre como usar o Managed Lustre para cargas de trabalho de IA e ML, consulte Otimizar cargas de trabalho de IA e ML com o Managed Lustre do Google Cloud.

Recomendado para:

  • Migrar cargas de trabalho de IA e ML para a nuvem
  • Simulações de modelo
  • Treinamento e inferência de modelos
  • Salvar e restaurar checkpoints de modelos
  • Cargas de trabalho com leituras e gravações pequenas e frequentes
  • Diretórios comuns

Não recomendado para:

  • Cargas de trabalho que precisam de mais de 8 PB de dados

A seguir