Opções de armazenamento para dados do Cloud TPU

Neste documento, descrevemos as opções de armazenamento de dados disponíveis ao treinar modelos no Cloud TPU.

Introdução

O Cloud TPU requer armazenamento de dados para o seguinte:

  • download e pré-processamento de conjuntos de dados;
  • processamento do pipeline de entrada do host;
  • entrada do treinamento de modelos;
  • saída do treinamento de modelos.

Confira abaixo as opções de armazenamento para os conjuntos de dados de treinamento e os dados de aplicativo do Cloud TPU:

Para saber como gerenciar o armazenamento, consulte estas páginas:

Armazenamento em blocos durável

O armazenamento em blocos durável, também conhecido como discos ou volumes, é destinado a dados que você quer preservar depois de interromper, suspender ou excluir a VM de TPU. O armazenamento em blocos durável ainda está disponível mesmo que a VM de TPU falhe ou trave. É possível usar o disco de inicialização da VM de TPU ou anexar mais volume de armazenamento em blocos à TPU.

Pode ser útil anexar um disco extra nos seguintes cenários:

  • O tamanho do conjunto de dados de treinamento excede o tamanho do disco de inicialização da TPU.
  • Você tem dados somente leitura e quer um acesso de leitura mais rápido usando um volume do Hyperdisk ML.

É possível anexar dois tipos de armazenamento em blocos durável a um Cloud TPU: o Google Cloud Hyperdisk e o Persistent Disk. O Persistent Disk não é aceito nas séries de máquinas mais recentes, incluindo o Cloud TPU v6e. O Google recomenda usar o Google Cloud Hyperdisk para ter o melhor desempenho e acesso a recursos avançados.

Disco de inicialização de VM de TPU

Por padrão, cada VM do Cloud TPU tem um único disco de inicialização de 100 GiB que contém o sistema operacional. O disco de inicialização também pode ser usado para o armazenamento temporário de conjuntos de dados baixados para pré-processamento e de dados de entrada e saída do modelo, desde que a quantidade total não exceda o espaço disponível no disco.

Não é possível redimensionar o disco de inicialização em um Cloud TPU. Se o aplicativo exigir mais espaço de armazenamento do que o padrão do disco de inicialização, adicione um ou mais discos duráveis à instância da VM de TPU. Para mais informações, consulte Anexar um armazenamento em blocos durável a uma VM de TPU.

Armazenamento anexado

O Hyperdisk e o Persistent Disk são dispositivos de armazenamento de rede duráveis que as instâncias de VM podem acessar como discos físicos em um computador ou servidor. Os dois tipos de discos são criados independentemente das instâncias de máquina virtual (VM). Assim, é possível manter os dados mesmo depois de excluir as instâncias de VM.

As vantagens de usar o Hyperdisk em vez do Persistent Disk incluem desempenho personalizável e limites mais altos de IOPS e capacidade de processamento. Para mais informações sobre o Hyperdisk e o Persistent Disk, consulte Escolher um tipo de disco.

Para saber como usar o armazenamento em blocos durável com VMs de TPU, consulte Anexar um armazenamento em blocos durável a uma VM de TPU.

Backups em disco

Pode ser difícil recuperar dados excluídos ou dados do disco de inicialização caso a VM de TPU fique travada em um estado desconhecido. Faça backup dos dados usando outra opção de armazenamento, como os buckets do Cloud Storage.

Se você armazenar dados em um disco anexado, poderá usar snapshots de disco, que fazem backup incremental dos dados em um disco. Snapshots de disco não são aceitos no disco de inicialização da TPU. Para mais informações, consulte Sobre snapshots de discos.

Buckets do Cloud Storage

Os buckets do Cloud Storage são a opção de armazenamento mais flexível, escalonável e durável para as instâncias de VM. Se o job de treinamento não exigir a latência menor do armazenamento em blocos durável, armazene o conjunto de dados em um bucket do Cloud Storage.

O desempenho dos buckets do Cloud Storage depende da classe de armazenamento selecionada e do local do bucket com relação à instância.

A criação do bucket do Cloud Storage na mesma zona da VM de TPU oferece um desempenho comparável ao armazenamento em blocos durável, mas com maior latência e características de capacidade de processamento menos consistentes.

Todos os buckets do Cloud Storage têm redundância integrada para proteger os dados contra falhas de equipamento e garantir a disponibilidade deles por meio de eventos de manutenção do data center. As checksums são calculadas para todas as operações do Cloud Storage para garantir que você leia exatamente aquilo que foi gravado.

Ao contrário do armazenamento em blocos durável, os buckets do Cloud Storage não estão restritos à zona em que a instância está. Além disso, é possível ler e gravar em um bucket dados de várias instâncias ao mesmo tempo. Por exemplo, configure instâncias em várias zonas para ler e gravar dados no mesmo bucket, em vez de replicar os dados em armazenamentos em blocos duráveis em várias zonas.

Para saber como conectar sua VM de TPU a um bucket do Cloud Storage, consulte Como se conectar a buckets do Cloud Storage.

Cloud Storage FUSE

O Cloud Storage FUSE permite ativar e acessar buckets do Cloud Storage como sistemas de arquivos locais. Isso permite que os aplicativos leiam e gravem objetos no bucket usando a semântica padrão dos sistemas de arquivos.

Consulte a documentação do Cloud Storage FUSE para saber como ele funciona e como as operações dele são associadas às do Cloud Storage. No GitHub, é possível saber mais sobre o Cloud Storage FUSE, por exemplo, como instalar a CLI dele e como ativar buckets.

Compartilhamento de arquivos do Filestore

O compartilhamento de arquivos do Filestore é um armazenamento conectado à rede (NAS) totalmente gerenciado do Compute Engine. O Filestore aceita aplicativos empresariais atuais e qualquer cliente que use o NFSv3.

O Filestore oferece baixa latência para operações de arquivos. Para cargas de trabalho sensíveis à latência, o Filestore oferece capacidade para até 100 TiB e capacidade de processamento de 25 GiB por segundo e 720 mil IOPS, com variação mínima de desempenho.

Com o Filestore, você pode ativar compartilhamentos de arquivos em VMs de TPU.

A seguir