Armazenamento de arquivos no Compute Engine

O armazenamento de arquivos, também conhecido como armazenamento conectado à rede (NAS, na sigla em inglês), fornece acesso de nível de arquivo a aplicativos para ler e atualizar informações que podem ser compartilhadas em várias máquinas. Algumas soluções de armazenamento de arquivos no local têm uma arquitetura de escalonamento vertical e adicionam armazenamento a uma quantidade fixa de recursos de computação. Outras soluções de armazenamento de arquivos têm uma arquitetura de escalonamento horizontal, em que a capacidade e a computação (desempenho) podem ser adicionadas gradualmente a um sistema de arquivos existente conforme necessário. Nas duas arquiteturas de armazenamento, uma ou várias máquinas virtuais (VMs) podem acessar o armazenamento.

Um cliente POSIX nativo é usado em alguns sistemas de arquivos, mas em muitos sistemas de armazenamento é usado um protocolo que permite às máquinas clientes a ativação de um sistema de arquivos e o acesso aos arquivos como se eles estivessem hospedados localmente. Os protocolos mais comuns para exportar compartilhamentos de arquivos são o Network File System (NFS) para Linux (e, em alguns casos, Windows) e o Server Message Block (SMB) para Windows.

Esta solução descreve as opções a seguir para compartilhar arquivos:

Um fator subjacente no desempenho e na previsibilidade de todos os serviços do Google Cloud é a pilha de rede que o Google desenvolveu ao longo de muitos anos. Com o Jupiter Fabric, o Google criou uma pilha de rede potente, escalonável e estável que pode continuar a evoluir sem afetar suas cargas de trabalho. À medida que o Google aprimora e melhora internamente as capacidades da rede, sua solução de compartilhamento de arquivos se beneficia do desempenho agregado.

Um recurso do Google Cloud que ajuda você a aproveitar ao máximo seu investimento é a capacidade de especificar tipos de VM personalizados. Ao selecionar o tamanho do servidor, escolha exatamente a combinação ideal de memória e CPU. Assim, a operação do servidor terá o desempenho máximo, sem que haja inscrições em excesso.

O Cloud Storage também é uma ótima maneira de armazenar petabytes ou exabytes de dados com altos níveis de redundância a um baixo custo. No entanto, essa solução tem um perfil de desempenho e uma API diferentes dos servidores de arquivos discutidos nesta página.

Resumo das soluções do servidor de arquivos

A tabela a seguir resume as soluções e os recursos do servidor de arquivos:

Solução Conjunto de dados ideal Capacidade de processamento Suporte gerenciado Protocolos de exportação
Filestore básico De 1 TiB a 64 TiB Até 1,2 GiB/s Totalmente gerenciado pelo Google NFSv3
Filestore Zonal De 1 TiB a 100 TiB Até 26 GiB/s Totalmente gerenciado pelo Google NFSv3, NFSv4.1
Filestore regional De 1 TiB a 100 TiB Até 26 GiB/s Totalmente gerenciado pelo Google NFSv3, NFSv4.1
Managed Lustre De 18 TiB a 8 PiB Até 1 TB/s Totalmente gerenciado pelo Google POSIX
NetApp Volumes De 1 GiB a 1 PiB 1 MB/s a 30 GiB/s Totalmente gerenciado pelo Google NFSv3, NFSv4.1, SMB3
Persistent Disk somente leitura Até 64 TB De 240 a 1.200 Mbps No Anexo direto

Discos duráveis e SSD local

Se você tiver dados que só precisam ser acessados por uma única VM ou que não mudam com o tempo, evite um servidor de arquivos usando os discos duráveis oferecidos pelo Compute Engine: hiperdisco ou Persistent Disk. É possível formatar volumes curtos do Hyperdisk e do Persistent Disk com um sistema de arquivos como Ext4 ou XFS e anexá-los a VMs nos modos de leitura/gravação ou somente leitura. Isso significa que é possível, primeiro, anexar um volume a uma instância, carregá-lo com os dados necessários e, por fim, anexá-lo a um disco somente leitura para centenas de VMs simultaneamente. O uso de discos somente leitura não funciona para todos os casos de uso, mas pode reduzir muito a complexidade se comparado ao uso de um servidor de arquivos.

Os discos duráveis oferecem um desempenho consistente. Todos os volumes do Persistent Disk do mesmo tamanho (e para o Persistent Disk SSD, o mesmo número de vCPUs) que você anexa à sua instância têm as mesmas características de desempenho. Não é necessário fazer testes nos discos antes de usá-los na produção.

O custo dos discos permanentes é simples de determinar porque não há custos de E/S a serem considerados após o provisionamento do volume. Os discos permanentes também podem ser redimensionados quando necessário. É possível começar com um volume de baixo custo e baixa capacidade e não é necessário criar instâncias ou discos extras para escalonar a capacidade.

Se a capacidade total de armazenamento for o principal requisito, use discos permanentes padrão de baixo custo. Para o melhor desempenho com a manutenção da durabilidade, é possível usar discos permanentes SSD.

Além disso, é importante escolher a capacidade correta de disco permanente do Compute Engine e o número de vCPUs para garantir que os dispositivos de armazenamento do servidor de arquivos recebam a largura de banda de armazenamento, as IOPS e a largura de banda de rede necessárias. A largura de banda da rede para VMs depende do tipo de máquina escolhido. Por exemplo, as VMs A4 têm uma largura de banda de rede máxima de até 3.600 Gbps. Para mais informações, consulte o Guia de comparação e recursos para famílias de máquinas. Para informações sobre como ajustar discos permanentes, consulte Sobre o desempenho do disco permanente.

Se os dados forem temporários e precisarem de latência de menos de 1 milissegundo e alto número de operações de E/S por segundo (IOPS), será possível aproveitar até 9 TB de SSDs locais para dispor de desempenho excepcional. Os SSDs locais fornecem GB/s de largura de banda e milhões de IOPS, sem usar toda a largura de banda de rede cotada das instâncias. No entanto, é importante lembrar que os SSDs locais têm determinadas compensações de disponibilidade, durabilidade e flexibilidade.

Para mais informações sobre as opções de armazenamento do Compute Engine, consulte Criar uma estratégia de armazenamento ideal para sua carga de trabalho na nuvem.

Considerações ao escolher uma solução de armazenamento de arquivos

Para escolher uma solução de armazenamento de arquivos, é preciso analisar a relação entre custos, gerenciamento, desempenho e escalonabilidade. Tomar a decisão será mais fácil se você tiver uma carga de trabalho bem definida, o que geralmente não é o caso. Nos casos em que as cargas de trabalho aumentam ao longo do tempo ou são muito variáveis, é prudente deixar de lado o fator custo e se concentrar em flexibilidade e elasticidade para que você possa ampliar a solução. Por outro lado, se você tiver uma carga de trabalho temporal e bem conhecida, poderá criar uma arquitetura de armazenamento de arquivos personalizada que pode ser desativada e recriada para atender às suas necessidades imediatas de armazenamento.

Uma das primeiras decisões a tomar é se você quer pagar por um serviço de armazenamento gerenciado, uma solução que inclua suporte ao produto ou uma solução não compatível.

  • Os serviços de armazenamento de arquivos gerenciados são os mais fáceis de operar, porque o Google ou um parceiro está lidando com todas as operações. Esses serviços podem até fornecer um contrato de nível de serviço (SLA) para disponibilidade como a maioria dos outros serviços do Google Cloud .
  • Soluções não gerenciadas e com serviço de suporte oferecem flexibilidade adicional. Os parceiros podem ajudar com qualquer problema, mas a operação diária da solução de armazenamento é deixada para o usuário.
  • Soluções sem serviço de suporte ao produto exigem o máximo de esforço para implantar e manter, deixando todos os problemas a cargo do usuário. Essas soluções não são abordadas neste documento.

A próxima decisão envolve a determinação dos requisitos de durabilidade e disponibilidade da solução. A maioria das soluções de arquivos é zonal e não fornece proteção por padrão se a zona falhar. Por isso, é importante considerar se é necessária uma solução de recuperação de desastre (DR) que proteja contra falhas zonais. Também é importante entender os requisitos de durabilidade e disponibilidade do aplicativo. Por exemplo, a escolha de SSDs locais ou discos permanentes na sua implantação tem um grande impacto, assim como a configuração do software da solução de arquivos. Cada solução requer um planejamento cuidadoso para gerar alta durabilidade, disponibilidade e até mesmo proteção contra falhas zonais e regionais.

Por fim, analise os locais (isto é, zonas, regiões e data centers no local) em que você precisa acessar os dados. Os locais das torres de servidores que acessam seus dados influenciam sua escolha da solução de arquivador, porque apenas algumas soluções permitem acesso híbrido no local e na nuvem.

Soluções de armazenamento de arquivos gerenciado

Nesta seção, descrevemos as soluções para armazenamento de arquivos gerenciadas pelo Google.

Filestore básico

As instâncias do Filestore Basic são adequadas para compartilhamento de arquivos, desenvolvimento de software e cargas de trabalho do GKE. Para armazenar os dados, é possível escolher HDD ou SSD. O SSD oferece melhor desempenho. Com qualquer uma das opções, a capacidade é escalonada verticalmente de maneira incremental, e é possível proteger os dados usando backups.

Filestore Zonal

O Filestore Zonal simplifica o armazenamento corporativo e o gerenciamento de dados no Google Cloud e em nuvens híbridas. O Filestore Zonal oferece acesso paralelo econômico e de alto desempenho a dados globais, mantendo uma consistência rigorosa, viabilizada por um sistema de arquivos distribuído e escalonável dinamicamente. Com o Filestore Zonal, os aplicativos de NFS e os fluxos de trabalho NAS atuais podem ser executados na nuvem sem exigir refatoração, mas ainda mantendo os benefícios dos serviços de dados corporativos (por exemplo, snapshots e backups). O driver Filestore CSI permite persistência, portabilidade e compartilhamento de dados sem interrupções para cargas de trabalho conteinerizadas.

É possível escalonar instâncias do Filestore Zonal sob demanda. Com isso, você cria e expande a infraestrutura do sistema de arquivos quando necessário, garantindo que o desempenho e a capacidade do armazenamento estejam sempre alinhados aos requisitos dinâmicos do fluxo de trabalho. À medida que um cluster do Filestore Zonal se expande, os metadados e o desempenho de E/S são escalonados linearmente. Esse escalonamento permite aprimorar e acelerar uma ampla variedade de fluxos de trabalho com muitos dados, incluindo computação de alto desempenho, análises, agregação de dados entre sites, DevOps e muito mais. Como resultado, o Filestore Zonal é ideal para uso em setores centrados em dados, como ciências da vida (por exemplo, sequenciamento genômico), serviços financeiros e mídia e entretenimento.

Para proteger ainda mais os dados críticos, o Filestore Zonal também permite tirar e manter snapshots periódicos, criar backups e replicar para outra região. Com o Filestore, é possível recuperar um arquivo individual ou um sistema de arquivos inteiro em menos de 10 minutos de qualquer um dos pontos de recuperação anteriores.

Filestore regional

O Filestore Regional é uma solução NFS nativa da nuvem totalmente gerenciada que permite implantar aplicativos críticos baseados em arquivos em Google Cloud, com um SLA que oferece disponibilidade regional de 99,99%. Com um SLA de 99,99% de disponibilidade regional, o Filestore Regional foi projetado para aplicativos que exigem alta disponibilidade. Com poucos cliques do mouse (ou alguns comandos gcloud ou chamadas de API), é possível provisionar compartilhamentos do NFS que são replicados de maneira síncrona em três zonas dentro de uma região. Se alguma zona da região ficar indisponível, o Filestore Regional continuará exibindo dados para o aplicativo de maneira transparente, sem qualquer intervenção operacional.

Para proteger ainda mais os dados críticos, o Filestore Regional também permite tirar e manter snapshots periódicos, criar backups e replicar para outra região. Com o Filestore, é possível recuperar um arquivo individual ou um sistema de arquivos inteiro em menos de 10 minutos de qualquer um dos pontos de recuperação anteriores.

Para proteger ainda mais os dados críticos, o Filestore também permite tirar e manter snapshots periódicos do sistema de arquivos. Com o Filestore, é possível recuperar um arquivo individual ou um sistema de arquivos inteiro em menos de 10 minutos de qualquer um dos pontos de recuperação anteriores.

Para aplicativos essenciais, como o SAP, os níveis de banco de dados e de aplicativos precisam ser altamente disponíveis. Para atender a esse requisito, é possível implantar o nível do banco de dados SAP no Hyperdisk Extreme do Google Cloud, em várias zonas, usando a alta disponibilidade integrada do banco de dados. Da mesma forma, o nível do aplicativo NetWeaver, que requer executáveis compartilhados em várias VMs, pode ser implantado no Filestore Regional, que replica os dados do Netweaver em várias zonas de uma região. O resultado final é uma arquitetura de aplicativo essencial de três camadas altamente disponível.

As organizações de TI também estão cada vez mais implantando aplicativos com estado em contêineres no Google Kubernetes Engine (GKE). Isso faz com que repensem frequentemente a infraestrutura de armazenamento a ser usada para oferecer compatibilidade a esses aplicativos. É possível usar o armazenamento em blocos (Hyperdisk ou Persistent Disk), o armazenamento de arquivos (Filestore Basic, Zonal ou Regional) ou o armazenamento de objetos (Cloud Storage). O Filestore Basic HDD para GKE e os compartilhamentos múltiplos do Filestore para GKE combinados com o driver CSI do Filestore permitem que as organizações que precisam de vários pods do GKE tenham acesso a arquivos compartilhados, fornecendo um nível maior de disponibilidade para cargas de trabalho essenciais.

Managed Lustre

O Managed Lustre é um serviço gerenciado pelo Google que oferece armazenamento de alta capacidade e baixa latência para cargas de trabalho de HPC com acoplamento rígido. Ele acelera significativamente as cargas de trabalho de HPC e o treinamento e a inferência de IA ao fornecer acesso de alta capacidade e baixa latência a conjuntos de dados enormes. Para informações sobre como usar o Lustre gerenciado para cargas de trabalho de IA e ML, consulte Planejar armazenamento para cargas de trabalho de IA e ML em Google Cloud. O Lustre gerenciado distribui dados em vários nós de armazenamento, o que permite o acesso simultâneo por muitas VMs. Esse acesso paralelo elimina os gargalos que ocorrem com os sistemas de arquivos convencionais e permite que as cargas de trabalho injetem e processem rapidamente as grandes quantidades de dados necessárias.

NetApp Volumes

O NetApp Volumes é um serviço totalmente gerenciado do Google que permite ativar rapidamente o armazenamento de arquivos compartilhados nas suas instâncias de computação do Google Cloud . O NetApp Volumes é compatível com acesso SMB, NFS e vários protocolos. O NetApp Volumes oferece alto desempenho para aplicativos com baixa latência, com recursos robustos de proteção de dados: snapshots, cópias, replicação entre regiões e backup. O serviço é adequado para aplicativos que exigem cargas de trabalho sequenciais e aleatórias, que podem ser escalonadas em centenas ou milhares de instâncias do Compute Engine. Em segundos, volumes de GiBs a PiBs podem ser provisionados e protegidos com recursos robustos de proteção de dados. Com vários níveis de serviço (Flex, Standard, Premium e Extreme), o NetApp Volumes oferece o desempenho adequado para sua carga de trabalho, sem afetar a disponibilidade.

Soluções de parceiros no Cloud Marketplace

As soluções fornecidas por parceiros a seguir estão disponíveis no Cloud Marketplace.

NetApp Cloud Volumes ONTAP

O NetApp Cloud Volumes ONTAP (NetApp CVO) é uma solução baseada na nuvem gerenciada pelo cliente que traz para o Google Cloudo conjunto completo de recursos do ONTAP, sistema operacional líder para gerenciamento de dados da NetApp. O NetApp CVO é implantado na sua VPC, com faturamento e suporte do Google. O software ONTAP é executado em uma VM do Compute Engine e usa uma combinação de discos permanentes e buckets do Cloud Storage (se os níveis estiverem ativados) para armazenar os dados NAS. O arquivador integrado acomoda os volumes NAS usando provisionamento fino para que você pague apenas pelo armazenamento que usar. À medida que os dados aumentam, mais discos permanentes são adicionados ao pool de capacidade agregada.

O NetApp CVO abstrai a infraestrutura subjacente e permite criar volumes de dados virtuais formados pelo pool agregado consistentes com todos os outros volumes do ONTAP em qualquer ambiente de nuvem ou local. Os volumes de dados criados são compatíveis com todas as versões de NFS, SMB, NFS/SMB com vários protocolos e iSCSI. Eles são compatíveis com uma ampla variedade de cargas de trabalho baseadas em arquivos, incluindo conteúdo da Web e rich media, usadas em muitos setores, como automação de design eletrônico (EDA) e mídia e entretenimento.

O NetApp CVO é compatível com snapshots instantâneos e pontuais que economizam espaço, backup permanente incremental integrado no Cloud Storage e replicação assíncrona entre regiões para recuperação de desastres. A opção de selecionar o tipo de instância do Compute Engine e discos permanentes permite alcançar o desempenho que você quer para suas cargas de trabalho. Mesmo ao operar em uma configuração de alto desempenho, o NetApp CVO implementa capacidades de armazenamento, como eliminação de duplicação, compactação e compressão, bem como definição automática de níveis para dados usados com pouca frequência no bucket do Cloud Storage, permitindo armazenar petabytes de dados e reduzir significativamente os custos gerais de armazenamento.

DDN Infinia

Se você precisar de uma orquestração avançada de dados de IA, use o DDN Infinia, disponível no Google Cloud Marketplace. O Infinia oferece uma solução de inteligência de dados focada em IA otimizada para inferência, treinamento e análises em tempo real. Ele permite a ingestão de dados ultrarrápida, a indexação rica em metadados e a integração perfeita com frameworks de IA, como TensorFlow e PyTorch.

Confira os principais recursos do DDN Infinia:

  • Alto desempenho: oferece latência de submilissegundos e capacidade de processamento de vários TB/s.
  • Escalonabilidade: oferece suporte ao escalonamento de terabytes para exabytes e pode acomodar até 100.000 GPUs e um milhão de clientes simultâneos em uma única implantação.
  • Multitenancy com qualidade de serviço (QoS) previsível: oferece ambientes seguros e isolados para vários locatários com QoS previsível para desempenho consistente em todas as cargas de trabalho.
  • Acesso unificado a dados: permite a integração perfeita com aplicativos e fluxos de trabalho atuais usando suporte multiprotocolo integrado, incluindo Amazon S3 compatível, CSI e Cinder.
  • Segurança avançada: recursos de criptografia integrada, codificação de apagamento com reconhecimento de domínio de falha e snapshots que ajudam a garantir a proteção e a conformidade dos dados.

Armazenamento de arquivos em nuvem da Nasuni

A Nasuni substitui servidores de arquivos corporativos e dispositivos NAS e todas as infraestruturas associadas, incluindo hardware de backup e DR, com uma alternativa mais simples e de baixo custo na nuvem. A Nasuni usa o armazenamento de objetos do Google Cloud para oferecer uma solução de armazenamento de software como serviço (SaaS) mais eficiente que é escalonada para lidar com o crescimento dos dados de arquivos rápidos e não estruturados. A Nasuni é projetada para lidar com compartilhamentos de arquivos de departamentos, projetos e organizacionais e fluxos de trabalho de aplicativos para todos os funcionários, onde quer que eles trabalhem.

Armazenamento de arquivos na nuvem da Nasuni.

A Nasuni oferece três pacotes, com preços para empresas e organizações de todos os tamanhos, para que possam crescer e se expandir conforme necessário.

Os benefícios incluem:

  • Armazenamento de arquivos principal na nuvem por até 70% menos. A arquitetura da Nasuni aproveita as políticas integradas do Gerenciamento do ciclo de vida de objetos. Essas políticas permitem total flexibilidade para uso com classes do Cloud Storage, incluindo Standard, Nearline, Coldline e Archive. Ao usar a classe Archive de acesso imediato para armazenamento principal com a Nasuni, é possível perceber uma economia de custos de 70%.

  • Compartilhamentos de arquivos administrativos e organizacionais na nuvem. A arquitetura baseada em nuvem da Nasuni oferece um único namespace global nas regiões doGoogle Cloud , sem limites no número de arquivos, tamanhos de arquivos ou snapshots, permitindo que você armazene arquivos diretamente da sua área de trabalho noGoogle Cloud por meio de protocolos de mapeamento de unidade NAS (SMB) padrão.

  • Backup e recuperação de desastres integrados. As operações "set-it and forget-it" da Nasuni simplificam o gerenciamento do armazenamento global de arquivos. O backup e a DR estão inclusos, e um único console de gerenciamento permite supervisionar e controlar o ambiente em qualquer lugar, a qualquer momento.

  • Substitui os servidores de arquivo antigos. A Nasuni simplifica a migração dos servidores de arquivos do Microsoft Windows e de outros sistemas de armazenamento de arquivos atuais para o Google Cloud, reduzindo os custos e a complexidade de gerenciamento desses ambientes.

Para ver mais informações, consulte os seguintes tópicos:

Plataforma de armazenamento de dados inteligente da Sycomp

A Plataforma de armazenamento de dados inteligente da Sycomp, disponível no Google Cloud Marketplace, permite executar cargas de trabalho de computação de alto desempenho (HPC), IA e ML e Big Data no Google Cloud. Com o Sycomp Storage, é possível acessar dados simultaneamente de milhares de VMs, reduzir custos gerenciando automaticamente níveis de armazenamento e executar seu aplicativo no local ou no Google Cloud. O Sycomp Storage pode ser implantado rapidamente e oferece suporte ao acesso aos seus dados via NFS e pelo cliente do IBM Storage Scale.

O IBM Storage Scale é um sistema de arquivos paralelo que ajuda a gerenciar com segurança grandes volumes (PBs) de dados. O Sycomp Storage Scale é um sistema de arquivos paralelo adequado para HPC, IA, ML, Big Data e outros aplicativos que exigem um sistema de arquivos compartilhados em conformidade com o POSIX. Com capacidade de armazenamento adaptável e escalonamento de desempenho, o Sycomp Storage é compatível com cargas de trabalho de HPC, IA e ML pequenas e grandes.

Depois de implantar um cluster no Google Cloud, você decide como quer usá-lo. Escolha se você quer usar o cluster apenas na nuvem ou no modo híbrido. Para isso, conecte-se a clusters locais do IBM Storage Scale, soluções NAS NFS de terceiros ou outras soluções de armazenamento baseadas em objetos.

Colaboradores

Autor: Sean Derrington | Gerente de produtos do grupo, Armazenamento

Outros colaboradores: