Como o Volume Populator do GKE funciona
O Volume Populator do GKE aproveita o conceito principal do Volume Populator do Kubernetes. Em vez de provisionar um volume vazio, o Volume Populator do GKE permite que um PVC faça referência a um GCPDataSource recurso personalizado. Esse recurso personalizado especifica o bucket de origem do Cloud Storage e as credenciais necessárias.
Ao criar um PVC com um dataSourceRef que aponta para um recurso GCPDataSource, o Volume Populator do GKE inicia a transferência de dados. Ele copia dados do URI do bucket do Cloud Storage especificado para o volume de armazenamento permanente subjacente antes de disponibilizar o volume para seus pods.
Esse processo reduz a necessidade de usar scripts de transferência de dados manuais ou comandos da CLI e automatiza a transferência de grandes conjuntos de dados para volumes permanentes. O Volume Populator do GKE oferece suporte a transferências de dados entre os seguintes tipos de origem e destino:
- Cloud Storage para Parallelstore
- Cloud Storage para Hyperdisk ML
O Volume Populator do GKE é um componente gerenciado do GKE ativado por padrão nos clusters do Autopilot e Standard. Você interage principalmente com o Volume Populator do GKE pela CLI gcloud e pela CLI kubectl.
Arquitetura
O diagrama a seguir mostra como os dados fluem do armazenamento de origem para o de destino e como o PersistentVolume para o armazenamento de destino é criado usando o Volume Populator do GKE.
- Você cria um PVC que faz referência a um
GCPDataSourcerecurso personalizado. - O Volume Populator do GKE detecta o PVC e inicia um job de transferência de dados.
- O job de transferência é executado em um pool de nós atual ou um novo é criado se o provisionamento automático de nós estiver ativado.
- O job de transferência copia dados do bucket do Cloud Storage especificado no recurso
GCPDataSourcepara o volume de armazenamento de destino. - Após a conclusão da transferência, o PVC é vinculado ao volume de armazenamento de destino, disponibilizando os dados para o pod da carga de trabalho.
Principais benefícios
O Volume Populator do GKE oferece vários benefícios:
- Preenchimento automático de dados: preencha automaticamente os volumes com dados do Cloud Storage durante o provisionamento, o que ajuda a reduzir a sobrecarga operacional.
- Portabilidade de dados integrada: mova dados do armazenamento de objetos para sistemas de arquivos de alto desempenho (Parallelstore) ou armazenamento em blocos (Hyperdisk) para ajudar a otimizar o preço ou o desempenho com base nas necessidades da carga de trabalho.
- Fluxos de trabalho simplificados: reduza a necessidade de jobs de carregamento de dados separados ou intervenção manual para preparar volumes permanentes.
- Integração com o Identity and Access Management (IAM): use a autenticação baseada no IAM pela Federação de Identidade da Carga de Trabalho para GKE para ajudar a garantir a transferência segura de dados com controle de acesso refinado.
- Cargas de trabalho de IA/ML aceleradas: pré-carregue rapidamente grandes conjuntos de dados, modelos e pesos diretamente no armazenamento de alto desempenho para ajudar a acelerar as tarefas de treinamento e inferência.
Casos de uso do Volume Populator do GKE
Você pode usar o Volume Populator do GKE para carregar grandes conjuntos de dados de treinamento para IA/ML. Imagine que você tenha um conjunto de dados de vários terabytes para treinar um modelo de linguagem grande (LLM) armazenado em um bucket do Cloud Storage. O job de treinamento é executado no GKE e requer alto desempenho de E/S. Em vez de copiar os dados manualmente, você pode usar o Volume Populator do GKE para provisionar automaticamente um volume do Parallelstore ou do Hyperdisk ML e preenchê-lo com o conjunto de dados do Cloud Storage quando o PVC for criado. Esse processo automatizado ajuda a garantir que os pods de treinamento comecem com acesso imediato e de alta velocidade aos dados.
Confira mais alguns exemplos de onde você pode usar o Volume Populator do GKE:
- Pré-armazenamento em cache de pesos e recursos de modelos de IA/ML do Cloud Storage em volumes do Hyperdisk ML para acelerar os tempos de carregamento de modelos para veiculação de inferência.
- Migração de dados do Cloud Storage para volumes permanentes de aplicativos com estado que exigem acesso ao disco de desempenho.
A seguir
- Automatizar a transferência de dados para o Parallelstore usando o Volume Populator do GKE.
- Automatizar a transferência de dados para o Hyperdisk ML usando o Volume Populator do GKE.
- Solução de problemas de transferência de dados do Volume Populator do GKE.