Sobre o GKE Volume Populator

O Volume Populator do Google Kubernetes Engine (GKE) ajuda a automatizar e simplificar o processo de pré-carregamento de dados de buckets do Cloud Storage para PersistentVolumeClaims (PVCs) de destino durante o provisionamento dinâmico.

Como o Volume Populator do GKE funciona

O Volume Populator do GKE aproveita o conceito principal do Volume Populator do Kubernetes. Em vez de provisionar um volume vazio, o Volume Populator do GKE permite que um PVC faça referência a um GCPDataSource recurso personalizado. Esse recurso personalizado especifica o bucket de origem do Cloud Storage e as credenciais necessárias.

Ao criar um PVC com um dataSourceRef que aponta para um recurso GCPDataSource, o Volume Populator do GKE inicia a transferência de dados. Ele copia dados do URI do bucket do Cloud Storage especificado para o volume de armazenamento permanente subjacente antes de disponibilizar o volume para seus pods.

Esse processo reduz a necessidade de usar scripts de transferência de dados manuais ou comandos da CLI e automatiza a transferência de grandes conjuntos de dados para volumes permanentes. O Volume Populator do GKE oferece suporte a transferências de dados entre os seguintes tipos de origem e destino:

O Volume Populator do GKE é um componente gerenciado do GKE ativado por padrão nos clusters do Autopilot e Standard. Você interage principalmente com o Volume Populator do GKE pela CLI gcloud e pela CLI kubectl.

Arquitetura

O diagrama a seguir mostra como os dados fluem do armazenamento de origem para o de destino e como o PersistentVolume para o armazenamento de destino é criado usando o Volume Populator do GKE.

  1. Você cria um PVC que faz referência a um GCPDataSource recurso personalizado.
  2. O Volume Populator do GKE detecta o PVC e inicia um job de transferência de dados.
  3. O job de transferência é executado em um pool de nós atual ou um novo é criado se o provisionamento automático de nós estiver ativado.
  4. O job de transferência copia dados do bucket do Cloud Storage especificado no recurso GCPDataSource para o volume de armazenamento de destino.
  5. Após a conclusão da transferência, o PVC é vinculado ao volume de armazenamento de destino, disponibilizando os dados para o pod da carga de trabalho.

Transferência de dados do armazenamento de dados de origem e criação de PV para o armazenamento de destino usando o GKE Volume Populator

Principais benefícios

O Volume Populator do GKE oferece vários benefícios:

  • Preenchimento automático de dados: preencha automaticamente os volumes com dados do Cloud Storage durante o provisionamento, o que ajuda a reduzir a sobrecarga operacional.
  • Portabilidade de dados integrada: mova dados do armazenamento de objetos para sistemas de arquivos de alto desempenho (Parallelstore) ou armazenamento em blocos (Hyperdisk) para ajudar a otimizar o preço ou o desempenho com base nas necessidades da carga de trabalho.
  • Fluxos de trabalho simplificados: reduza a necessidade de jobs de carregamento de dados separados ou intervenção manual para preparar volumes permanentes.
  • Integração com o Identity and Access Management (IAM): use a autenticação baseada no IAM pela Federação de Identidade da Carga de Trabalho para GKE para ajudar a garantir a transferência segura de dados com controle de acesso refinado.
  • Cargas de trabalho de IA/ML aceleradas: pré-carregue rapidamente grandes conjuntos de dados, modelos e pesos diretamente no armazenamento de alto desempenho para ajudar a acelerar as tarefas de treinamento e inferência.

Casos de uso do Volume Populator do GKE

Você pode usar o Volume Populator do GKE para carregar grandes conjuntos de dados de treinamento para IA/ML. Imagine que você tenha um conjunto de dados de vários terabytes para treinar um modelo de linguagem grande (LLM) armazenado em um bucket do Cloud Storage. O job de treinamento é executado no GKE e requer alto desempenho de E/S. Em vez de copiar os dados manualmente, você pode usar o Volume Populator do GKE para provisionar automaticamente um volume do Parallelstore ou do Hyperdisk ML e preenchê-lo com o conjunto de dados do Cloud Storage quando o PVC for criado. Esse processo automatizado ajuda a garantir que os pods de treinamento comecem com acesso imediato e de alta velocidade aos dados.

Confira mais alguns exemplos de onde você pode usar o Volume Populator do GKE:

  • Pré-armazenamento em cache de pesos e recursos de modelos de IA/ML do Cloud Storage em volumes do Hyperdisk ML para acelerar os tempos de carregamento de modelos para veiculação de inferência.
  • Migração de dados do Cloud Storage para volumes permanentes de aplicativos com estado que exigem acesso ao disco de desempenho.

A seguir