Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Sobre o GKE Volume Populator

Autopilot Standard

O Volume Populator do Google Kubernetes Engine (GKE) ajuda a automatizar e simplificar o processo de pré-carregamento de dados de buckets do Cloud Storage para PersistentVolumeClaims (PVCs) de destino durante o provisionamento dinâmico.

Como o Volume Populator do GKE funciona

O Volume Populator do GKE aproveita o conceito principal do Volume Populator do Kubernetes. Em vez de provisionar um volume vazio, o Volume Populator do GKE permite que um PVC faça referência a um GCPDataSource recurso personalizado. Esse recurso personalizado especifica o bucket de origem do Cloud Storage e as credenciais necessárias.

Ao criar um PVC com um dataSourceRef que aponta para um recurso GCPDataSource, o Volume Populator do GKE inicia a transferência de dados. Ele copia dados do URI do bucket do Cloud Storage especificado para o volume de armazenamento permanente subjacente antes de disponibilizar o volume para seus pods.

Esse processo reduz a necessidade de usar scripts de transferência de dados manuais ou comandos da CLI e automatiza a transferência de grandes conjuntos de dados para volumes permanentes. O Volume Populator do GKE oferece suporte a transferências de dados entre os seguintes tipos de origem e destino:

Cloud Storage para Parallelstore
Cloud Storage para Hyperdisk ML

O Volume Populator do GKE é um componente gerenciado do GKE ativado por padrão nos clusters do Autopilot e Standard. Você interage principalmente com o Volume Populator do GKE pela CLI gcloud e pela CLI kubectl.

Arquitetura

O diagrama a seguir mostra como os dados fluem do armazenamento de origem para o de destino e como o PersistentVolume para o armazenamento de destino é criado usando o Volume Populator do GKE.

Você cria um PVC que faz referência a um GCPDataSource recurso personalizado.
O Volume Populator do GKE detecta o PVC e inicia um job de transferência de dados.
O job de transferência é executado em um pool de nós atual ou um novo é criado se o provisionamento automático de nós estiver ativado.
O job de transferência copia dados do bucket do Cloud Storage especificado no recurso GCPDataSource para o volume de armazenamento de destino.
Após a conclusão da transferência, o PVC é vinculado ao volume de armazenamento de destino, disponibilizando os dados para o pod da carga de trabalho.

Transferência de dados do armazenamento de dados de origem e criação de PV para o armazenamento de destino usando o GKE Volume Populator

Principais benefícios

O Volume Populator do GKE oferece vários benefícios:

Preenchimento automático de dados: preencha automaticamente os volumes com dados do Cloud Storage durante o provisionamento, o que ajuda a reduzir a sobrecarga operacional.
Portabilidade de dados integrada: mova dados do armazenamento de objetos para sistemas de arquivos de alto desempenho (Parallelstore) ou armazenamento em blocos (Hyperdisk) para ajudar a otimizar o preço ou o desempenho com base nas necessidades da carga de trabalho.
Fluxos de trabalho simplificados: reduza a necessidade de jobs de carregamento de dados separados ou intervenção manual para preparar volumes permanentes.
Integração com o Identity and Access Management (IAM): use a autenticação baseada no IAM pela Federação de Identidade da Carga de Trabalho para GKE para ajudar a garantir a transferência segura de dados com controle de acesso refinado.
Cargas de trabalho de IA/ML aceleradas: pré-carregue rapidamente grandes conjuntos de dados, modelos e pesos diretamente no armazenamento de alto desempenho para ajudar a acelerar as tarefas de treinamento e inferência.

Casos de uso do Volume Populator do GKE

Você pode usar o Volume Populator do GKE para carregar grandes conjuntos de dados de treinamento para IA/ML. Imagine que você tenha um conjunto de dados de vários terabytes para treinar um modelo de linguagem grande (LLM) armazenado em um bucket do Cloud Storage. O job de treinamento é executado no GKE e requer alto desempenho de E/S. Em vez de copiar os dados manualmente, você pode usar o Volume Populator do GKE para provisionar automaticamente um volume do Parallelstore ou do Hyperdisk ML e preenchê-lo com o conjunto de dados do Cloud Storage quando o PVC for criado. Esse processo automatizado ajuda a garantir que os pods de treinamento comecem com acesso imediato e de alta velocidade aos dados.

Confira mais alguns exemplos de onde você pode usar o Volume Populator do GKE:

Pré-armazenamento em cache de pesos e recursos de modelos de IA/ML do Cloud Storage em volumes do Hyperdisk ML para acelerar os tempos de carregamento de modelos para veiculação de inferência.
Migração de dados do Cloud Storage para volumes permanentes de aplicativos com estado que exigem acesso ao disco de desempenho.

Sobre o GKE Volume Populator Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Como o Volume Populator do GKE funciona

Arquitetura

Principais benefícios

Casos de uso do Volume Populator do GKE

A seguir

Sobre o GKE Volume Populator