Vista geral dos clusters de preparação do Vertex AI

Se tiver interesse em clusters de preparação do Vertex AI, contacte o seu representante de vendas para aceder.

Os clusters de preparação do Vertex AI são um serviço concebido para simplificar e acelerar as cargas de trabalho de IA/ML mais complexas e de maior dimensão. Google Cloud Foi criada especificamente para resolver desafios na formação em grande escala, como a configuração complexa de clusters, a otimização de frameworks, o processamento de falhas de hardware e a integração de conjuntos de ferramentas díspares.

Proposta de valor e funcionalidades essenciais

O serviço de desenvolvimento de modelos oferece várias vantagens essenciais:

  • Experiência do utilizador do Slurm de código aberto e transparência do cluster: Os clusters de preparação do Vertex AI oferecem ferramentas familiares e flexíveis para iniciar e gerir tarefas através de uma experiência do utilizador do Slurm de código aberto. O Slurm é uma norma da indústria conhecida pelo agendamento otimizado de GPUs, tolerância a falhas automatizada e lançamento de tarefas paralelas simplificado.

  • Configuração e configuração automatizadas de clusters: Os clusters de preparação do Vertex AI automatizam a configuração e configuração de clusters, com o objetivo de fazer a transição da reserva para a preparação de produção em horas. Os utilizadores podem criar clusters através da Google Cloud consola (com arquiteturas de referência ou configuração passo a passo) ou através de chamadas API com ficheiros JSON.

  • Receitas e fluxos de trabalho de ciência de dados pré-configurados: Os clusters de preparação do Vertex AI incluem ferramentas criadas especificamente e receitas de preparação otimizadas para iniciar rapidamente a preparação para exemplos de utilização populares, como os modelos Llama e Gemma, que abrangem a pré-preparação, a SFT (ajuste fino supervisionado) e a aprendizagem por reforço (RL). Estas receitas estão pré-configuradas para o desempenho de última geração (SOTA) na Google Cloud infraestrutura, demonstrando ganhos de desempenho significativos.

  • Resiliência do hardware e elevada disponibilidade: Os clusters de preparação do Vertex AI foram concebidos com resiliência do hardware para aumentar a disponibilidade do cluster. Resolve automaticamente problemas de hardware, deteta e tria vários modos de falha (por exemplo, verificações de correção, verificações de velocidade, erros de código de correção de erros [ECC], verificações do NVIDIA Data Center GPU Manager [DCGM], capacidade de espaço em disco) e aciona ações de correção, como reiniciar, voltar a criar imagens ou substituir nós com falhas, e retomar a partir de pontos de verificação. Isto ajuda a mitigar o aumento significativo dos custos e os atrasos causados por interrupções de tarefas e falhas de hardware no treino em grande escala.

  • Arquitetura e componentes: Os clusters de preparação da Vertex AI são executados na infraestrutura do Compute Engine que suporta GPUs e CPUs. Tira partido de um orquestrador Slurm gerido para implementar e gerir nós de computação, incluindo nós de início de sessão e de trabalho. O serviço integra-se com outros Google Cloud serviços, como redes e armazenamento.

  • MLOps e observabilidade: integra-se com ferramentas de MLOps do Vertex, como o registo de modelos do Vertex AI para registo, acompanhamento e controlo de versões automáticos de fluxos de trabalho preparados, e a inferência do Vertex AI para implementação com escalabilidade automática e métricas automatizadas. Os clusters de preparação também incluem a integração automática de observabilidade com o Vertex AI TensorBoard para visualizar processos de preparação, acompanhar métricas e identificar problemas antecipadamente.

Os clusters de preparação podem ser criados, obtidos, listados, atualizados e eliminados através da API Vertex AI training clusters. Após a criação do cluster, os utilizadores podem validar a respetiva funcionalidade iniciando sessão nos nós, executando comandos básicos do Slurm (por exemplo, sinfo, sbatch) e executando cargas de trabalho relacionadas com a GPU (por exemplo, nvidia-smi). A ferramenta Cluster Health Scanner (CHS) está pré-instalada para executar diagnósticos, como testes DCGM e NCCL, para verificar a disponibilidade do cluster.

Os clusters de preparação do Vertex AI oferecem uma API para iniciar tarefas de GML pré-criadas através de receitas otimizadas para modelos como o Llama e o Gemma, que suportam a pré-preparação e a pré-preparação contínua a partir de pontos de verificação. A monitorização de tarefas é possível iniciando sessão no nó de início de sessão e examinando os ficheiros de saída e os comandos do Slurm, como squeue.

Terminologia

Esta secção fornece definições de termos e conceitos importantes essenciais para compreender e usar eficazmente os clusters de preparação da Vertex AI. Estes termos abrangem os componentes essenciais do serviço, as considerações arquitetónicas, as tecnologias de armazenamento integradas e os conceitos fundamentais de aprendizagem automática (ML) e MLOps que sustentam o seu ambiente de preparação.

Conceitos de serviços principais

node
  • Uma única máquina virtual (instância do Compute Engine) num cluster. No contexto da preparação gerida em clusters reservados, um nó refere-se a uma máquina virtual (VM) individual que funciona como uma única unidade de computação no seu cluster. Pense nele como uma das máquinas de trabalho dedicadas que executa uma parte da sua tarefa de preparação geral. Cada nó está equipado com recursos específicos, como CPU, memória e aceleradores (por exemplo, GPUs A3 ou A4), e todos funcionam em conjunto de forma coordenada para processar tarefas de preparação distribuídas em grande escala.
login node
  • Um nó de início de sessão é o ponto de entrada principal para um utilizador aceder ao cluster, enviar tarefas e gerir ficheiros. Para mais informações, consulte o artigo O que é a computação de alto desempenho?.
partição
  • No Slurm, um agrupamento lógico de nós, frequentemente usado para separar nós com configurações de hardware diferentes.
receita
  • No contexto da preparação gerida, uma receita é um pacote abrangente e reutilizável que contém tudo o que é necessário para executar uma carga de trabalho de preparação específica em grande escala.
Cluster Slurm
  • Uma coleção de instâncias do Compute Engine, geridas pelo Slurm, que inclui um nó de início de sessão e vários nós de trabalho configurados para executar tarefas de preparação. Para mais informações, consulte o artigo Gestor de carga de trabalho Slurm.
nó trabalhador
  • Um nó de trabalho refere-se a uma máquina individual ou a uma instância computacional num cluster responsável pela execução de tarefas ou pela realização de trabalho. Em sistemas como clusters do Kubernetes ou do Ray, os nós são as unidades fundamentais de computação. Para mais informações, consulte o artigo O que é a computação de alto desempenho (HPC)?.

Arquitetura e redes

rede VPC do consumidor
  • Uma rede VPC de consumidor é uma nuvem virtual privada (VPC) do Google Cloud que acede de forma privada a um serviço alojado noutra VPC (conhecida como VPC de produtor). Para mais informações, consulte o Private Service Connect.
Unidade de transmissão máxima (MTU)
  • O tamanho máximo de um pacote de dados que um dispositivo ligado à rede pode transmitir. Os tamanhos de MTU maiores (frames jumbo) podem melhorar o desempenho da rede para determinadas cargas de trabalho. Para mais informações, consulte o artigo Unidade de transmissão máxima.
acesso a serviços privados
  • O acesso privado aos serviços é uma ligação privada entre a sua rede da nuvem virtual privada (VPC) e as redes pertencentes à Google ou a fornecedores de serviços de terceiros. Permite que as instâncias de máquinas virtuais (VMs) na sua rede VPC comuniquem com estes serviços através de endereços IP internos, evitando a exposição à Internet pública. Para mais informações, consulte o artigo Acesso a serviços privados.
Intercâmbio da rede da VPC
  • Uma ligação de rede que permite que duas redes da VPC comuniquem de forma privada. No contexto da preparação gerida em clusters reservados, a interligação de redes VPC é um componente essencial para a integração de serviços essenciais. Por exemplo, é o método necessário para ligar a VPC do cluster a uma instância do Filestore, que fornece o diretório `/home` partilhado necessário para todos os nós no cluster.
zona
  • Uma área de implementação específica numa região do Google Cloud. No contexto da preparação gerida em clusters reservados, para um melhor desempenho, todos os componentes do serviço (o cluster, o Filestore e as instâncias do Lustre gerido) devem ser criados na mesma zona.

Tecnologias de armazenamento integradas

Cloud Storage Fuse
  • Um adaptador FUSE de código aberto que lhe permite montar segmentos do Cloud Storage como um sistema de ficheiros em sistemas Linux ou macOS. Para mais informações, consulte o Cloud Storage Fuse.
Filestore
  • Um serviço de armazenamento de ficheiros de elevado desempenho totalmente gerido do Google Cloud, frequentemente usado para aplicações que requerem um sistema de ficheiros partilhado. Para mais informações, consulte o artigo Vista geral do Filestore.
Managed Lustre
  • Um sistema de ficheiros distribuído e paralelo concebido para computação de alto desempenho. O Lustre gerido do Google Cloud oferece um sistema de ficheiros de elevado débito para cargas de trabalho exigentes. Para mais informações, consulte o artigo Vista geral do Lustre gerido.
nível de desempenho
  • Uma definição de configuração para uma instância do Lustre gerida que define a respetiva velocidade de débito (em MBps por TiB) e afeta a respetiva capacidade mínima e máxima.

Conceitos principais de ML e MLOps

checkpoint
  • Dados que captam o estado dos parâmetros de um modelo durante a preparação ou após a conclusão da preparação. Por exemplo, durante a preparação, pode: 1. Parar a preparação, talvez intencionalmente ou como resultado de determinados erros. 2. Capture o ponto de restauro. 3. Mais tarde, recarregue o ponto de verificação, possivelmente num hardware diferente. 4. Reiniciar formação. No Gemini, um ponto de verificação refere-se a uma versão específica de um modelo Gemini preparado num conjunto de dados específico.
Ajuste fino supervisionado (SFT)
  • Uma técnica de aprendizagem automática em que um modelo pré-preparado é preparado adicionalmente num conjunto de dados etiquetado mais pequeno para o adaptar a uma tarefa específica.
Vertex AI Inference
Registo de modelos do Vertex AI
  • O Registo de modelos Vertex AI é um repositório central onde pode gerir o ciclo de vida dos seus modelos de ML. A partir do Registo de modelos do Vertex AI, tem uma vista geral dos seus modelos para poder organizar, monitorizar e preparar melhor novas versões. Quando tiver uma versão do modelo que quer implementar, pode atribuí-la a um ponto final diretamente a partir do registo ou, através de aliases, implementar modelos num ponto final. Para mais informações, consulte o artigo Introdução ao Registo de modelos da Vertex AI.
Vertex AI TensorBoard
  • O Vertex AI TensorBoard é um serviço gerido e escalável no Google Cloud que permite aos cientistas de dados e aos engenheiros de ML visualizar as respetivas experiências de aprendizagem automática, depurar a preparação de modelos e acompanhar as métricas de desempenho através da interface familiar de código aberto do TensorBoard. Integra-se perfeitamente com o Vertex AI Training e outros serviços, oferecendo armazenamento persistente para dados de experiências e permitindo a análise colaborativa do desenvolvimento de modelos. Para mais informações, consulte o artigo Introdução ao Vertex AI TensorBoard.