Visão geral dos tutoriais sobre cargas de trabalho de IA

Para ajudar você a executar cargas de trabalho de IA/ML de prova de conceito (POC), esta página oferece uma visão geral dos tutoriais do Hipercomputador de IA que descrevem o processo completo de implantação de modelos de IA comuns em produtos do Google Cloud .

Esses tutoriais são destinados a engenheiros, pesquisadores, administradores e operadores de plataforma, além de especialistas em dados e IA. Para usar esses tutoriais de forma eficaz, é necessário ter um conhecimento básico dos conceitos de aprendizado de máquina e proficiência com os serviços do Google Cloud . A experiência com a implantação e o gerenciamento de modelos de IA também ajuda a entender este conteúdo.

Categorias de tutoriais

Os tutoriais de carga de trabalho de IA são organizados nas seguintes categorias:

  • Executar inferência com vLLM no GKE
  • Executar ajuste de detalhes
  • Executar o treinamento

Executar inferência com vLLM no Google Kubernetes Engine

Estes tutoriais descrevem como implantar e disponibilizar modelos de linguagem grandes (LLMs) para inferência usando o framework de disponibilização vLLM no Google Kubernetes Engine (GKE). Você vai aprender a usar os recursos de orquestração de contêineres do GKE para cargas de trabalho de inferência eficientes. Esses tutoriais abordam o acesso a modelos usando o Hugging Face, a configuração de clusters do GKE (por exemplo, no modo Autopilot), o processamento de credenciais e a implantação de contêineres vLLM para interação com LLMs como Gemma 3, Llama 4 e Qwen3.

Executar ajuste de detalhes

Estes tutoriais descrevem como ajustar LLMs para tarefas específicas em vários tipos de clustersGoogle Cloud , incluindo GKE e Slurm. Por exemplo, é possível ajustar a Gemma 3 em clusters do GKE de vários nós e GPUs (por exemplo, usando instâncias de VM A4 com GPUs NVIDIA B200) e clusters Slurm. Você vai criar imagens de VM personalizadas, configurar redes RDMA e executar jobs de ajuste refinado distribuídos com bibliotecas como Hugging Face Accelerate e FSDP. Alguns tutoriais também abordam o uso de frameworks como o Ray para tarefas relacionadas à visão.

Executar o treinamento

Estes tutoriais descrevem como treinar ou pré-treinar LLMs em clusters de alta performance. Por exemplo, você vai aprender a pré-treinar modelos como o Qwen2 em clusters Slurm de vários nós e várias GPUs com máquinas virtuais A4. Você implanta clusters do Slurm usando o Cluster Toolkit Google Cloud , cria imagens de VM personalizadas, configura instâncias compartilhadas do Filestore, configura redes RDMA de alta velocidade e executa jobs de pré-treinamento distribuídos com o Hugging Face Accelerate.

A seguir

Confira os tutoriais do Hipercomputador de IA: