Para ajudar você a executar cargas de trabalho de IA/ML de prova de conceito (POC), esta página oferece uma visão geral dos tutoriais do Hipercomputador de IA que descrevem o processo completo de implantação de modelos de IA comuns em produtos do Google Cloud .
Esses tutoriais são destinados a engenheiros, pesquisadores, administradores e operadores de plataforma, além de especialistas em dados e IA. Para usar esses tutoriais de forma eficaz, é necessário ter um conhecimento básico dos conceitos de aprendizado de máquina e proficiência com os serviços do Google Cloud . A experiência com a implantação e o gerenciamento de modelos de IA também ajuda a entender este conteúdo.
Categorias de tutoriais
Os tutoriais de carga de trabalho de IA são organizados nas seguintes categorias:
- Executar inferência com vLLM no GKE
- Executar ajuste de detalhes
- Executar o treinamento
Executar inferência com vLLM no Google Kubernetes Engine
Estes tutoriais descrevem como implantar e disponibilizar modelos de linguagem grandes (LLMs) para inferência usando o framework de disponibilização vLLM no Google Kubernetes Engine (GKE). Você vai aprender a usar os recursos de orquestração de contêineres do GKE para cargas de trabalho de inferência eficientes. Esses tutoriais abordam o acesso a modelos usando o Hugging Face, a configuração de clusters do GKE (por exemplo, no modo Autopilot), o processamento de credenciais e a implantação de contêineres vLLM para interação com LLMs como Gemma 3, Llama 4 e Qwen3.
Executar ajuste de detalhes
Estes tutoriais descrevem como ajustar LLMs para tarefas específicas em vários tipos de clustersGoogle Cloud , incluindo GKE e Slurm. Por exemplo, é possível ajustar a Gemma 3 em clusters do GKE de vários nós e GPUs (por exemplo, usando instâncias de VM A4 com GPUs NVIDIA B200) e clusters Slurm. Você vai criar imagens de VM personalizadas, configurar redes RDMA e executar jobs de ajuste refinado distribuídos com bibliotecas como Hugging Face Accelerate e FSDP. Alguns tutoriais também abordam o uso de frameworks como o Ray para tarefas relacionadas à visão.
Executar o treinamento
Estes tutoriais descrevem como treinar ou pré-treinar LLMs em clusters de alta performance. Por exemplo, você vai aprender a pré-treinar modelos como o Qwen2 em clusters Slurm de vários nós e várias GPUs com máquinas virtuais A4. Você implanta clusters do Slurm usando o Cluster Toolkit Google Cloud , cria imagens de VM personalizadas, configura instâncias compartilhadas do Filestore, configura redes RDMA de alta velocidade e executa jobs de pré-treinamento distribuídos com o Hugging Face Accelerate.
A seguir
Confira os tutoriais do Hipercomputador de IA:
- Usar o vLLM no GKE para disponibilizar a inferência do Gemma 3 27B
- Ajustar o Gemma 3 em um cluster do GKE A4
- Treinar o Qwen2 em um cluster A4 Slurm
- Disponibilizar o Qwen2-72B com vLLM em TPUs