Para ajudar você a executar cargas de trabalho de IA/ML de prova de conceito (POC), esta página oferece uma visão geral dos tutoriais do Hipercomputador de IA que descrevem o processo completo de implantação de modelos comuns de IA em Google Cloud produtos.
Esses tutoriais são destinados a engenheiros de machine learning (ML), pesquisadores, administradores e operadores de plataforma e especialistas em dados e IA. Para usar estes tutoriais de maneira eficaz, é necessário ter um conhecimento básico dos conceitos de machine learning e proficiência em Google Cloud serviços. A experiência com a implantação e o gerenciamento de modelos de IA também ajuda a entender esse conteúdo.
Categorias de tutoriais
Os tutoriais de carga de trabalho de IA são organizados nas seguintes categorias:
Executar inferência com vLLM no GKE
Esses tutoriais descrevem como implantar e disponibilizar modelos de linguagem grandes (LLMs) para inferência usando o framework de disponibilização vLLM no Google Kubernetes Engine (GKE). Você aprende a usar os recursos de orquestração de contêineres do GKE para cargas de trabalho de inferência eficientes. Esses tutoriais abordam o acesso a modelos usando o Hugging Face, a configuração de clusters do GKE (por exemplo, no modo Autopilot), o processamento de credenciais e a implantação de contêineres vLLM para interação com LLMs, como Gemma 3, Llama 4 e Qwen3.
Executar ajuste de detalhes
Esses tutoriais descrevem como ajustar LLMs para tarefas específicas em vários Google Cloud tipos de cluster, incluindo GKE e Slurm. Por exemplo, é possível ajustar o Gemma 3 em clusters GKE de vários nós e várias GPUs (por exemplo, usando instâncias de VM A4 com GPUs NVIDIA B200 ) e clusters Slurm. Você vai criar imagens de VM personalizadas, configurar redes RDMA e executar jobs de ajuste distribuídos com bibliotecas como Hugging Face Accelerate e FSDP. Alguns tutoriais também abordam o uso de frameworks como o Ray para tarefas relacionadas à visão.
Executar treinamento
Esses tutoriais descrevem como treinar ou pré-treinar LLMs em clusters de alta performance. Por exemplo, você aprende a pré-treinar modelos como o Qwen2 em clusters Slurm de vários nós e várias GPUs com máquinas virtuais A4. Você implanta clusters Slurm usando o Google Cloud Cluster Toolkit, cria imagens de VM personalizadas , configura instâncias compartilhadas do Filestore, configura redes RDMA de alta velocidade e executa jobs de pré-treinamento distribuídos com o Hugging Face Accelerate.
A seguir
Confira os tutoriais do Hipercomputador de IA:
- Usar o vLLM no GKE para disponibilizar a inferência do Gemma 3 27B
- Ajustar o Gemma 3 em um cluster do GKE A4
- Treinar o Qwen2 em um cluster Slurm A4
- Disponibilizar o Qwen2-72B com o vLLM em TPUs