Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Visão geral dos tutoriais sobre cargas de trabalho de IA

Para ajudar você a executar cargas de trabalho de IA/ML de prova de conceito (POC), esta página oferece uma visão geral dos tutoriais do Hipercomputador de IA que descrevem o processo completo de implantação de modelos comuns de IA em Google Cloud produtos.

Esses tutoriais são destinados a engenheiros de machine learning (ML), pesquisadores, administradores e operadores de plataforma e especialistas em dados e IA. Para usar estes tutoriais de maneira eficaz, é necessário ter um conhecimento básico dos conceitos de machine learning e proficiência em Google Cloud serviços. A experiência com a implantação e o gerenciamento de modelos de IA também ajuda a entender esse conteúdo.

Categorias de tutoriais

Os tutoriais de carga de trabalho de IA são organizados nas seguintes categorias:

Executar inferência com vLLM no GKE
Executar ajuste de detalhes
Executar treinamento

Executar inferência com vLLM no GKE

Esses tutoriais descrevem como implantar e disponibilizar modelos de linguagem grandes (LLMs) para inferência usando o framework de disponibilização vLLM no Google Kubernetes Engine (GKE). Você aprende a usar os recursos de orquestração de contêineres do GKE para cargas de trabalho de inferência eficientes. Esses tutoriais abordam o acesso a modelos usando o Hugging Face, a configuração de clusters do GKE (por exemplo, no modo Autopilot), o processamento de credenciais e a implantação de contêineres vLLM para interação com LLMs, como Gemma 3, Llama 4 e Qwen3.

Executar ajuste de detalhes

Esses tutoriais descrevem como ajustar LLMs para tarefas específicas em vários Google Cloud tipos de cluster, incluindo GKE e Slurm. Por exemplo, é possível ajustar o Gemma 3 em clusters GKE de vários nós e várias GPUs (por exemplo, usando instâncias de VM A4 com GPUs NVIDIA B200 ) e clusters Slurm. Você vai criar imagens de VM personalizadas, configurar redes RDMA e executar jobs de ajuste distribuídos com bibliotecas como Hugging Face Accelerate e FSDP. Alguns tutoriais também abordam o uso de frameworks como o Ray para tarefas relacionadas à visão.

Executar treinamento

Esses tutoriais descrevem como treinar ou pré-treinar LLMs em clusters de alta performance. Por exemplo, você aprende a pré-treinar modelos como o Qwen2 em clusters Slurm de vários nós e várias GPUs com máquinas virtuais A4. Você implanta clusters Slurm usando o Google Cloud Cluster Toolkit, cria imagens de VM personalizadas , configura instâncias compartilhadas do Filestore, configura redes RDMA de alta velocidade e executa jobs de pré-treinamento distribuídos com o Hugging Face Accelerate.

A seguir

Confira os tutoriais do Hipercomputador de IA:

Visão geral dos tutoriais sobre cargas de trabalho de IA Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.