Executar inferência de IA no Cloud Run com GPUs

Use GPUs para executar inferência de IA no Cloud Run. Se você não conhece os conceitos de IA, consulte GPUs para IA. As GPUs são usadas para treinar e executar modelos de IA. Isso pode oferecer um desempenho mais estável com a capacidade de escalonar cargas de trabalho dependendo da utilização geral. Consulte o suporte a GPU para serviços, jobs e pools de workers para saber mais sobre as configurações de GPU.

Tutoriais para serviços

Executar inferência de LLM em GPUs do Cloud Run com o Gemma 3 e o Ollama
Executar o Gemma 3 no Cloud Run
Executar inferência de LLM em GPUs do Cloud Run com vLLM
Executar o OpenCV no Cloud Run com aceleração de GPU
Executar inferência de LLM em GPUs do Cloud Run com o Transformers.js do Hugging Face
Executar inferência de LLM em GPUs do Cloud Run com o TGI do Hugging Face

Tutoriais para jobs

Ajustar LLMs usando GPUs com jobs do Cloud Run
Executar inferência em lote usando GPUs em jobs do Cloud Run
Transcodificação de vídeo acelerada por GPU com FFmpeg em jobs do Cloud Run

Executar inferência de IA no Cloud Run com GPUs Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Tutoriais para serviços

Tutoriais para jobs

Executar inferência de IA no Cloud Run com GPUs