Use GPUs para executar inferência de IA no Cloud Run. Se você não conhece os conceitos de IA, consulte GPUs para IA. As GPUs são usadas para treinar e executar modelos de IA. Isso pode oferecer um desempenho mais estável com a capacidade de escalonar cargas de trabalho dependendo da utilização geral. Consulte o suporte a GPU para serviços, jobs e pools de workers para saber mais sobre as configurações de GPU.
Tutoriais para serviços
- Executar inferência de LLM em GPUs do Cloud Run com o Gemma 3 e o Ollama
- Executar o Gemma 3 no Cloud Run
- Executar inferência de LLM em GPUs do Cloud Run com vLLM
- Executar o OpenCV no Cloud Run com aceleração de GPU
- Executar inferência de LLM em GPUs do Cloud Run com o Transformers.js do Hugging Face
- Executar inferência de LLM em GPUs do Cloud Run com o TGI do Hugging Face
Tutoriais para jobs
- Ajustar LLMs usando GPUs com jobs do Cloud Run
- Executar inferência em lote usando GPUs em jobs do Cloud Run
- Transcodificação de vídeo acelerada por GPU com FFmpeg em jobs do Cloud Run