Use GPUs para executar a inferência de IA no Cloud Run. Se não conhece os conceitos de IA, consulte o artigo GPUs para IA. As GPUs são usadas para preparar e executar modelos de IA. Isto pode dar-lhe um desempenho mais estável com a capacidade de dimensionar as cargas de trabalho consoante a sua utilização geral. Consulte o suporte de GPU para serviços, tarefas e pools de trabalhadores para saber mais sobre as configurações de GPU.
Tutoriais para serviços
- Execute a inferência de LLM em GPUs do Cloud Run com o Gemma 3 e o Ollama
- Execute o Gemma 3 no Cloud Run
- Execute a inferência de LLM em GPUs do Cloud Run com o vLLM
- Execute o OpenCV no Cloud Run com aceleração da GPU
- Execute a inferência de LLM em GPUs do Cloud Run com o Hugging Face Transformers.js
- Execute a inferência de LLM em GPUs do Cloud Run com o TGI do Hugging Face
Tutoriais para tarefas
- Ajuste os MDIs com GPUs usando tarefas do Cloud Run
- Execute a inferência em lote com GPUs em tarefas do Cloud Run
- Transcodificação de vídeo acelerada por GPU com FFmpeg em tarefas do Cloud Run