Execute a inferência em lote com GPUs em tarefas do Cloud Run

Pode executar a inferência em lote com o LLM Llama 3.2-1b da Meta e o vLLM numa tarefa do Cloud Run e, em seguida, escrever os resultados diretamente no Cloud Storage através de montagens de volumes do Cloud Run.

Veja um codelab com instruções passo a passo em Como executar a inferência em lote em tarefas do Cloud Run.