Esta página foi traduzida pela API Cloud Translation.

Execute a inferência em lote com GPUs em tarefas do Cloud Run

Pode executar a inferência em lote com o LLM Llama 3.2-1b da Meta e o vLLM numa tarefa do Cloud Run e, em seguida, escrever os resultados diretamente no Cloud Storage através de montagens de volumes do Cloud Run.

Consulte um codelab com instruções passo a passo em Como executar a inferência em lote em tarefas do Cloud Run.

Exceto em caso de indicação contrária, o conteúdo desta página é licenciado de acordo com a Licença de atribuição 4.0 do Creative Commons, e as amostras de código são licenciadas de acordo com a Licença Apache 2.0. Para mais detalhes, consulte as políticas do site do Google Developers. Java é uma marca registrada da Oracle e/ou afiliadas.

Última atualização 2025-12-04 UTC.

Execute a inferência em lote com GPUs em tarefas do Cloud Run Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Execute a inferência em lote com GPUs em tarefas do Cloud Run