Exécuter une inférence par lot à l'aide de GPU dans des jobs Cloud Run

Vous pouvez exécuter l'inférence par lot avec le LLM Llama 3.2-1b de Meta et vLLM sur un job Cloud Run, puis écrire les résultats directement dans Cloud Storage à l'aide des montages de volumes Cloud Run.

Pour suivre un atelier de programmation pas à pas, consultez Exécuter l'inférence par lot sur des jobs Cloud Run.