Exécuter une inférence par lot à l'aide de GPU dans des jobs Cloud Run

Vous pouvez exécuter l'inférence par lot avec le LLM Llama 3.2-1b de Meta et vLLM sur un job Cloud Run, puis écrire les résultats directement dans Cloud Storage à l'aide des montages de volumes Cloud Run.

Consultez l'atelier de programmation pas à pas Exécuter l'inférence par lot sur les jobs Cloud Run.