Cette page a été traduite par l'API Cloud Translation.

Exécuter une inférence par lot à l'aide de GPU dans des jobs Cloud Run

Vous pouvez exécuter l'inférence par lot avec le LLM Llama 3.2-1b de Meta et vLLM sur un job Cloud Run, puis écrire les résultats directement dans Cloud Storage à l'aide des montages de volumes Cloud Run.

Pour suivre un atelier de programmation pas à pas, consultez Exécuter l'inférence par lot sur des jobs Cloud Run.

Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.

Dernière mise à jour le 2025/12/04 (UTC).

Exécuter une inférence par lot à l'aide de GPU dans des jobs Cloud Run Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Exécuter une inférence par lot à l'aide de GPU dans des jobs Cloud Run