Batch-Inferenzen mit GPUs in Cloud Run-Jobs ausführen

Sie können die Batch-Inferenz mit dem LLM Llama 3.2-1b von Meta und vLLM in einem Cloud Run-Job ausführen und die Ergebnisse dann mit Cloud Run-Volume-Bereitstellungen direkt in Cloud Storage schreiben.

Ein detailliertes Codelab finden Sie unter Batchinferenz für Cloud Run-Jobs ausführen.

Sofern nicht anders angegeben, sind die Inhalte dieser Seite unter der Creative Commons Attribution 4.0 License und Codebeispiele unter der Apache 2.0 License lizenziert. Weitere Informationen finden Sie in den Websiterichtlinien von Google Developers. Java ist eine eingetragene Marke von Oracle und/oder seinen Partnern.

Zuletzt aktualisiert: 2026-03-03 (UTC).