Batch-Inferenzen mit GPUs in Cloud Run-Jobs ausführen

Sie können die Batch-Inferenz mit dem LLM Llama 3.2-1b von Meta und vLLM in einem Cloud Run-Job ausführen und die Ergebnisse dann mit Cloud Run-Volume-Bereitstellungen direkt in Cloud Storage schreiben.

Ein detailliertes Codelab finden Sie unter Batchinferenz für Cloud Run-Jobs ausführen.