Dokumentasi orkestrasi AI/ML di Cloud Run
Cloud Run adalah platform terkelola sepenuhnya yang memungkinkan Anda menjalankan aplikasi dalam container, termasuk workload AI/ML, langsung di infrastruktur Google yang skalabel. Cloud Run menangani infrastruktur untuk Anda, sehingga Anda dapat berfokus pada penulisan kode, bukan menghabiskan waktu untuk mengoperasikan, mengonfigurasi, dan menskalakan resource Cloud Run. Kemampuan Cloud Run menyediakan hal berikut:
- Akselerator hardware: akses dan kelola GPU untuk inferensi dalam skala besar.
- Dukungan framework: berintegrasi dengan framework penayangan model yang sudah Anda kenal dan percayai, seperti Hugging Face, TGI, dan vLLM.
- Platform terkelola: dapatkan semua manfaat platform terkelola untuk mengotomatiskan, menskalakan, dan meningkatkan keamanan seluruh siklus proses AI/ML Anda sekaligus mempertahankan fleksibilitas.
Pelajari tutorial dan praktik terbaik kami untuk melihat cara Cloud Run dapat mengoptimalkan workload AI/ML Anda.
Mulai bukti konsep Anda dengan kredit gratis senilai $300
- Kembangkan dengan model dan alat AI Generatif terbaru kami.
- Dapatkan penggunaan gratis untuk lebih dari 20 produk populer, termasuk Compute Engine dan AI API.
- Tanpa tagihan otomatis, tanpa komitmen.
Terus menjelajahi dengan lebih dari 20 produk yang selalu gratis.
Akses lebih dari 20 produk gratis untuk kasus penggunaan umum, termasuk API AI, VM, data warehouse, dan lainnya.
Referensi dokumentasi
Menjalankan solusi AI
- Konsep
- Konsep
- Petunjuk
- Petunjuk
- Petunjuk
- Tutorial
- Konsep
- Konsep
Inferensi dengan GPU
- Tutorial
- Petunjuk
- Tutorial
- Praktik terbaik
- Tutorial
- Tutorial
- Praktik terbaik
- Praktik terbaik
Memecahkan masalah
- Konsep
- Petunjuk
- Petunjuk
- Petunjuk
Referensi terkait
Jalankan aplikasi inferensi AI Anda di Cloud Run dengan GPU NVIDIA
Gunakan GPU NVIDIA L4 di Cloud Run untuk inferensi AI real-time, termasuk manfaat mulai dingin yang cepat dan penskalaan ke nol untuk Model Bahasa Besar (LLM).
Cloud Run: cara tercepat untuk mendapatkan aplikasi AI Anda ke produksi
Pelajari cara menggunakan Cloud Run untuk aplikasi AI yang siap produksi. Panduan ini menjelaskan kasus penggunaan seperti pembagian traffic untuk perintah pengujian A/B, pola RAG (Retrieval-Augmented Generation), dan konektivitas ke penyimpanan vektor.
Deployment AI yang mudah: Deploy aplikasi Anda ke Cloud Run dari AI Studio atau agen AI yang kompatibel dengan MCP
Deployment sekali klik dari Google AI Studio ke server Cloud Run dan Cloud Run MCP (Model Context Protocol) untuk mengaktifkan agen AI di IDE atau SDK agen dan men-deploy aplikasi.
Mempercepat Cloud Run dengan performa GPU: Era baru untuk beban kerja AI
Mengintegrasikan GPU NVIDIA L4 dengan Cloud Run untuk penayangan LLM yang hemat biaya. Panduan ini menekankan penskalaan ke nol dan memberikan langkah-langkah deployment untuk model seperti Gemma 2 dengan Ollama.
Masih mengemas model AI dalam container? Lakukan ini di Cloud Run
Lepaskan file model besar dari image container menggunakan Cloud Storage FUSE. Pemisahan meningkatkan waktu build, menyederhanakan update, dan membuat arsitektur penayangan yang lebih skalabel.
Kemas dan deploy model machine learning Anda ke Google Cloud dengan Cog
Gunakan framework Cog yang dioptimalkan untuk penayangan ML guna menyederhanakan pengemasan dan deployment container ke Cloud Run.
Men-deploy & memantau model ML dengan Cloud Run—Ringan, skalabel, dan hemat biaya
Gunakan Cloud Run untuk inferensi ML ringan dan bangun stack pemantauan yang hemat biaya dengan menggunakan layanan GCP native seperti Cloud Logging dan BigQuery.
Men-deploy aplikasi AI generatif Google Cloud di situs dengan Cloud Run
Men-deploy aplikasi Flask sederhana yang memanggil Vertex AI Generative AI API ke layanan Cloud Run yang skalabel.
Men-deploy Gemma langsung dari AI Studio ke Cloud Run
Gunakan kode Python Gemma dari AI Studio dan deploy langsung ke instance Cloud Run, dengan memanfaatkan Secret Manager untuk penanganan kunci API yang aman.