Dokumentasi orkestrasi AI/ML di Cloud Run

Cloud Run adalah platform terkelola sepenuhnya yang memungkinkan Anda menjalankan aplikasi dalam container, termasuk workload AI/ML, langsung di infrastruktur Google yang skalabel. Cloud Run menangani infrastruktur untuk Anda, sehingga Anda dapat berfokus pada penulisan kode, bukan menghabiskan waktu untuk mengoperasikan, mengonfigurasi, dan menskalakan resource Cloud Run. Kemampuan Cloud Run menyediakan hal berikut:

  • Akselerator hardware: akses dan kelola GPU untuk inferensi dalam skala besar.
  • Dukungan framework: berintegrasi dengan framework penayangan model yang sudah Anda kenal dan percayai, seperti Hugging Face, TGI, dan vLLM.
  • Platform terkelola: dapatkan semua manfaat platform terkelola untuk mengotomatiskan, menskalakan, dan meningkatkan keamanan seluruh siklus proses AI/ML Anda sekaligus mempertahankan fleksibilitas.

Pelajari tutorial dan praktik terbaik kami untuk melihat cara Cloud Run dapat mengoptimalkan workload AI/ML Anda.

  • Kembangkan dengan model dan alat AI Generatif terbaru kami.
  • Dapatkan penggunaan gratis untuk lebih dari 20 produk populer, termasuk Compute Engine dan AI API.
  • Tanpa tagihan otomatis, tanpa komitmen.

Terus menjelajahi dengan lebih dari 20 produk yang selalu gratis.

Akses lebih dari 20 produk gratis untuk kasus penggunaan umum, termasuk API AI, VM, data warehouse, dan lainnya.

Pelajari pelatihan mandiri, kasus penggunaan, arsitektur referensi, dan contoh kode dengan contoh cara menggunakan dan menghubungkan Google Cloud layanan.
Kasus penggunaan
Kasus penggunaan

Gunakan GPU NVIDIA L4 di Cloud Run untuk inferensi AI real-time, termasuk manfaat mulai dingin yang cepat dan penskalaan ke nol untuk Model Bahasa Besar (LLM).

GPU LLM

Kasus penggunaan
Kasus penggunaan

Pelajari cara menggunakan Cloud Run untuk aplikasi AI yang siap produksi. Panduan ini menjelaskan kasus penggunaan seperti pembagian traffic untuk perintah pengujian A/B, pola RAG (Retrieval-Augmented Generation), dan konektivitas ke penyimpanan vektor.

Aplikasi AI pemisahan traffic untuk pengujian A/B pola RAG penyimpanan vektor konektivitas ke penyimpanan vektor

Kasus penggunaan
Kasus penggunaan

Deployment sekali klik dari Google AI Studio ke server Cloud Run dan Cloud Run MCP (Model Context Protocol) untuk mengaktifkan agen AI di IDE atau SDK agen dan men-deploy aplikasi.

Server MCP deployment Cloud Run

Kasus penggunaan
Kasus penggunaan

Mengintegrasikan GPU NVIDIA L4 dengan Cloud Run untuk penayangan LLM yang hemat biaya. Panduan ini menekankan penskalaan ke nol dan memberikan langkah-langkah deployment untuk model seperti Gemma 2 dengan Ollama.

LLM GPU Ollama Pengoptimalan Biaya

Kasus penggunaan
Kasus penggunaan

Lepaskan file model besar dari image container menggunakan Cloud Storage FUSE. Pemisahan meningkatkan waktu build, menyederhanakan update, dan membuat arsitektur penayangan yang lebih skalabel.

Pengemasan Model Cloud Storage FUSE Praktik Terbaik Model Besar

Kasus penggunaan
Kasus penggunaan

Gunakan framework Cog yang dioptimalkan untuk penayangan ML guna menyederhanakan pengemasan dan deployment container ke Cloud Run.

Cog Pengemasan Model Deployment Tutorial

Kasus penggunaan
Kasus penggunaan

Gunakan Cloud Run untuk inferensi ML ringan dan bangun stack pemantauan yang hemat biaya dengan menggunakan layanan GCP native seperti Cloud Logging dan BigQuery.

Pemantauan MLOps Efisiensi Biaya Inferensi

Kasus penggunaan
Kasus penggunaan

Men-deploy aplikasi Flask sederhana yang memanggil Vertex AI Generative AI API ke layanan Cloud Run yang skalabel.

Generative AI Vertex AI Flask Deployment

Kasus penggunaan
Kasus penggunaan

Gunakan kode Python Gemma dari AI Studio dan deploy langsung ke instance Cloud Run, dengan memanfaatkan Secret Manager untuk penanganan kunci API yang aman.

AI Studio Gemma Deployment Tutorial

Video terkait