Kasus penggunaan AI di Cloud Run

Baik Anda sedang membangun agen, menjalankan model inferensi, atau berintegrasi dengan berbagai layanan AI, Cloud Run memberikan skalabilitas, fleksibilitas, dan kemudahan penggunaan yang diperlukan untuk mewujudkan inovasi AI Anda.

Halaman ini menyoroti beberapa kasus penggunaan tingkat tinggi untuk menghosting, membangun, dan men-deploy beban kerja AI di Cloud Run.

Mengapa menggunakan Cloud Run untuk beban kerja AI?

Cloud Run menawarkan beberapa keuntungan untuk memastikan aplikasi AI Anda skalabel, fleksibel, dan mudah dikelola. Beberapa sorotan mencakup:

  • Dukungan container yang fleksibel: Kemas aplikasi dan dependensinya dalam container, atau gunakan bahasa, library, atau framework yang didukung. Pelajari lebih lanjut Kontrak runtime container Cloud Run.
  • Endpoint HTTP: Setelah men-deploy layanan Cloud Run, terima endpoint URL Cloud Run yang aman dan siap pakai. Cloud Run menyediakan streaming melalui dukungan encoding transfer terpotong HTTP, HTTP/2, dan WebSockets.
  • Penskalaan otomatis atau manual: Secara default, Cloud Run menskalakan layanan Anda secara otomatis berdasarkan permintaan, bahkan hingga nol. Hal ini memastikan Anda hanya membayar sesuai penggunaan, sehingga ideal untuk workload AI yang tidak dapat diprediksi. Anda juga dapat menyetel layanan ke penskalaan manual berdasarkan kebutuhan traffic dan penggunaan CPU.
  • Dukungan GPU: Percepat model AI Anda dengan mengonfigurasi resource Cloud Run dengan GPU. Layanan Cloud Run dengan GPU yang diaktifkan dapat diskalakan ke nol untuk menghemat biaya saat tidak digunakan.

  • Ekosistem terintegrasi: Terhubung dengan lancar ke layanan Google Cloud lainnya, seperti Vertex AI, BigQuery, Cloud SQL, Memorystore, Pub/Sub, AlloyDB for PostgreSQL, Cloud CDN, Secret Manager, dan domain kustom untuk membangun pipeline AI end-to-end yang komprehensif. Google Cloud Observability juga menyediakan alat pemantauan dan pencatatan log bawaan untuk memahami performa aplikasi dan memecahkan masalah secara efektif.

Kasus penggunaan AI utama

Berikut beberapa cara Anda dapat menggunakan Cloud Run untuk mendukung aplikasi AI:

Menghosting agen dan bot AI

Cloud Run adalah platform yang ideal untuk menghosting logika backend bagi agen AI, chatbot, dan asisten virtual. Agen ini dapat mengatur panggilan ke model AI seperti Gemini di Vertex AI, mengelola status, dan berintegrasi dengan berbagai alat dan API.

  • Microservice untuk agen: Deploy kemampuan agen individual sebagai layanan Cloud Run terpisah. Lihat Menghosting agen AI untuk mempelajari lebih lanjut.
  • Komunikasi Agent2Agent (A2A): Bangun sistem agen kolaboratif menggunakan protokol A2A. Lihat Menghosting agen A2A untuk mempelajari lebih lanjut.
  • Server Model Context Protocol (MCP): Terapkan server MCP untuk memberikan konteks standar ke LLM dari alat dan sumber data Anda. Lihat Server MCP host untuk mempelajari lebih lanjut.

Menyajikan model AI/ML untuk inferensi

Men-deploy model machine learning terlatih Anda sebagai endpoint HTTP yang skalabel.

  • Inferensi real-time: Sajikan prediksi dari model yang dibuat dengan framework seperti TensorFlow, PyTorch, scikit-learn, atau menggunakan model terbuka seperti Gemma. Lihat Menjalankan Gemma 3 di Cloud Run untuk melihat contohnya.
  • Akselerasi GPU: Gunakan GPU NVIDIA untuk mempercepat inferensi model yang lebih berat. Lihat Mengonfigurasi GPU untuk layanan untuk mempelajari lebih lanjut.
  • Integrasi dengan Vertex AI: Sajikan model yang dilatih atau di-deploy di Vertex AI, menggunakan Cloud Run sebagai frontend yang skalabel.
  • Pisahkan file model besar dari container Anda: Adaptor Cloud Storage FUSE memungkinkan Anda memasang bucket Cloud Storage, dan membuatnya dapat diakses sebagai direktori lokal di dalam container Cloud Run Anda.

Membangun sistem Retrieval-Augmented Generation (RAG)

Bangun aplikasi RAG dengan menghubungkan layanan Cloud Run ke sumber data Anda.

  • Database vektor: Terhubung ke database vektor yang dihosting di Cloud SQL (dengan pgvector), AlloyDB untuk PostgreSQL, Memorystore for Redis, atau penyimpanan vektor khusus lainnya untuk mengambil konteks yang relevan bagi LLM Anda. Lihat contoh infrastruktur penggunaan Cloud Run untuk menghosting aplikasi AI generatif berkemampuan RAG dan pemrosesan data menggunakan Vertex AI dan Vector Search.
  • Akses data: Mengambil data dari Cloud Storage, BigQuery, Firestore, atau API lainnya untuk memperkaya perintah.

Menghosting API dan backend yang didukung AI

Buat API dan microservice yang menyematkan kemampuan AI.

  • Smart API: Mengembangkan API yang menggunakan LLM untuk pemahaman bahasa alami, analisis sentimen, terjemahan, ringkasan, dan sebagainya.
  • Alur kerja otomatis: Buat layanan yang memicu tindakan berbasis AI berdasarkan peristiwa atau permintaan.

Membuat prototipe dan bereksperimen dengan ide

Melakukan iterasi ide AI dengan cepat.

  • Deployment cepat: Pindahkan prototipe dengan cepat dari lingkungan seperti Vertex AI Studio, Google AI Studio, atau notebook Jupyter ke deployment yang skalabel di Cloud Run dengan konfigurasi minimal.
  • Pembagian traffic: Gunakan fitur pembagian traffic Cloud Run untuk melakukan pengujian A/B pada berbagai model, perintah, atau konfigurasi, dan Google Cloud Observability untuk memantau metrik (latensi, rasio error, biaya) guna mengukur keberhasilan pengujian A/B.

Langkah berikutnya

Bergantung pada pemahaman Anda tentang konsep AI dan kasus penggunaan AI Anda, pelajari resource AI Cloud Run.