Panduan ini memberikan ringkasan tentang penggunaan Cloud Run untuk menghosting aplikasi, menjalankan inferensi, dan membangun alur kerja AI.
Cloud Run untuk menghosting aplikasi AI, agen, dan endpoint API yang skalabel
Cloud Run menyediakan platform terkelola sepenuhnya yang menskalakan aplikasi dan workload AI Anda.
Saat menghosting aplikasi AI di Cloud Run, Anda biasanya memiliki komponen arsitektur berikut:
- Penayangan dan pengaturan alur kerja: Anda men-deploy kode atau container aplikasi ke Cloud Run.
- Model AI: Anda menggunakan model AI Google, model open source, atau model kustom dengan aplikasi Anda.
- Integrasi: Anda dapat terhubung ke Google Cloud layanan atau layanan pihak ketiga untuk memori, database, penyimpanan, keamanan, dan lainnya.
- Alat: Anda dapat terhubung ke alat untuk tugas dan operasi lainnya.
Diagram berikut menunjukkan ringkasan tingkat tinggi tentang penggunaan Cloud Run sebagai platform hosting untuk aplikasi AI:
Seperti yang ditunjukkan dalam diagram:
Dalam lapisan penayangan dan orkestrasi, layanan Cloud Run bertindak sebagai endpoint API yang skalabel untuk logika inti aplikasi Anda. Layanan ini secara efisien mengelola beberapa pengguna serentak melalui penskalaan instance yang otomatis, sesuai permintaan, dan cepat.
Anda membawa container untuk di-deploy ke Cloud Run. Anda dapat mengemas aplikasi dan dependensinya ke dalam container, atau memberikan kode sumber dan membiarkan Cloud Run secara otomatis membangun kode Anda ke dalam container untuk deployment. Untuk deployment kode sumber, Anda dapat menggunakan bahasa, framework terbuka, atau SDK apa pun untuk membangun aplikasi AI Anda.
Aplikasi AI Anda berfungsi sebagai endpoint API yang skalabel yang menangani permintaan masuk dan mengirimkan data ke model AI terlatih untuk diproses, lalu menampilkan hasilnya.
Cloud Run terintegrasi dengan model Google, seperti model Gemini dan Vertex AI, serta dapat terintegrasi dengan model open source, seperti Llama dan Gemma. Jika memiliki model kustom yang telah Anda latih sendiri, Anda juga dapat menggunakan model tersebut dengan resource Cloud Run.
Google Cloud menawarkan berbagai solusi untuk mendukung infrastruktur aplikasi AI Anda. Beberapa Google Cloud integrasi yang berfungsi dengan baik untuk aplikasi AI Anda meliputi:
- Memori dan database
- Jangka pendek
- Memorystore adalah layanan penyimpanan cache dan pengelolaan data sementara yang sering diakses yang menyediakan cache eksternal dan cepat untuk penyimpanan data jangka pendek.
- Jangka panjang
- AlloyDB untuk PostgreSQL
adalah database yang kompatibel dengan PostgreSQL yang didesain untuk workload
transaksional dan analitis yang menuntut performa tinggi. Indeks ini menawarkan pembuatan embedding vektor bawaan dan indeks vektor berkecepatan tinggi, sehingga penelusuran semantik menjadi lebih cepat dibandingkan penerapan
pgvectorstandar. - Cloud SQL adalah layanan database relasional untuk MySQL, PostgreSQL, dan SQL Server yang juga dapat berfungsi sebagai penyimpanan vektor dengan ekstensi
pgvectoruntuk PostgreSQL. - Firestore adalah layanan database dokumen NoSQL yang skalabel dan mencakup kemampuan penelusuran vektor bawaan.
- AlloyDB untuk PostgreSQL
adalah database yang kompatibel dengan PostgreSQL yang didesain untuk workload
transaksional dan analitis yang menuntut performa tinggi. Indeks ini menawarkan pembuatan embedding vektor bawaan dan indeks vektor berkecepatan tinggi, sehingga penelusuran semantik menjadi lebih cepat dibandingkan penerapan
- Jangka pendek
- Penyimpanan
- Cloud Storage adalah solusi penyimpanan objek untuk menyimpan set data besar untuk pelatihan model, file input/output untuk aplikasi Anda, atau artefak model.
- Keamanan
- Secret Manager adalah layanan pengelolaan kredensial dan rahasia yang menyediakan cara yang aman dan terpusat untuk menyimpan data sensitif seperti kunci API, sandi, dan kredensial, yang sering kali diperlukan agar aplikasi AI dapat berinteraksi dengan layanan eksternal.
Untuk mempelajari lebih lanjut, lihat Menghubungkan ke layanan Google Cloud .
- Memori dan database
Alat memungkinkan aplikasi dan model AI Anda berinteraksi dengan layanan, API, atau situs yang berjalan secara eksternal atau di Cloud Run.
Misalnya, jika aplikasi AI Anda adalah agen AI, agen Anda mungkin mengirim permintaan ke server MCP untuk mengeksekusi alat eksternal, atau menggunakan alat yang berjalan di penampung Anda, seperti eksekusi kode, penggunaan komputer, pengambilan informasi, dan sebagainya.
Meng-hosting model di Cloud Run untuk inferensi AI
Selain membuat aplikasi dan agen yang menggunakan model bahasa besar (LLM), Anda juga dapat mengaktifkan GPU dengan Cloud Run untuk menjalankan model yang telah dilatih sebelumnya atau model kustom yang di-deploy sendiri untuk inferensi AI.
GPU Cloud Run memungkinkan penanganan sejumlah besar operasi yang diperlukan untuk menjalankan tugas yang membutuhkan komputasi tinggi untuk workload inferensi AI. Deploy model AI sebagai image container atau dari kode sumber dan gunakan berbagai metode untuk men-deploy resource Cloud Run Anda.