Dokumen ini memberikan arsitektur tingkat tinggi untuk aplikasi yang menggunakan AI untuk membuat podcast berdasarkan input audio.
Audiens yang dituju untuk dokumen ini mencakup arsitek, developer, dan administrator yang membangun dan mengelola aplikasi AI generatif di cloud untuk industri media dan pemasaran. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman dasar tentang AI generatif.
Bagian Deployment dalam dokumen ini memberikan contoh kode untuk beban kerja AI generatif yang melibatkan format input dan output multimodal.
Arsitektur
Diagram berikut menunjukkan arsitektur untuk aplikasi produser podcast di Google Cloud. Aplikasi ini menggunakan AI untuk membuat podcast dari file audio, seperti komentar live untuk acara olahraga.
Arsitektur ini menampilkan alur berikut:
- Pengguna mengupload file audio ke bucket Cloud Storage.
- Eventarc memicu layanan Cloud Run.
- Layanan Cloud Run mengirimkan file audio ke Speech-to-Text.
- Speech-to-Text menghasilkan transkrip file audio yang diberi stempel waktu.
Layanan Cloud Run mengirimkan transkrip ke Gemini API di Vertex AI, dengan perintah untuk membuat skrip podcast.
Misalnya, perintahnya bisa berupa membuat skrip untuk podcast berdurasi 15 menit tentang sorotan acara olahraga berdasarkan kata kunci tertentu dalam komentar.
Gemini membuat draf skrip podcast.
Layanan Cloud Run mengirimkan draf skrip kepada pengguna.
Pengguna meninjau dan mengedit draf skrip, lalu mengirim skrip akhir ke Text-to-Speech.
Text-to-Speech menghasilkan file audio podcast.
Produk yang digunakan
Arsitektur contoh ini menggunakan produk Google Cloud berikut:
- Speech-to-Text: API yang menggunakan teknologi pengenalan ucapan Google untuk mentranskripsikan audio menjadi teks.
- Vertex AI: Platform ML yang memungkinkan Anda melatih dan men-deploy model ML dan aplikasi AI, serta menyesuaikan LLM untuk digunakan dalam aplikasi yang didukung AI.
- Text-to-Speech: API untuk membuat ucapan sintetis yang terdengar natural seperti ucapan manusia dari teks.
- Cloud Storage: Penyimpanan objek berbiaya rendah dan tanpa batas untuk beragam jenis data. Data dapat diakses dari dalam dan luar Google Cloud, serta direplikasi di berbagai lokasi untuk redundansi.
- Cloud Run: Platform komputasi serverless yang memungkinkan Anda menjalankan container langsung di atas infrastruktur Google yang bersifat skalabel.
- Eventarc: Solusi tanpa server untuk merutekan pesan yang dipicu oleh peristiwa secara asinkron.
Deployment
Untuk bereksperimen menggunakan produk Google Cloud untuk beban kerja yang melibatkan format input dan output multimodal seperti audio dan teks, coba contoh kode berikut:
- Buat transkrip wawancara audio.
- Buat podcast multi-pembicara menggunakan Gemini dan Text-to-Speech API.
- Merekam audio dan membuat terjemahan.
Langkah berikutnya
- Jelajahi panduan arsitektur AI generatif lainnya.
- Untuk mengetahui ringkasan prinsip dan rekomendasi arsitektur khusus untuk workload AI dan ML di Google Cloud, lihat perspektif AI dan ML dalam Well-Architected Framework.
- Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.
Kontributor
Penulis: Kumar Dhanagopal | Cross-Product Solution Developer
Kontributor lainnya:
- Amina Mansour | Head of Cloud Platform Evaluations Team
- Megan O'Keefe | Developer Advocate
- Samantha He | Technical Writer
- Shir Meir Lador | Developer Relations Engineering Manager