Kasus penggunaan AI generatif: Membuat podcast dari file audio

Last reviewed 2025-12-12 UTC

Dokumen ini memberikan arsitektur tingkat tinggi untuk aplikasi yang menggunakan AI untuk membuat podcast berdasarkan input audio.

Audiens yang dituju untuk dokumen ini mencakup arsitek, developer, dan administrator yang membangun dan mengelola aplikasi AI generatif di cloud untuk industri media dan pemasaran. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman dasar tentang AI generatif.

Bagian Deployment dalam dokumen ini memberikan contoh kode untuk workload AI generatif yang melibatkan format input dan output multimodal.

Arsitektur

Diagram berikut menunjukkan arsitektur untuk aplikasi produser podcast di Google Cloud. Aplikasi ini menggunakan AI untuk membuat podcast dari file audio, seperti komentar live untuk acara olahraga.

Arsitektur untuk aplikasi AI generatif yang membuat podcast dari file audio.

Arsitektur ini menampilkan alur berikut:

Pengguna mengupload file audio ke bucket Cloud Storage.
Eventarc memicu layanan Cloud Run.
Layanan Cloud Run mengirimkan file audio ke Speech-to-Text.
Speech-to-Text menghasilkan transkrip file audio yang diberi stempel waktu.
Layanan Cloud Run mengirimkan transkrip ke Gemini API di Vertex AI, dengan perintah untuk membuat skrip podcast.

Misalnya, perintahnya bisa berupa membuat skrip untuk podcast berdurasi 15 menit tentang sorotan acara olahraga berdasarkan kata kunci tertentu dalam komentar.
Gemini membuat draf skrip podcast.
Layanan Cloud Run mengirimkan draf skrip kepada pengguna.
Pengguna meninjau dan mengedit draf skrip, lalu mengirim skrip akhir ke Text-to-Speech.
Text-to-Speech menghasilkan file audio podcast.

Produk yang digunakan

Arsitektur contoh ini menggunakan produk Google Cloud berikut:

Speech-to-Text: API yang menggunakan teknologi pengenalan ucapan Google untuk mentranskripsikan audio menjadi teks.
Vertex AI: Platform ML yang memungkinkan Anda melatih dan men-deploy model ML dan aplikasi AI, serta menyesuaikan LLM untuk digunakan dalam aplikasi yang didukung AI.
Text-to-Speech: API untuk membuat ucapan sintetis yang terdengar natural seperti ucapan manusia dari teks.
Cloud Storage: Penyimpanan objek berbiaya rendah dan tanpa batas untuk beragam jenis data. Data dapat diakses dari dalam dan luar Google Cloud, serta direplikasi di berbagai lokasi untuk redundansi.
Cloud Run: Platform komputasi serverless yang memungkinkan Anda menjalankan container langsung di atas infrastruktur Google yang bersifat skalabel.
Eventarc: Solusi tanpa server untuk merutekan pesan yang dipicu oleh peristiwa secara asinkron.

Deployment

Untuk bereksperimen menggunakan produk Google Cloud untuk beban kerja yang melibatkan format input dan output multimodal seperti audio dan teks, coba contoh kode berikut:

Langkah berikutnya

Jelajahi panduan arsitektur AI generatif lainnya.
Untuk mengetahui ringkasan prinsip dan rekomendasi arsitektur khusus untuk workload AI dan ML di Google Cloud, lihat perspektif AI dan ML di Well-Architected Framework.
Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.

Kontributor

Penulis: Kumar Dhanagopal | Cross-Product Solution Developer

Kontributor lainnya:

Amina Mansour | Head of Cloud Platform Evaluations Team
Megan O'Keefe | Developer Advocate
Samantha He | Technical Writer
Shir Meir Lador | Developer Relations Engineering Manager

Kasus penggunaan AI generatif: Membuat podcast dari file audio Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.