生成式 AI 用途：從音訊檔案生成 Podcast

Last reviewed 2025-12-12 UTC

本文提供應用程式的概略架構，說明如何使用 AI 技術，根據音訊輸入內容生成 Podcast。

本文的目標讀者包括架構師、開發人員和管理員，他們負責在雲端建構及管理媒體和行銷產業的生成式 AI 應用程式。本文假設您已具備生成式 AI 的基礎知識。

本文的「部署」一節提供生成式 AI 工作負載的程式碼範例，這些工作負載涉及多模態輸入和輸出格式。

架構

下圖顯示 Podcast 製作應用程式的架構 Google Cloud。這項應用程式會運用 AI 技術，根據音訊檔生成 Podcast，例如體育賽事的現場評論。

生成式 AI 應用程式架構：從音訊檔案生成 Podcast。

架構的流程如下：

使用者將音訊檔上傳至 Cloud Storage bucket。
Eventarc 會觸發 Cloud Run 服務。
Cloud Run 服務會將音訊檔案傳送至 Speech-to-Text。
Speech-to-Text 會產生音訊檔案的轉錄稿，並標示時間戳記。
Cloud Run 服務會將轉錄稿傳送至 Vertex AI 中的 Gemini API，並提示生成 Podcast 腳本。

舉例來說，提示詞可以要求根據賽評中的特定關鍵字，生成 15 分鐘的體育賽事精華播客腳本。
Gemini 生成 Podcast 腳本草稿。
Cloud Run 服務會將草稿指令碼傳送給使用者。
使用者檢查並編輯腳本草稿，然後將最終腳本傳送至 Text-to-Speech。
Text-to-Speech 會生成 Podcast 音訊檔案。

使用的產品

這個範例架構使用下列 Google Cloud 產品：

Speech-to-Text：這項 API 採用 Google 的語音辨識技術，可將音訊轉錄為文字。
Vertex AI：機器學習平台，可讓您訓練及部署機器學習模型和 AI 應用程式，並自訂 LLM 用於 AI 輔助的應用程式。
Text-to-Speech：可根據文字建立自然的合成人類語音。
Cloud Storage：適用於多種資料類型的物件儲存庫，成本低廉且沒有限制。資料在 Google Cloud 內外都能存取，且會複製到多個位置，以便提供備援機制。 Google Cloud
Cloud Run：無伺服器運算平台，可讓您在 Google 可擴充的基礎架構上直接執行容器。
Eventarc：無伺服器解決方案，可非同步轉送由事件觸發的訊息。

部署

如要試用 Google Cloud 產品處理涉及多模態輸入和輸出格式 (例如音訊和文字) 的工作負載，請嘗試下列程式碼範例：

後續步驟

如要瞭解詳情，請參閱生成式 AI 架構指南。
如要瞭解適用於 Google Cloud中 AI 和機器學習工作負載的架構原則和建議，請參閱 Well-Architected Framework 中的AI 和機器學習觀點。
如要查看更多參考架構、圖表和最佳做法，請瀏覽 Cloud Architecture Center。

貢獻者

作者：Kumar Dhanagopal | 跨產品解決方案開發人員

其他貢獻者：

Amina Mansour | Cloud Platform 評估團隊主管
Megan O'Keefe | 開發人員服務代表
Samantha He | 技術文件撰稿者
Shir Meir Lador | 開發人員關係工程工程師經理

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。

上次更新時間：2025-12-12 (世界標準時間)。