本文提供應用程式的概略架構,說明如何使用 AI 技術,根據音訊輸入內容生成 Podcast。
本文的目標讀者包括架構師、開發人員和管理員,他們負責在雲端建構及管理媒體和行銷產業的生成式 AI 應用程式。本文假設您已具備生成式 AI 的基礎知識。
本文的「部署」部分提供生成式 AI 工作負載的程式碼範例,這些工作負載涉及多模態輸入和輸出格式。
架構
下圖顯示 Podcast 製作應用程式的架構 Google Cloud。這項應用程式會運用 AI 技術,根據音訊檔生成 Podcast,例如體育賽事的現場評論。
架構的流程如下:
- 使用者將音訊檔上傳至 Cloud Storage bucket。
- Eventarc 會觸發 Cloud Run 服務。
- Cloud Run 服務會將音訊檔案傳送至 Speech-to-Text。
- Speech-to-Text 會產生音訊檔案的轉錄稿,並標示時間戳記。
Cloud Run 服務會將轉錄稿傳送至 Vertex AI 中的 Gemini API,並提供提示來生成 Podcast 腳本。
舉例來說,提示可以是根據評論中的特定關鍵字,為 15 分鐘的體育賽事精華播客生成腳本。
Gemini 生成 Podcast 腳本草稿。
Cloud Run 服務會將草稿指令碼傳送給使用者。
使用者檢查並編輯腳本草稿,然後將最終腳本傳送至 Text-to-Speech。
Text-to-Speech 會生成 Podcast 音訊檔案。
使用的產品
這個範例架構使用下列 Google Cloud 產品:
- Speech-to-Text:這項 API 採用 Google 的語音辨識技術,可將音訊轉錄為文字。
- Vertex AI:機器學習平台,可讓您訓練及部署機器學習模型和 AI 應用程式,並自訂 LLM 用於 AI 輔助的應用程式。
- Text-to-Speech:這項 API 可根據文字建立自然的合成人類語音。
- Cloud Storage:適用於多種資料類型的物件儲存庫,成本低廉且沒有限制。 資料在 Google Cloud 內外都能存取,且會複製到多個位置,以便提供備援機制。 Google Cloud
- Cloud Run:無伺服器運算平台,可讓您在 Google 可擴充的基礎架構上直接執行容器。
- Eventarc:無伺服器解決方案,可非同步轉送由事件觸發的訊息。
部署
如要試用 Google Cloud 產品處理涉及多模態輸入和輸出格式 (例如音訊和文字) 的工作負載,請嘗試下列程式碼範例:
後續步驟
- 如要瞭解詳情,請參閱生成式 AI 架構指南。
- 如要瞭解適用於 Google CloudAI 和機器學習工作負載的架構原則和建議,請參閱 Well-Architected Framework 中的AI 和機器學習觀點。
- 如要查看更多參考架構、圖表和最佳做法,請瀏覽 Cloud Architecture Center。
貢獻者
作者:Kumar Dhanagopal | 跨產品解決方案開發人員
其他貢獻者:
- Amina Mansour | Cloud Platform 評估團隊主管
- Megan O'Keefe | 開發人員服務代表
- Samantha He | 技術文件撰稿者
- Shir Meir Lador | 開發人員關係工程經理