生成式 AI 用途:從音訊檔案生成 Podcast

本文提供應用程式的概略架構,說明如何使用 AI 技術,根據音訊輸入內容生成 Podcast。

本文的目標讀者包括架構師、開發人員和管理員,他們負責在雲端建構及管理媒體和行銷產業的生成式 AI 應用程式。本文假設您已具備生成式 AI 的基礎知識。

本文的「部署」部分提供生成式 AI 工作負載的程式碼範例,這些工作負載涉及多模態輸入和輸出格式。

架構

下圖顯示 Podcast 製作應用程式的架構 Google Cloud。這項應用程式會運用 AI 技術,根據音訊檔生成 Podcast,例如體育賽事的現場評論。

生成式 AI 應用程式架構:從音訊檔案生成 Podcast。 生成式 AI 應用程式架構:從音訊檔案生成 Podcast。

架構的流程如下:

  1. 使用者將音訊檔上傳至 Cloud Storage bucket。
  2. Eventarc 會觸發 Cloud Run 服務。
  3. Cloud Run 服務會將音訊檔案傳送至 Speech-to-Text。
  4. Speech-to-Text 會產生音訊檔案的轉錄稿,並標示時間戳記。
  5. Cloud Run 服務會將轉錄稿傳送至 Vertex AI 中的 Gemini API,並提供提示來生成 Podcast 腳本。

    舉例來說,提示可以是根據評論中的特定關鍵字,為 15 分鐘的體育賽事精華播客生成腳本。

  6. Gemini 生成 Podcast 腳本草稿。

  7. Cloud Run 服務會將草稿指令碼傳送給使用者。

  8. 使用者檢查並編輯腳本草稿,然後將最終腳本傳送至 Text-to-Speech。

  9. Text-to-Speech 會生成 Podcast 音訊檔案。

使用的產品

這個範例架構使用下列 Google Cloud 產品:

  • Speech-to-Text:這項 API 採用 Google 的語音辨識技術,可將音訊轉錄為文字。
  • Vertex AI:機器學習平台,可讓您訓練及部署機器學習模型和 AI 應用程式,並自訂 LLM 用於 AI 輔助的應用程式。
  • Text-to-Speech:這項 API 可根據文字建立自然的合成人類語音。
  • Cloud Storage:適用於多種資料類型的物件儲存庫,成本低廉且沒有限制。 資料在 Google Cloud 內外都能存取,且會複製到多個位置,以便提供備援機制。 Google Cloud
  • Cloud Run:無伺服器運算平台,可讓您在 Google 可擴充的基礎架構上直接執行容器。
  • Eventarc:無伺服器解決方案,可非同步轉送由事件觸發的訊息。

部署

如要試用 Google Cloud 產品處理涉及多模態輸入和輸出格式 (例如音訊和文字) 的工作負載,請嘗試下列程式碼範例:

後續步驟

貢獻者

作者:Kumar Dhanagopal | 跨產品解決方案開發人員

其他貢獻者: