生成式 AI 用例:根据音频文件生成播客

本文档提供了一个应用的高层架构,该应用使用 AI 根据音频输入生成播客。

本文档的目标受众群体包括为媒体和营销行业构建和管理云端生成式 AI 应用的架构师、开发者和管理员。本文档假定您对生成式 AI 有一定的基础了解。

本文档的部署部分提供了涉及多模态输入和输出格式的生成式 AI 工作负载的代码示例。

架构

下图展示了 Google Cloud中播客制作应用的架构。该应用使用 AI 根据音频文件(例如体育赛事的实时解说)生成播客。

一种生成式 AI 应用的架构,可根据音频文件生成播客。 一种生成式 AI 应用的架构,可根据音频文件生成播客。

该架构展示了以下流程:

  1. 用户将音频文件上传到 Cloud Storage 存储桶。
  2. Eventarc 触发 Cloud Run 服务。
  3. Cloud Run 服务将音频文件发送到 Speech-to-Text。
  4. Speech-to-Text 会生成带有时间戳的音频文件转写内容。
  5. Cloud Run 服务将转写内容发送到 Vertex AI 中的 Gemini API,并附带生成播客脚本的提示。

    例如,提示可以是根据解说中的某些关键字生成一段 15 分钟的播客脚本,内容是关于某项体育赛事精彩瞬间的。

  6. Gemini 生成播客脚本草稿。

  7. Cloud Run 服务会将草稿脚本发送给用户。

  8. 用户查看并修改脚本草稿,然后将最终脚本发送给 Text-to-Speech。

  9. Text-to-Speech 会生成播客音频文件。

使用的产品

此示例架构使用以下 Google Cloud 产品:

  • Speech-to-Text:一种 API,使用 Google 的语音识别技术将音频转写为文字。
  • Vertex AI:一个机器学习平台,用于训练和部署机器学习模型和 AI 应用以及自定义 LLM,以在依托 AI 技术的应用中使用。
  • Text-to-Speech:一种 API,可根据文本创建自然发音的合成人类语音。
  • Cloud Storage:适用于各种数据类型的费用低廉且不受限制的对象存储。数据可从 Google Cloud内部和外部访问,并且跨位置进行复制以实现冗余。
  • Cloud Run:一个无服务器计算平台,可让您直接在 Google 可伸缩的基础设施之上运行容器。
  • Eventarc:一种无服务器解决方案,用于异步路由由事件触发的消息。

部署

如需尝试将 Google Cloud 产品用于涉及多模态输入和输出格式(例如音频和文本)的工作负载,请尝试以下代码示例:

后续步骤

贡献者

作者: Kumar Dhanagopal | 跨产品解决方案开发者

其他贡献者: