Caso práctico de IA generativa: generar pódcasts a partir de archivos de audio

En este documento se proporciona una arquitectura de alto nivel para una aplicación que usa la IA para generar pódcasts a partir de entradas de audio.

Este documento está dirigido a arquitectos, desarrolladores y administradores que crean y gestionan aplicaciones de IA generativa en la nube para los sectores de los medios y el marketing. En este documento se presupone que tienes conocimientos básicos sobre la IA generativa.

En la sección Implementación de este documento se proporcionan ejemplos de código para cargas de trabajo de IA generativa que implican formatos de entrada y salida multimodales.

Arquitectura

En el siguiente diagrama se muestra una arquitectura para una aplicación de productor de pódcasts en Google Cloud. La aplicación usa la IA para generar pódcasts a partir de archivos de audio, como comentarios en directo de un evento deportivo.

Arquitectura de una aplicación de IA generativa que crea pódcasts a partir de archivos de audio. Arquitectura de una aplicación de IA generativa que crea pódcasts a partir de archivos de audio.

La arquitectura muestra el siguiente flujo:

  1. Un usuario sube archivos de audio a un segmento de Cloud Storage.
  2. Eventarc activa un servicio de Cloud Run.
  3. El servicio de Cloud Run envía los archivos de audio a Transcripción de voz.
  4. Speech-to-Text genera transcripciones con marcas de tiempo de los archivos de audio.
  5. El servicio Cloud Run envía las transcripciones a la API de Gemini en Vertex AI, con una petición para generar un guion de pódcast.

    Por ejemplo, la petición podría ser generar un guion para un pódcast de 15 minutos sobre los mejores momentos de un evento deportivo a partir de determinadas palabras clave de los comentarios.

  6. Gemini genera un borrador de un guion de pódcast.

  7. El servicio de Cloud Run envía el borrador de la secuencia de comandos al usuario.

  8. El usuario revisa y edita el borrador de la secuencia de comandos y, a continuación, envía la secuencia de comandos final a Text-to-Speech.

  9. Text-to-Speech genera un archivo de audio de pódcast.

Productos usados

Esta arquitectura de ejemplo usa los siguientes productos de Google Cloud :

  • Speech-to-Text: una API que usa las tecnologías de reconocimiento de voz de Google para transcribir audio a texto.
  • Vertex AI: una plataforma de aprendizaje automático que te permite entrenar y desplegar modelos de aprendizaje automático y aplicaciones de IA, así como personalizar LLMs para usarlos en aplicaciones basadas en IA.
  • Text-to-Speech: una API para crear voces humanas sintéticas y naturales a partir de texto.
  • Cloud Storage: un almacén de objetos ilimitado y a un coste bajo para diversos tipos de datos. Se puede acceder a los datos desde dentro y fuera de Google Cloud, y se replican en varias ubicaciones para ofrecer redundancia.
  • Cloud Run: una plataforma de computación sin servidor que te permite ejecutar contenedores directamente en la infraestructura escalable de Google.
  • Eventarc: una solución sin servidor para enrutar de forma asíncrona los mensajes activados por eventos.

Implementación

Para experimentar con el uso de productos de Google Cloud en cargas de trabajo que impliquen formatos de entrada y salida multimodales, como audio y texto, prueba los siguientes ejemplos de código:

Siguientes pasos

Colaboradores

Autor: Kumar Dhanagopal | Desarrollador de soluciones multiproducto

Otros colaboradores: