Caso de uso de la IA generativa: Genera podcasts a partir de archivos de audio

En este documento, se proporciona una arquitectura de alto nivel para una aplicación que usa IA para generar podcasts basados en la entrada de audio.

El público objetivo de este documento incluye arquitectos, desarrolladores y administradores que compilan y administran aplicaciones de IA generativa en la nube para las industrias de medios y marketing. En este documento, se supone que tienes conocimientos básicos sobre la IA generativa.

En la sección Implementación de este documento, se proporcionan muestras de código para cargas de trabajo de IA generativa que involucran formatos de entrada y salida multimodales.

Arquitectura

En el siguiente diagrama, se muestra una arquitectura para una aplicación de productor de podcasts en Google Cloud. La aplicación usa IA para generar podcasts a partir de archivos de audio, como comentarios en vivo de un evento deportivo.

Arquitectura de una aplicación de IA generativa que genera podcasts a partir de archivos de audio. Arquitectura de una aplicación de IA generativa que genera podcasts a partir de archivos de audio.

La arquitectura muestra el siguiente flujo:

  1. Un usuario sube archivos de audio a un bucket de Cloud Storage.
  2. Eventarc activa un servicio de Cloud Run.
  3. El servicio de Cloud Run envía los archivos de audio a Speech-to-Text.
  4. Speech-to-Text produce transcripciones con marcas de tiempo de los archivos de audio.
  5. El servicio de Cloud Run envía las transcripciones a la API de Gemini en Vertex AI, con una instrucción para generar un guion para un podcast.

    Por ejemplo, la instrucción podría ser generar un guion para un podcast de 15 minutos sobre los momentos destacados de un evento deportivo en función de ciertas palabras clave del comentario.

  6. Gemini genera un borrador de un guion de podcast.

  7. El servicio de Cloud Run envía el borrador del guion al usuario.

  8. El usuario revisa y edita el borrador del guion, y luego envía el guion final a Text-to-Speech.

  9. Text-to-Speech produce un archivo de audio de podcast.

Productos usados

En esta arquitectura de ejemplo, se usan los siguientes productos: Google Cloud

  • Speech-to-Text: Es una API que usa las tecnologías de reconocimiento de voz de Google para transcribir audio a texto.
  • Vertex AI: Es una plataforma de AA que te permite entrenar y, también, implementar modelos de AA y aplicaciones de IA, y personalizar LLM para usarlos en aplicaciones impulsadas por IA.
  • Text-to-Speech: Es una API para crear voces humanas sintéticas con un sonido natural a partir de texto.
  • Cloud Storage: Un depósito de objetos de bajo costo y sin límites para varios tipos de datos. Se puede acceder a los datos desde y hacia Google Cloud, y estos se replican en las ubicaciones para aumentar la redundancia.
  • Cloud Run es una plataforma de procesamiento administrada que te permite ejecutar contenedores directamente sobre la infraestructura escalable de Google.
  • Eventarc: Es una solución sin servidores para enrutar de forma asíncrona mensajes activados por eventos.

Implementación

Para experimentar con el uso de productos de Google Cloud para cargas de trabajo que involucran formatos de entrada y salida multimodales, como audio y texto, prueba las siguientes muestras de código:

¿Qué sigue?

  • Explora más guías de arquitectura de IA generativa.
  • Para obtener una descripción general de los principios y las recomendaciones de arquitectura específicos para las cargas de trabajo de IA y AA en Google Cloud, consulta la perspectiva de IA y AA en Well-Architected Framework.
  • Para obtener más información sobre las arquitecturas de referencia, los diagramas y las prácticas recomendadas, explora Cloud Architecture Center.

Colaboradores

Autor: Kumar Dhanagopal | Desarrollador de soluciones entre productos

Otros colaboradores: