En este documento se proporciona una arquitectura de alto nivel para una aplicación que usa la IA para generar pódcasts a partir de entradas de audio.
Este documento está dirigido a arquitectos, desarrolladores y administradores que crean y gestionan aplicaciones de IA generativa en la nube para los sectores de los medios y el marketing. En este documento se presupone que tienes conocimientos básicos sobre la IA generativa.
En la sección Implementación de este documento se proporcionan ejemplos de código para cargas de trabajo de IA generativa que implican formatos de entrada y salida multimodales.
Arquitectura
En el siguiente diagrama se muestra una arquitectura para una aplicación de productor de pódcasts en Google Cloud. La aplicación usa la IA para generar pódcasts a partir de archivos de audio, como comentarios en directo de un evento deportivo.
La arquitectura muestra el siguiente flujo:
- Un usuario sube archivos de audio a un segmento de Cloud Storage.
- Eventarc activa un servicio de Cloud Run.
- El servicio de Cloud Run envía los archivos de audio a Transcripción de voz.
- Speech-to-Text genera transcripciones con marcas de tiempo de los archivos de audio.
El servicio Cloud Run envía las transcripciones a la API de Gemini en Vertex AI, con una petición para generar un guion de pódcast.
Por ejemplo, la petición podría ser generar un guion para un pódcast de 15 minutos sobre los mejores momentos de un evento deportivo a partir de determinadas palabras clave de los comentarios.
Gemini genera un borrador de un guion de pódcast.
El servicio de Cloud Run envía el borrador de la secuencia de comandos al usuario.
El usuario revisa y edita el borrador de la secuencia de comandos y, a continuación, envía la secuencia de comandos final a Text-to-Speech.
Text-to-Speech genera un archivo de audio de pódcast.
Productos usados
Esta arquitectura de ejemplo usa los siguientes productos de Google Cloud :
- Speech-to-Text: una API que usa las tecnologías de reconocimiento de voz de Google para transcribir audio a texto.
- Vertex AI: una plataforma de aprendizaje automático que te permite entrenar y desplegar modelos de aprendizaje automático y aplicaciones de IA, así como personalizar LLMs para usarlos en aplicaciones basadas en IA.
- Text-to-Speech: una API para crear voces humanas sintéticas y naturales a partir de texto.
- Cloud Storage: un almacén de objetos ilimitado y a un coste bajo para diversos tipos de datos. Se puede acceder a los datos desde dentro y fuera de Google Cloud, y se replican en varias ubicaciones para ofrecer redundancia.
- Cloud Run: una plataforma de computación sin servidor que te permite ejecutar contenedores directamente en la infraestructura escalable de Google.
- Eventarc: una solución sin servidor para enrutar de forma asíncrona los mensajes activados por eventos.
Implementación
Para experimentar con el uso de productos de Google Cloud en cargas de trabajo que impliquen formatos de entrada y salida multimodales, como audio y texto, prueba los siguientes ejemplos de código:
- Genera una transcripción de una entrevista de audio.
- Generar un pódcast con varios interlocutores usando Gemini y la API Text-to-Speech.
- Grabar audio y generar una traducción.
Siguientes pasos
- Consulta más guías de arquitectura de IA generativa.
- Para obtener una descripción general de los principios y las recomendaciones de arquitectura específicos de las cargas de trabajo de IA y aprendizaje automático en Google Cloud, consulta la sección Perspectiva de IA y aprendizaje automático del marco de trabajo Well-Architected.
- Para ver más arquitecturas de referencia, diagramas y prácticas recomendadas, consulta el centro de arquitectura de Cloud.
Colaboradores
Autor: Kumar Dhanagopal | Desarrollador de soluciones multiproducto
Otros colaboradores:
- Amina Mansour | Responsable del equipo de evaluaciones de Cloud Platform
- Megan O'Keefe | Developer Advocate
- Samantha He | Redactora técnica
- Shir Meir Lador | Gestora de Ingeniería de Relaciones con Desarrolladores