Cas d'utilisation de l'IA générative : générer des podcasts à partir de fichiers audio

Ce document fournit une architecture de haut niveau pour une application qui utilise l'IA pour générer des podcasts à partir d'entrées audio.

Ce document s'adresse aux architectes, aux développeurs et aux administrateurs qui créent et gèrent des applications d'IA générative dans le cloud pour les secteurs des médias et du marketing. Dans ce document, nous partons du principe que vous avez une compréhension de base de l'IA générative.

La section Déploiement de ce document fournit des exemples de code pour les charges de travail d'IA générative qui impliquent des formats d'entrée et de sortie multimodaux.

Architecture

Le schéma suivant illustre une architecture pour une application de production de podcasts dans Google Cloud. L'application utilise l'IA pour générer des podcasts à partir de fichiers audio, comme des commentaires en direct pour un événement sportif.

Architecture d'une application d'IA générative qui génère des podcasts à partir de fichiers audio. Architecture d'une application d'IA générative qui génère des podcasts à partir de fichiers audio.

L'architecture présente le flux suivant :

  1. Un utilisateur importe des fichiers audio dans un bucket Cloud Storage.
  2. Eventarc déclenche un service Cloud Run.
  3. Le service Cloud Run envoie les fichiers audio à Speech-to-Text.
  4. Speech-to-Text génère des transcriptions horodatées des fichiers audio.
  5. Le service Cloud Run envoie les transcriptions à l'API Gemini dans Vertex AI, avec une invite pour générer un script de podcast.

    Par exemple, la requête peut demander de générer un script pour un podcast de 15 minutes sur les moments forts d'un événement sportif en fonction de certains mots clés dans les commentaires.

  6. Gemini génère un brouillon de script de podcast.

  7. Le service Cloud Run envoie le script brouillon à l'utilisateur.

  8. L'utilisateur examine et modifie le brouillon du script, puis envoie le script final à Text-to-Speech.

  9. Text-to-Speech génère un fichier audio de podcast.

Produits utilisés

Cette architecture d'exemple utilise les produits Google Cloud suivants :

  • Speech-to-Text : API qui utilise les technologies de reconnaissance vocale de Google pour transcrire du contenu audio en texte.
  • Vertex AI : plate-forme de ML qui vous permet d'entraîner et de déployer des modèles de ML et des applications d'IA, et de personnaliser les LLM à utiliser dans des applications basées sur l'IA.
  • Text-to-Speech : API permettant de créer une voix humaine synthétique aux sonorités naturelles à partir de texte.
  • Cloud Storage : store d'objets économique et sans limite pour tout type de données. Les données sont accessibles depuis et en dehors de Google Cloud, et sont répliquées sur plusieurs emplacements à des fins de redondance.
  • Cloud Run : plate-forme de calcul gérée qui vous permet d'exécuter des conteneurs directement sur l'infrastructure évolutive de Google.
  • Eventarc : solution sans serveur permettant d'acheminer de manière asynchrone les messages déclenchés par des événements.

Déploiement

Pour tester l'utilisation des produits Google Cloud pour les charges de travail impliquant des formats d'entrée et de sortie multimodaux tels que l'audio et le texte, essayez les exemples de code suivants :

Étapes suivantes

Contributeurs

Auteur : Kumar Dhanagopal | Cross-product solution developer

Autres contributeurs :