Ce document fournit une architecture de haut niveau pour une application qui utilise l'IA pour générer des podcasts à partir d'entrées audio.
Ce document s'adresse aux architectes, aux développeurs et aux administrateurs qui créent et gèrent des applications d'IA générative dans le cloud pour les secteurs des médias et du marketing. Dans ce document, nous partons du principe que vous avez une compréhension de base de l'IA générative.
La section Déploiement de ce document fournit des exemples de code pour les charges de travail d'IA générative qui impliquent des formats d'entrée et de sortie multimodaux.
Architecture
Le schéma suivant illustre une architecture pour une application de production de podcasts dans Google Cloud. L'application utilise l'IA pour générer des podcasts à partir de fichiers audio, comme des commentaires en direct pour un événement sportif.
L'architecture présente le flux suivant :
- Un utilisateur importe des fichiers audio dans un bucket Cloud Storage.
- Eventarc déclenche un service Cloud Run.
- Le service Cloud Run envoie les fichiers audio à Speech-to-Text.
- Speech-to-Text génère des transcriptions horodatées des fichiers audio.
Le service Cloud Run envoie les transcriptions à l'API Gemini dans Vertex AI, avec une invite pour générer un script de podcast.
Par exemple, la requête peut demander de générer un script pour un podcast de 15 minutes sur les moments forts d'un événement sportif en fonction de certains mots clés dans les commentaires.
Gemini génère un brouillon de script de podcast.
Le service Cloud Run envoie le script brouillon à l'utilisateur.
L'utilisateur examine et modifie le brouillon du script, puis envoie le script final à Text-to-Speech.
Text-to-Speech génère un fichier audio de podcast.
Produits utilisés
Cette architecture d'exemple utilise les produits Google Cloud suivants :
- Speech-to-Text : API qui utilise les technologies de reconnaissance vocale de Google pour transcrire du contenu audio en texte.
- Vertex AI : plate-forme de ML qui vous permet d'entraîner et de déployer des modèles de ML et des applications d'IA, et de personnaliser les LLM à utiliser dans des applications basées sur l'IA.
- Text-to-Speech : API permettant de créer une voix humaine synthétique aux sonorités naturelles à partir de texte.
- Cloud Storage : store d'objets économique et sans limite pour tout type de données. Les données sont accessibles depuis et en dehors de Google Cloud, et sont répliquées sur plusieurs emplacements à des fins de redondance.
- Cloud Run : plate-forme de calcul gérée qui vous permet d'exécuter des conteneurs directement sur l'infrastructure évolutive de Google.
- Eventarc : solution sans serveur permettant d'acheminer de manière asynchrone les messages déclenchés par des événements.
Déploiement
Pour tester l'utilisation des produits Google Cloud pour les charges de travail impliquant des formats d'entrée et de sortie multimodaux tels que l'audio et le texte, essayez les exemples de code suivants :
- Génère la transcription d'un entretien audio.
- Générez un podcast à plusieurs voix à l'aide de l'API Gemini et de l'API Text-to-Speech.
- Enregistrez un contenu audio et générez une traduction.
Étapes suivantes
- Découvrez d'autres guides sur l'architecture de l'IA générative.
- Pour obtenir une présentation des principes et des recommandations d'architecture spécifiques aux charges de travail d'IA et de ML dans Google Cloud, consultez la perspective de l'IA et du ML dans le framework Well-Architected.
- Pour découvrir d'autres architectures de référence, schémas et bonnes pratiques, consultez le Centre d'architecture cloud.
Contributeurs
Auteur : Kumar Dhanagopal | Cross-product solution developer
Autres contributeurs :
- Amina Mansour | Cadre de l'équipe Cloud Platform Evaluations
- Megan O'Keefe | Developer Advocate
- Samantha He | Rédactrice technique
- Shir Meir Lador | Responsable de l'ingénierie des relations avec les développeurs