Anwendungsfall für generative KI: Podcasts aus Audiodateien generieren

Last reviewed 2025-12-12 UTC

Dieses Dokument enthält eine allgemeine Architektur für eine Anwendung, die KI verwendet, um Podcasts basierend auf Audioeingaben zu generieren.

Dieses Dokument richtet sich an Architekten, Entwickler und Administratoren, die generative KI-Anwendungen in der Cloud für die Medien- und Marketingbranche entwickeln und verwalten. In diesem Dokument wird davon ausgegangen, dass Sie ein grundlegendes Verständnis von generativer KI haben.

Im Abschnitt Bereitstellung dieses Dokuments finden Sie Codebeispiele für generative KI-Arbeitslasten, die multimodale Ein- und Ausgabeformate umfassen.

Architektur

Das folgende Diagramm zeigt eine Architektur für eine Anwendung für Podcast-Produzenten in Google Cloud. Die Anwendung verwendet KI, um Podcasts aus Audiodateien zu generieren, z. B. Live-Kommentare zu einem Sportereignis.

Architektur für eine Anwendung mit generativer KI, die Podcasts aus Audiodateien generiert.

Die Architektur zeigt den folgenden Ablauf:

Ein Nutzer lädt Audiodateien in einen Cloud Storage-Bucket hoch.
Eventarc löst einen Cloud Run-Dienst aus.
Der Cloud Run-Dienst sendet die Audiodateien an Speech-to-Text.
Speech-to-Text erstellt Transkripte der Audiodateien mit Zeitstempeln.
Der Cloud Run-Dienst sendet die Transkripte an die Gemini API in Vertex AI mit einem Prompt zum Generieren eines Skripts für einen Podcast.

Der Prompt könnte beispielsweise lauten, ein Skript für einen 15-minütigen Podcast mit den Highlights eines Sportereignisses auf Grundlage bestimmter Keywords im Kommentar zu erstellen.
Gemini erstellt einen Entwurf für ein Podcast-Script.
Der Cloud Run-Dienst sendet das Script als Entwurf an den Nutzer.
Der Nutzer überprüft und bearbeitet das Skript und sendet es dann an die Text-to-Speech-Engine.
Mit Text-to-Speech wird eine Podcast-Audiodatei erstellt.

Verwendete Produkte

In dieser Beispielarchitektur werden die folgenden Google Cloud Produkte verwendet:

Speech-to-Text: Eine API, die die Spracherkennungstechnologien von Google verwendet, um Audioinhalte in Text umzuwandeln.
Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
Text-to-Speech: Eine API zum Erstellen natürlich klingender, synthetischer menschlicher Sprache aus Text.
Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
Cloud Run ist eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
Eventarc: Eine serverlose Lösung zum asynchronen Weiterleiten von Nachrichten, die durch Ereignisse ausgelöst werden.

Bereitstellung

Wenn Sie die Verwendung von Google Cloud -Produkten für Arbeitslasten mit multimodalen Ein- und Ausgabeformaten wie Audio und Text testen möchten, können Sie die folgenden Codebeispiele verwenden:

Nächste Schritte

Weitere Leitfäden zur Architektur generativer KI
Eine Übersicht über Architekturprinzipien und Empfehlungen, die speziell für KI- und ML-Arbeitslasten in Google Cloudgelten, finden Sie im Well-Architected Framework in der KI- und ML-Perspektive.
Weitere Referenzarchitekturen, Diagramme und Best Practices finden Sie im Cloud-Architekturcenter.

Beitragende

Autor: Kumar Dhanagopal | Cross-product Solution Developer

Weitere Beitragende:

Amina Mansour | Head of Cloud Platform Evaluations Team
Megan O'Keefe | Developer Advocate
Samantha He | Technical Writer
Shir Meir Lador | Developer Relations Engineering Manager

Anwendungsfall für generative KI: Podcasts aus Audiodateien generieren Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.