Anwendungsfall für generative KI: Podcasts aus Audiodateien generieren

In diesem Dokument wird eine allgemeine Architektur für eine Anwendung beschrieben, die KI verwendet, um Podcasts basierend auf Audioeingaben zu generieren.

Dieses Dokument richtet sich an Architekten, Entwickler und Administratoren, die generative KI-Anwendungen in der Cloud für die Medien- und Marketingbranche entwickeln und verwalten. In diesem Dokument wird davon ausgegangen, dass Sie ein grundlegendes Verständnis von generativer KI haben.

Im Abschnitt Bereitstellung dieses Dokuments finden Sie Codebeispiele für generative KI-Arbeitslasten, die multimodale Ein- und Ausgabeformate umfassen.

Architektur

Das folgende Diagramm zeigt eine Architektur für eine Anwendung für Podcast-Produzenten in Google Cloud. Die Anwendung verwendet KI, um Podcasts aus Audiodateien zu generieren, z. B. Live-Kommentare zu einem Sportereignis.

Architektur für eine generative KI-Anwendung, die Podcasts aus Audiodateien generiert Architektur für eine generative KI-Anwendung, die Podcasts aus Audiodateien generiert

Die Architektur zeigt den folgenden Ablauf:

  1. Ein Nutzer lädt Audiodateien in einen Cloud Storage-Bucket hoch.
  2. Eventarc löst einen Cloud Run-Dienst aus.
  3. Der Cloud Run-Dienst sendet die Audiodateien an Speech-to-Text.
  4. Speech-to-Text erstellt Transkripte der Audiodateien mit Zeitstempeln.
  5. Der Cloud Run-Dienst sendet die Transkripte an die Gemini API in Vertex AI mit einem Prompt zum Generieren eines Skripts für einen Podcast.

    Der Prompt könnte beispielsweise lauten, ein Skript für einen 15-minütigen Podcast über die Highlights eines Sportereignisses auf Grundlage bestimmter Keywords im Kommentar zu erstellen.

  6. Gemini generiert einen Entwurf für ein Podcast-Script.

  7. Der Cloud Run-Dienst sendet das Script als Entwurf an den Nutzer.

  8. Der Nutzer überprüft und bearbeitet das Skript und sendet es dann an die Text-to-Speech-Funktion.

  9. Text-to-Speech erstellt eine Podcast-Audiodatei.

Verwendete Produkte

In dieser Beispielarchitektur werden die folgenden Produkte verwendet: Google Cloud

  • Speech-to-Text: Eine API, die die Spracherkennungstechnologien von Google verwendet, um Audioinhalte in Text umzuwandeln.
  • Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
  • Text-to-Speech: Eine API zum Erstellen natürlich klingender, synthetischer menschlicher Sprache aus Text.
  • Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
  • Cloud Run ist eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
  • Eventarc: Eine serverlose Lösung zum asynchronen Weiterleiten von Nachrichten, die durch Ereignisse ausgelöst werden.

Bereitstellung

Wenn Sie die Verwendung von Google Cloud -Produkten für Arbeitslasten mit multimodalen Ein- und Ausgabeformaten wie Audio und Text testen möchten, können Sie die folgenden Codebeispiele verwenden:

Nächste Schritte

Beitragende

Autor: Kumar Dhanagopal | Cross-product Solution Developer

Weitere Beitragende: