In diesem Dokument wird eine allgemeine Architektur für eine Anwendung beschrieben, die KI verwendet, um Podcasts basierend auf Audioeingaben zu generieren.
Dieses Dokument richtet sich an Architekten, Entwickler und Administratoren, die generative KI-Anwendungen in der Cloud für die Medien- und Marketingbranche entwickeln und verwalten. In diesem Dokument wird davon ausgegangen, dass Sie ein grundlegendes Verständnis von generativer KI haben.
Im Abschnitt Bereitstellung dieses Dokuments finden Sie Codebeispiele für generative KI-Arbeitslasten, die multimodale Ein- und Ausgabeformate umfassen.
Architektur
Das folgende Diagramm zeigt eine Architektur für eine Anwendung für Podcast-Produzenten in Google Cloud. Die Anwendung verwendet KI, um Podcasts aus Audiodateien zu generieren, z. B. Live-Kommentare zu einem Sportereignis.
Die Architektur zeigt den folgenden Ablauf:
- Ein Nutzer lädt Audiodateien in einen Cloud Storage-Bucket hoch.
- Eventarc löst einen Cloud Run-Dienst aus.
- Der Cloud Run-Dienst sendet die Audiodateien an Speech-to-Text.
- Speech-to-Text erstellt Transkripte der Audiodateien mit Zeitstempeln.
Der Cloud Run-Dienst sendet die Transkripte an die Gemini API in Vertex AI mit einem Prompt zum Generieren eines Skripts für einen Podcast.
Der Prompt könnte beispielsweise lauten, ein Skript für einen 15-minütigen Podcast über die Highlights eines Sportereignisses auf Grundlage bestimmter Keywords im Kommentar zu erstellen.
Gemini generiert einen Entwurf für ein Podcast-Script.
Der Cloud Run-Dienst sendet das Script als Entwurf an den Nutzer.
Der Nutzer überprüft und bearbeitet das Skript und sendet es dann an die Text-to-Speech-Funktion.
Text-to-Speech erstellt eine Podcast-Audiodatei.
Verwendete Produkte
In dieser Beispielarchitektur werden die folgenden Produkte verwendet: Google Cloud
- Speech-to-Text: Eine API, die die Spracherkennungstechnologien von Google verwendet, um Audioinhalte in Text umzuwandeln.
- Vertex AI: Eine ML-Plattform, mit der Sie ML-Modelle und KI-Anwendungen trainieren und bereitstellen und LLMs für die Verwendung in KI-basierten Anwendungen anpassen können.
- Text-to-Speech: Eine API zum Erstellen natürlich klingender, synthetischer menschlicher Sprache aus Text.
- Cloud Storage: Ein kostengünstiger, unbegrenzter Objektspeicher für verschiedene Datentypen. Auf Daten kann von innerhalb und außerhalb von Google Cloudzugegriffen werden. Sie werden zu Redundanzzwecken über Standorte hinweg repliziert.
- Cloud Run ist eine serverlose Computing-Plattform, mit der Sie Container direkt auf der skalierbaren Infrastruktur von Google ausführen können.
- Eventarc: Eine serverlose Lösung zum asynchronen Weiterleiten von Nachrichten, die durch Ereignisse ausgelöst werden.
Bereitstellung
Wenn Sie die Verwendung von Google Cloud -Produkten für Arbeitslasten mit multimodalen Ein- und Ausgabeformaten wie Audio und Text testen möchten, können Sie die folgenden Codebeispiele verwenden:
- Transkript eines Audio-Interviews erstellen:
- Podcast mit mehreren Sprechern mit Gemini und der Text-to-Speech API generieren
- Audio aufnehmen und Übersetzung generieren:
Nächste Schritte
- Weitere Leitfäden zur Architektur generativer KI
- Eine Übersicht über Architekturprinzipien und Empfehlungen, die speziell für KI- und ML-Arbeitslasten in Google Cloudgelten, finden Sie im Well-Architected Framework in der KI- und ML-Perspektive.
- Weitere Referenzarchitekturen, Diagramme und Best Practices finden Sie im Cloud-Architekturcenter.
Beitragende
Autor: Kumar Dhanagopal | Cross-product Solution Developer
Weitere Beitragende:
- Amina Mansour | Head of Cloud Platform Evaluations Team
- Megan O'Keefe | Developer Advocate
- Samantha He | Technical Writer
- Shir Meir Lador | Developer Relations Engineering Manager