Caso d'uso dell'AI generativa: generare podcast da file audio

Questo documento fornisce un'architettura di alto livello per un'applicazione che utilizza l'AI per generare podcast basati sull'input audio.

Il pubblico di destinazione di questo documento include architetti, sviluppatori e amministratori che creano e gestiscono applicazioni di AI generativa nel cloud per i settori dei media e del marketing. Il documento presuppone che tu abbia una conoscenza di base dell'AI generativa.

La sezione Deployment di questo documento fornisce esempi di codice per i carichi di lavoro di AI generativa che coinvolgono formati di input e output multimodali.

Architettura

Il seguente diagramma mostra un'architettura per un'applicazione di produzione di podcast in Google Cloud. L'applicazione utilizza l'AI per generare podcast da file audio, come i commenti in diretta di un evento sportivo.

Architettura per un'applicazione di AI generativa che genera podcast da file audio. Architettura per un'applicazione di AI generativa che genera podcast da file audio.

L'architettura mostra il seguente flusso:

  1. Un utente carica file audio in un bucket Cloud Storage.
  2. Eventarc attiva un servizio Cloud Run.
  3. Il servizio Cloud Run invia i file audio a Speech-to-Text.
  4. Speech-to-Text produce trascrizioni con timestamp dei file audio.
  5. Il servizio Cloud Run invia le trascrizioni all'API Gemini in Vertex AI, con un prompt per generare il copione di un podcast.

    Ad esempio, il prompt potrebbe essere quello di generare il copione di un podcast di 15 minuti sui momenti salienti di un evento sportivo in base a determinate parole chiave nel commento.

  6. Gemini genera una bozza di script per un podcast.

  7. Il servizio Cloud Run invia all'utente la bozza dello script.

  8. L'utente rivede e modifica la bozza del copione, quindi invia il copione finale a Text-to-Speech.

  9. Text-to-Speech produce un file audio del podcast.

Prodotti utilizzati

Questa architettura di esempio utilizza i seguenti prodotti Google Cloud :

  • Speech-to-Text: un'API che utilizza le tecnologie di riconoscimento vocale di Google per trascrivere l'audio in testo.
  • Vertex AI: una piattaforma ML che ti consente di addestrare ed eseguire il deployment di modelli ML e applicazioni AI e personalizzare LLM da utilizzare in applicazioni basate sull'AI.
  • Text-to-Speech: un'API per creare una sintesi vocale dal suono naturale a partire dal testo.
  • Cloud Storage: uno spazio di archiviazione di oggetti a basso costo e senza limiti per diversi tipi di dati. I dati sono accessibili dall'interno e dall'esterno di Google Cloude vengono replicati in più località per la ridondanza.
  • Cloud Run: una piattaforma di computing serverless che ti consente di eseguire container direttamente sull'infrastruttura scalabile di Google.
  • Eventarc: una soluzione serverless per instradare in modo asincrono i messaggi attivati dagli eventi.

Deployment

Per sperimentare l'utilizzo dei prodotti Google Cloud per carichi di lavoro che coinvolgono formati di input e output multimodali come audio e testo, prova i seguenti esempi di codice:

Passaggi successivi

Collaboratori

Autore: Kumar Dhanagopal | Sviluppatore di soluzioni cross-prodotto

Altri collaboratori: