Caso de uso da IA generativa: gerar podcasts com arquivos de áudio

Este documento fornece uma arquitetura de alto nível para um aplicativo que usa IA para gerar podcasts com base em entradas de áudio.

O público-alvo deste documento inclui arquitetos, desenvolvedores e administradores que criam e gerenciam aplicativos de IA generativa na nuvem para os setores de mídia e marketing. No documento, pressupomos que você tenha uma compreensão básica da IA generativa.

A seção Implantação deste documento fornece exemplos de código para cargas de trabalho de IA generativa que envolvem formatos de entrada e saída multimodais.

Arquitetura

O diagrama a seguir mostra uma arquitetura para um aplicativo de produção de podcast em Google Cloud. O aplicativo usa IA para gerar podcasts com base em arquivos de áudio, como comentários ao vivo de um evento esportivo.

Arquitetura de um aplicativo de IA generativa que cria podcasts com base em arquivos de áudio. Arquitetura de um aplicativo de IA generativa que cria podcasts com base em arquivos de áudio.

A arquitetura mostra o seguinte fluxo:

  1. Um usuário faz upload de arquivos de áudio para um bucket do Cloud Storage.
  2. O Eventarc aciona um serviço do Cloud Run.
  3. O serviço do Cloud Run envia os arquivos de áudio para o Speech-to-Text.
  4. A API Speech-to-Text produz transcrições com carimbo de data/hora dos arquivos de áudio.
  5. O serviço do Cloud Run envia as transcrições para a API Gemini na Vertex AI, com um comando para gerar um roteiro de podcast.

    Por exemplo, o comando pode ser para gerar um roteiro de um podcast de 15 minutos sobre os destaques de um evento esportivo com base em determinadas palavras-chave no comentário.

  6. O Gemini gera um rascunho de um roteiro de podcast.

  7. O serviço do Cloud Run envia o script de rascunho para o usuário.

  8. O usuário revisa e edita o rascunho do script e envia o script final para o Text-to-Speech.

  9. O Text-to-Speech produz um arquivo de áudio de podcast.

Produtos usados

Esta arquitetura de exemplo usa os seguintes produtos Google Cloud :

  • Speech-to-Text: uma API que usa as tecnologias de reconhecimento de fala do Google para transcrever áudio em texto.
  • Vertex AI: uma plataforma de ML que permite treinar e implantar modelos de ML e aplicativos de IA, além de personalizar LLMs para uso em aplicativos com tecnologia de IA.
  • Text-to-Speech: uma API para criar fala humana sintética e com som natural a partir de texto.
  • Cloud Storage: um armazenamento de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acessados de dentro e fora Google Cloude são replicados entre locais para redundância.
  • Cloud Run: uma plataforma de computação sem servidor que permite executar contêineres diretamente na infraestrutura escalonável do Google.
  • Eventarc: uma solução sem servidor para rotear de forma assíncrona mensagens acionadas por eventos.

Implantação

Para testar o uso de produtos do Google Cloud em cargas de trabalho que envolvem formatos de entrada e saída multimodais, como áudio e texto, confira os exemplos de código a seguir:

A seguir

Colaboradores

Autor: Kumar Dhanagopal | Desenvolvedor de soluções de vários produtos

Outros colaboradores: