Exemplo de utilização da IA generativa: gere podcasts a partir de ficheiros de áudio

Este documento fornece uma arquitetura de alto nível para uma aplicação que usa IA para gerar podcasts com base na entrada de áudio.

O público-alvo deste documento inclui arquitetos, programadores e administradores que criam e gerem aplicações de IA generativa na nuvem para as indústrias de meios de comunicação e marketing. Este documento pressupõe que tem uma compreensão básica da IA generativa.

A secção Implementação deste documento fornece exemplos de código para cargas de trabalho de IA generativa que envolvem formatos de entrada e saída multimodaais.

Arquitetura

O diagrama seguinte mostra uma arquitetura para uma aplicação de produção de podcasts em Google Cloud. A aplicação usa IA para gerar podcasts a partir de ficheiros de áudio, como comentários em direto para um evento desportivo.

Arquitetura de uma aplicação de IA generativa que gera podcasts a partir de ficheiros de áudio. Arquitetura de uma aplicação de IA generativa que gera podcasts a partir de ficheiros de áudio.

A arquitetura mostra o seguinte fluxo:

  1. Um utilizador carrega ficheiros de áudio para um contentor do Cloud Storage.
  2. O Eventarc aciona um serviço do Cloud Run.
  3. O serviço do Cloud Run envia os ficheiros de áudio para o serviço Speech-to-Text.
  4. A conversão de voz em texto produz transcrições com indicação de tempo dos ficheiros de áudio.
  5. O serviço Cloud Run envia as transcrições para a API Gemini na Vertex AI, com um comando para gerar um guião para um podcast.

    Por exemplo, o comando pode ser para gerar um guião para um podcast de 15 minutos sobre os destaques de um evento desportivo com base em determinadas palavras-chave no comentário.

  6. O Gemini gera um rascunho de um guião de podcast.

  7. O serviço do Cloud Run envia o rascunho do script ao utilizador.

  8. O utilizador revê e edita o rascunho do script e, em seguida, envia o script final para a funcionalidade de conversão de texto em voz.

  9. A conversão de texto em voz produz um ficheiro de áudio de podcast.

Produtos usados

Esta arquitetura de exemplo usa os seguintes Google Cloud produtos:

  • Voz para texto: uma API que usa as tecnologias de reconhecimento de voz da Google para transcrever áudio em texto.
  • Vertex AI: uma plataforma de ML que lhe permite preparar e implementar modelos de ML e aplicações de IA, bem como personalizar MDIs/CE para utilização em aplicações com tecnologia de IA.
  • Conversão de texto em voz: uma API para criar voz humana sintética com som natural a partir de texto.
  • Cloud Storage: um local de armazenamento de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acedidos a partir do interior e do exterior Google Cloud, e são replicados em várias localizações para redundância.
  • Cloud Run: uma plataforma de computação sem servidor que lhe permite executar contentores diretamente na infraestrutura escalável da Google.
  • Eventarc: uma solução sem servidor para encaminhar assincronamente mensagens acionadas por eventos.

Implementação

Para experimentar a utilização de Google Cloud produtos para cargas de trabalho que envolvem formatos de entrada e saída multimodais, como áudio e texto, experimente os seguintes exemplos de código:

O que se segue?

Colaboradores

Autor: Kumar Dhanagopal | Cross-Product Solution Developer

Outros colaboradores: