Este documento fornece uma arquitetura de alto nível para um aplicativo que usa IA para gerar podcasts com base em entradas de áudio.
O público-alvo deste documento inclui arquitetos, desenvolvedores e administradores que criam e gerenciam aplicativos de IA generativa na nuvem para os setores de mídia e marketing. No documento, pressupomos que você tenha uma compreensão básica da IA generativa.
A seção Implantação deste documento fornece exemplos de código para cargas de trabalho de IA generativa que envolvem formatos de entrada e saída multimodais.
Arquitetura
O diagrama a seguir mostra uma arquitetura para um aplicativo de produção de podcast em Google Cloud. O aplicativo usa IA para gerar podcasts com base em arquivos de áudio, como comentários ao vivo de um evento esportivo.
A arquitetura mostra o seguinte fluxo:
- Um usuário faz upload de arquivos de áudio para um bucket do Cloud Storage.
- O Eventarc aciona um serviço do Cloud Run.
- O serviço do Cloud Run envia os arquivos de áudio para o Speech-to-Text.
- A API Speech-to-Text produz transcrições com carimbo de data/hora dos arquivos de áudio.
O serviço do Cloud Run envia as transcrições para a API Gemini na Vertex AI, com um comando para gerar um roteiro de podcast.
Por exemplo, o comando pode ser para gerar um roteiro de um podcast de 15 minutos sobre os destaques de um evento esportivo com base em determinadas palavras-chave no comentário.
O Gemini gera um rascunho de um roteiro de podcast.
O serviço do Cloud Run envia o script de rascunho para o usuário.
O usuário revisa e edita o rascunho do script e envia o script final para o Text-to-Speech.
O Text-to-Speech produz um arquivo de áudio de podcast.
Produtos usados
Esta arquitetura de exemplo usa os seguintes produtos Google Cloud :
- Speech-to-Text: uma API que usa as tecnologias de reconhecimento de fala do Google para transcrever áudio em texto.
- Vertex AI: uma plataforma de ML que permite treinar e implantar modelos de ML e aplicativos de IA, além de personalizar LLMs para uso em aplicativos com tecnologia de IA.
- Text-to-Speech: uma API para criar fala humana sintética e com som natural a partir de texto.
- Cloud Storage: um armazenamento de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acessados de dentro e fora Google Cloude são replicados entre locais para redundância.
- Cloud Run: uma plataforma de computação sem servidor que permite executar contêineres diretamente na infraestrutura escalonável do Google.
- Eventarc: uma solução sem servidor para rotear de forma assíncrona mensagens acionadas por eventos.
Implantação
Para testar o uso de produtos do Google Cloud em cargas de trabalho que envolvem formatos de entrada e saída multimodais, como áudio e texto, confira os exemplos de código a seguir:
- Gerar uma transcrição de uma entrevista em áudio.
- Gere um podcast com vários falantes usando o Gemini e a API Text-to-Speech.
- Grave um áudio e gere uma tradução.
A seguir
- Descoberta avançada guias de arquitetura de IA generativa.
- Para uma visão geral dos princípios e recomendações de arquitetura específicos para cargas de trabalho de IA e ML no Google Cloud, consulte a perspectiva de IA e ML no Well-Architected Framework.
- Para mais arquiteturas de referência, diagramas e práticas recomendadas, confira a Central de arquitetura do Cloud.
Colaboradores
Autor: Kumar Dhanagopal | Desenvolvedor de soluções de vários produtos
Outros colaboradores:
- Amina Mansour | Líder da equipe de avaliações do Cloud Platform
- Megan O'Keefe | Mediadora de desenvolvedores
- Samantha He | Gravador técnico
- Shir Meir Lador | Gerente de engenharia de relações com desenvolvedores