Este documento fornece uma arquitetura de alto nível para uma aplicação que usa IA para gerar podcasts com base na entrada de áudio.
O público-alvo deste documento inclui arquitetos, programadores e administradores que criam e gerem aplicações de IA generativa na nuvem para as indústrias de meios de comunicação e marketing. Este documento pressupõe que tem uma compreensão básica da IA generativa.
A secção Implementação deste documento fornece exemplos de código para cargas de trabalho de IA generativa que envolvem formatos de entrada e saída multimodaais.
Arquitetura
O diagrama seguinte mostra uma arquitetura para uma aplicação de produção de podcasts em Google Cloud. A aplicação usa IA para gerar podcasts a partir de ficheiros de áudio, como comentários em direto para um evento desportivo.
A arquitetura mostra o seguinte fluxo:
- Um utilizador carrega ficheiros de áudio para um contentor do Cloud Storage.
- O Eventarc aciona um serviço do Cloud Run.
- O serviço do Cloud Run envia os ficheiros de áudio para o serviço Speech-to-Text.
- A conversão de voz em texto produz transcrições com indicação de tempo dos ficheiros de áudio.
O serviço Cloud Run envia as transcrições para a API Gemini na Vertex AI, com um comando para gerar um guião para um podcast.
Por exemplo, o comando pode ser para gerar um guião para um podcast de 15 minutos sobre os destaques de um evento desportivo com base em determinadas palavras-chave no comentário.
O Gemini gera um rascunho de um guião de podcast.
O serviço do Cloud Run envia o rascunho do script ao utilizador.
O utilizador revê e edita o rascunho do script e, em seguida, envia o script final para a funcionalidade de conversão de texto em voz.
A conversão de texto em voz produz um ficheiro de áudio de podcast.
Produtos usados
Esta arquitetura de exemplo usa os seguintes Google Cloud produtos:
- Voz para texto: uma API que usa as tecnologias de reconhecimento de voz da Google para transcrever áudio em texto.
- Vertex AI: uma plataforma de ML que lhe permite preparar e implementar modelos de ML e aplicações de IA, bem como personalizar MDIs/CE para utilização em aplicações com tecnologia de IA.
- Conversão de texto em voz: uma API para criar voz humana sintética com som natural a partir de texto.
- Cloud Storage: um local de armazenamento de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acedidos a partir do interior e do exterior Google Cloud, e são replicados em várias localizações para redundância.
- Cloud Run: uma plataforma de computação sem servidor que lhe permite executar contentores diretamente na infraestrutura escalável da Google.
- Eventarc: uma solução sem servidor para encaminhar assincronamente mensagens acionadas por eventos.
Implementação
Para experimentar a utilização de Google Cloud produtos para cargas de trabalho que envolvem formatos de entrada e saída multimodais, como áudio e texto, experimente os seguintes exemplos de código:
- Gere uma transcrição de uma entrevista de áudio.
- Gere um podcast com vários oradores através da API Gemini e da API Text-to-Speech.
- Grave áudio e gere uma tradução.
O que se segue?
- Explore mais guias de arquitetura de IA generativa.
- Para uma vista geral dos princípios e recomendações de arquitetura específicos das cargas de trabalho de IA e ML no Google Cloud, consulte aperspetiva de IA e ML no Well-Architected Framework.
- Para ver mais arquiteturas de referência, diagramas e práticas recomendadas, explore o Centro de arquitetura na nuvem.
Colaboradores
Autor: Kumar Dhanagopal | Cross-Product Solution Developer
Outros colaboradores:
- Amina Mansour | Head of Cloud Platform Evaluations Team
- Megan O'Keefe | Consultora de programadores
- Samantha He | Redatora técnica
- Shir Meir Lador | Developer Relations Engineering Manager