Exemplo de utilização da IA generativa: gere podcasts a partir de ficheiros de áudio

Last reviewed 2025-12-12 UTC

Este documento fornece uma arquitetura de alto nível para uma aplicação que usa IA para gerar podcasts com base na entrada de áudio.

O público-alvo deste documento inclui arquitetos, programadores e administradores que criam e gerem aplicações de IA generativa na nuvem para as indústrias de meios de comunicação e marketing. Este documento pressupõe que tem uma compreensão básica da IA generativa.

A secção Implementação deste documento fornece exemplos de código para cargas de trabalho de IA generativa que envolvem formatos de entrada e saída multimodaais.

Arquitetura

O diagrama seguinte mostra uma arquitetura para uma aplicação de produção de podcasts em Google Cloud. A aplicação usa IA para gerar podcasts a partir de ficheiros de áudio, como comentários em direto para um evento desportivo.

Arquitetura de uma aplicação de IA generativa que gera podcasts a partir de ficheiros de áudio.

A arquitetura mostra o seguinte fluxo:

Um utilizador carrega ficheiros de áudio para um contentor do Cloud Storage.
O Eventarc aciona um serviço do Cloud Run.
O serviço do Cloud Run envia os ficheiros de áudio para o serviço Speech-to-Text.
A conversão de voz em texto produz transcrições com indicação de tempo dos ficheiros de áudio.
O serviço Cloud Run envia as transcrições para a API Gemini na Vertex AI, com um comando para gerar um guião para um podcast.

Por exemplo, o comando pode ser para gerar um guião para um podcast de 15 minutos sobre os destaques de um evento desportivo com base em determinadas palavras-chave no comentário.
O Gemini gera um rascunho de um guião de podcast.
O serviço do Cloud Run envia o rascunho do script ao utilizador.
O utilizador revê e edita o rascunho do script e, em seguida, envia o script final para a funcionalidade de conversão de texto em voz.
A conversão de texto em voz produz um ficheiro de áudio de podcast.

Produtos usados

Esta arquitetura de exemplo usa os seguintes Google Cloud produtos:

Voz para texto: uma API que usa as tecnologias de reconhecimento de voz da Google para transcrever áudio em texto.
Vertex AI: uma plataforma de ML que lhe permite preparar e implementar modelos de ML e aplicações de IA, bem como personalizar MDIs/CE para utilização em aplicações com tecnologia de IA.
Conversão de texto em voz: uma API para criar voz humana sintética com som natural a partir de texto.
Cloud Storage: um local de armazenamento de objetos de baixo custo e sem limite para diversos tipos de dados. Os dados podem ser acedidos a partir do interior e do exterior Google Cloud, e são replicados em várias localizações para redundância.
Cloud Run: uma plataforma de computação sem servidor que lhe permite executar contentores diretamente na infraestrutura escalável da Google.
Eventarc: uma solução sem servidor para encaminhar assincronamente mensagens acionadas por eventos.

Implementação

Para experimentar a utilização de Google Cloud produtos para cargas de trabalho que envolvem formatos de entrada e saída multimodais, como áudio e texto, experimente os seguintes exemplos de código:

O que se segue?

Explore mais guias de arquitetura de IA generativa.
Para uma vista geral dos princípios e recomendações de arquitetura específicos das cargas de trabalho de IA e ML no Google Cloud, consulte aperspetiva de IA e ML no Well-Architected Framework.
Para ver mais arquiteturas de referência, diagramas e práticas recomendadas, explore o Centro de arquitetura na nuvem.

Colaboradores

Autor: Kumar Dhanagopal | Cross-Product Solution Developer

Outros colaboradores:

Amina Mansour | Head of Cloud Platform Evaluations Team
Megan O'Keefe | Consultora de programadores
Samantha He | Redatora técnica
Shir Meir Lador | Developer Relations Engineering Manager

Exemplo de utilização da IA generativa: gere podcasts a partir de ficheiros de áudio Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.