생성형 AI 사용 사례: 오디오 파일에서 팟캐스트 생성

Last reviewed 2025-12-12 UTC

이 문서에서는 AI를 사용하여 오디오 입력을 기반으로 팟캐스트를 생성하는 애플리케이션의 개략적인 아키텍처를 제공합니다.

이 문서의 주요 대상은 미디어 및 마케팅 업계용 클라우드에서 생성형 AI 애플리케이션을 빌드하고 관리하는 설계자, 개발자, 관리자입니다. 이 문서에서는 사용자가 생성형 AI에 대한 기본적인 이해가 있다고 가정합니다.

이 문서의 배포 섹션에서는 멀티모달 입력 및 출력 형식이 포함된 생성형 AI 워크로드의 코드 샘플을 제공합니다.

아키텍처

다음 다이어그램은 Google Cloud의 팟캐스트 제작자 애플리케이션의 아키텍처를 보여줍니다. 이 애플리케이션은 AI를 사용하여 스포츠 이벤트의 라이브 해설과 같은 오디오 파일에서 팟캐스트를 생성합니다.

오디오 파일에서 팟캐스트를 생성하는 생성형 AI 애플리케이션의 아키텍처

아키텍처는 다음 흐름을 보여줍니다.

사용자가 Cloud Storage 버킷에 오디오 파일을 업로드합니다.
Eventarc가 Cloud Run 서비스를 트리거합니다.
Cloud Run 서비스는 오디오 파일을 Speech-to-Text로 보냅니다.
Speech-to-Text는 오디오 파일의 타임스탬프가 지정된 스크립트를 생성합니다.
Cloud Run 서비스는 팟캐스트 스크립트를 생성하라는 프롬프트와 함께 스크립트를 Vertex AI의 Gemini API로 전송합니다.

예를 들어 해설의 특정 키워드를 기반으로 스포츠 이벤트의 하이라이트에 관한 15분 길이의 팟캐스트 스크립트를 생성하라는 프롬프트가 있을 수 있습니다.
Gemini가 팟캐스트 스크립트 초안을 생성합니다.
Cloud Run 서비스가 초안 스크립트를 사용자에게 전송합니다.
사용자가 임시 스크립트를 검토하고 수정하여 최종 스크립트를 텍스트 음성 변환으로 보냅니다.
Text-to-Speech는 팟캐스트 오디오 파일을 생성합니다.

이 예시 아키텍처에는 다음과 같은 Google Cloud 제품이 사용됩니다.

Speech-to-Text: Google의 음성 인식 기술을 사용하여 오디오를 텍스트로 변환하는 API입니다.
Vertex AI: ML 모델 및 AI 애플리케이션을 학습 및 배포하고 AI 기반 애플리케이션에서 사용하도록 LLM을 맞춤설정할 수 있게 해주는 ML 플랫폼입니다.
Text-to-Speech: 텍스트에서 자연스럽게 들리는 합성 인간 음성을 만드는 API입니다.
Cloud Storage: 다양한 데이터 유형에 적합한 저비용, 무제한 객체 저장소입니다. Google Cloud내부 및 외부에서 데이터에 액세스할 수 있고 중복성을 위해 여러 위치에 복제됩니다.
Cloud Run: Google의 확장 가능한 인프라에서 직접 컨테이너를 실행할 수 있게 해주는 서버리스 컴퓨팅 플랫폼입니다.
Eventarc: 이벤트에 의해 트리거된 메시지를 비동기식으로 라우팅하는 서버리스 솔루션입니다.

오디오 및 텍스트와 같은 멀티모달 입력 및 출력 형식이 포함된 워크로드에 Google Cloud 제품을 사용하는 실험을 하려면 다음 코드 샘플을 사용해 보세요.

생성형 AI 아키텍처 가이드를 자세히 살펴보세요.
Google Cloud에서 AI 및 ML 워크로드와 관련된 아키텍처 원칙 및 권장사항에 대한 개요는 Well-Architected Framework의 AI 및 ML 관점을 참조하세요.
그 밖의 참조 아키텍처, 다이어그램, 튜토리얼, 권장사항을 알아보려면 Cloud 아키텍처 센터를 확인하세요.

저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자

기타 참여자: