生成 AI のユースケース: 音声ファイルからポッドキャストを生成する

Last reviewed 2025-12-12 UTC

このドキュメントでは、音声入力に基づいて AI を使用してポッドキャストを生成するアプリケーションのアーキテクチャの概要について説明します。

このドキュメントは、メディア業界とマーケティング業界向けにクラウドで生成 AI アプリケーションを構築して管理するアーキテクト、デベロッパー、管理者を対象としています。このドキュメントは、生成 AI に関する基本的な知識があることを前提としています。

このドキュメントのデプロイセクションでは、マルチモーダル入力形式と出力形式を使用する生成 AI ワークロードのコードサンプルを提供します。

アーキテクチャ

次の図は、 Google Cloudのポッドキャストプロデューサーアプリケーションのアーキテクチャを示しています。このアプリケーションは、AI を使用して、スポーツイベントのライブ解説などの音声ファイルからポッドキャストを生成します。

音声ファイルからポッドキャストを生成する生成 AI アプリケーションのアーキテクチャ。

このアーキテクチャは次のフローを示しています。

ユーザーが Cloud Storage バケットに音声ファイルをアップロードします。
Eventarc が Cloud Run サービスをトリガーします。
Cloud Run サービスが音声ファイルを Speech-to-Text に送信します。
Speech-to-Text は、音声ファイルのタイムスタンプ付きの文字起こしを生成します。
Cloud Run サービスは、ポッドキャストのスクリプトを生成するプロンプトとともに、文字起こしを Vertex AI の Gemini API に送信します。

たとえば、解説の特定のキーワードに基づいて、スポーツイベントのハイライトに関する 15 分間のポッドキャストのスクリプトを生成するよう求めるプロンプトを入力できます。
Gemini がポッドキャストのスクリプトの下書きを生成します。
Cloud Run サービスが下書きスクリプトをユーザーに送信します。
ユーザーは下書きスクリプトを確認して編集し、最終的なスクリプトを Text-to-Speech に送信します。
Text-to-Speech はポッドキャストの音声ファイルを生成します。

このアーキテクチャ例では、次の Google Cloud プロダクトを使用します。

Speech-to-Text: Google の音声認識技術を使用して音声をテキストに変換する API。
Vertex AI: ML モデルと AI アプリケーションのトレーニングとデプロイを行い、AI を活用したアプリケーションで使用する LLM をカスタマイズできる ML プラットフォーム。
Text-to-Speech: テキストから自然に聞こえる合成音声を作成する API。
Cloud Storage: 低コストで無制限のオブジェクトストア。さまざまなデータ型に対応しています。データには Google Cloudの内部および外部からアクセスでき、冗長性を確保するために複数のロケーションに複製されます。
Cloud Run: Google のスケーラブルなインフラストラクチャ上でコンテナを直接実行できるマネージドコンピューティングプラットフォーム。
Eventarc: イベントによってトリガーされたメッセージを非同期でルーティングするサーバーレスソリューション。

音声やテキストなどのマルチモーダル入力形式と出力形式を含むワークロードに Google Cloud プロダクトを使用するテストを行うには、次のコードサンプルを試してください。

その他の生成 AI アーキテクチャガイドを確認する。
Google Cloudの AI ワークロードと ML ワークロードに固有のアーキテクチャ原則と推奨事項の概要について、Well-Architected Framework の AI と ML の視点を確認する。
Cloud アーキテクチャセンターで、リファレンスアーキテクチャ、図、ベストプラクティスを確認する。

著者: Kumar Dhanagopal | クロスプロダクトソリューションデベロッパー

その他の寄稿者: