このドキュメントでは、音声入力に基づいて AI を使用してポッドキャストを生成するアプリケーションのアーキテクチャの概要について説明します。
このドキュメントは、メディア業界とマーケティング業界向けにクラウドで生成 AI アプリケーションを構築して管理するアーキテクト、デベロッパー、管理者を対象としています。このドキュメントは、生成 AI に関する基本的な知識があることを前提としています。
このドキュメントのデプロイ セクションでは、マルチモーダル入力形式と出力形式を使用する生成 AI ワークロードのコードサンプルを提供します。
アーキテクチャ
次の図は、 Google Cloudのポッドキャスト プロデューサー アプリケーションのアーキテクチャを示しています。このアプリケーションは、AI を使用して、スポーツ イベントのライブ解説などの音声ファイルからポッドキャストを生成します。
このアーキテクチャは次のフローを示しています。
- ユーザーが Cloud Storage バケットに音声ファイルをアップロードします。
- Eventarc が Cloud Run サービスをトリガーします。
- Cloud Run サービスが音声ファイルを Speech-to-Text に送信します。
- Speech-to-Text は、音声ファイルのタイムスタンプ付きの文字起こしを生成します。
Cloud Run サービスは、ポッドキャストのスクリプトを生成するプロンプトとともに、トランスクリプトを Vertex AI の Gemini API に送信します。
たとえば、解説の特定のキーワードに基づいて、スポーツ イベントのハイライトに関する 15 分間のポッドキャストのスクリプトを生成するよう求めるプロンプトを入力できます。
Gemini がポッドキャストのスクリプトの下書きを生成します。
Cloud Run サービスが下書きスクリプトをユーザーに送信します。
ユーザーは下書きスクリプトを確認して編集し、最終的なスクリプトを Text-to-Speech に送信します。
Text-to-Speech はポッドキャストの音声ファイルを生成します。
使用するプロダクト
このアーキテクチャ例では、次の Google Cloud プロダクトを使用します。
- Speech-to-Text: Google の音声認識技術を使用して音声をテキストに変換する API。
- Vertex AI: ML モデルと AI アプリケーションのトレーニングとデプロイを行い、AI を活用したアプリケーションで使用する LLM をカスタマイズできる ML プラットフォーム。
- Text-to-Speech: テキストから自然な人間の音声を合成して作成する API。
- Cloud Storage: 低コストで無制限のオブジェクト ストア。さまざまなデータ型に対応しています。データには Google Cloudの内部および外部からアクセスでき、冗長性を確保するために複数のロケーションに複製されます。
- Cloud Run: Google のスケーラブルなインフラストラクチャ上でコンテナを直接実行できるマネージド コンピューティング プラットフォーム。
- Eventarc: イベントによってトリガーされたメッセージを非同期でルーティングするサーバーレス ソリューション。
デプロイ
音声やテキストなどのマルチモーダル入力形式と出力形式を含むワークロードに Google Cloud プロダクトを使用するテストを行うには、次のコードサンプルを試してください。
次のステップ
- その他の生成 AI アーキテクチャ ガイドを確認する。
- Google Cloudの AI ワークロードと ML ワークロードに固有のアーキテクチャ原則と推奨事項の概要について、Well-Architected Framework の AI と ML の視点を確認する。
- Cloud アーキテクチャ センターで、リファレンス アーキテクチャ、図、ベスト プラクティスを確認する。
協力者
著者: Kumar Dhanagopal | クロスプロダクト ソリューション デベロッパー
その他の寄稿者:
- Amina Mansour | Cloud Platform 評価チームの責任者
- Megan O'Keefe | デベロッパー アドボケイト
- Samantha He | テクニカル ライター
- Shir Meir Lador | デベロッパー リレーションズ エンジニアリング マネージャー