ポッドキャストを生成する(API メソッド)

Gemini Enterprise には、ソースドキュメントに基づいてポッドキャストを生成できる API が用意されています。出力は、エンドユーザーがノートブック内から生成できるポッドキャストと非常によく似ています。

API を介したポッドキャストの生成は、数十冊または数百冊の書籍、記事、コースがあり、それぞれにポッドキャストを生成する場合のバッチジョブに適しています。

Podcast API はスタンドアロンの API です。つまり、NotebookLM Enterprise ノートブック、Gemini Enterprise ライセンス、データストアは必要ありません。必要なのは、有効な Google Cloud プロジェクトと Podcast API ユーザーのロールだけです。

入力

API の入力は context 要素の配列です。これは、ポッドキャストの生成元となるソースマテリアルです。入力は、テキスト、画像、音声、動画の形式にできます。コンテキスト配列のコンテンツの合計は 100,000 トークン未満にする必要があります。

サポートされているタイプの一覧については、Gemini 2.5 Flash に関するこのページの画像、ドキュメント、動画、音声の技術仕様をご覧ください。

出力

API からの出力は、MP3 形式のポッドキャストです。

始める前に

API を使用してポッドキャストを生成するには、次のものが必要です。

コンテキスト入力からポッドキャストを生成する

次のコマンドを使用して、podcast メソッドを呼び出してポッドキャストを生成します。

入力は、テキスト、画像、音声クリップ、動画クリップなどのマルチメディア オブジェクトの配列です。

REST

ポッドキャストを生成してエクスポートする手順は次のとおりです。

  1. 次の curl コマンドを実行します。

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/podcasts" \
      -d '{
          "podcastConfig": {
            "focus": "FOCUS",
            "length": "LENGTH",
            "languageCode": "LANGUAGE_CODE"
          },
          "contexts": [
            {
              "MEDIA_TYPE_1": "MEDIA_CONTENT_1"
            },
            {
              "MEDIA_TYPE_2": "MEDIA_CONTENT_2"
            }
          ],
          "title": "PODCAST_TITLE",
          "description": "PODCAST_DESCRIPTION"
      }'
    

    次のように置き換えます。

    • PROJECT_ID: 実際のプロジェクトの ID。
    • FOCUS: ポッドキャストの焦点となる内容を提案するプロンプト。
    • LENGTH: 次の 2 つのオプションがあります。
      • SHORT(通常 4 ~ 5 分)
      • STANDARD(通常は約 10 分ですが、データセットが小さい場合は短くなることがあります)
    • LANGUAGE_CODE: 省略可。ポッドキャストの言語コードを指定します。BCP47 で定義されている言語タグを使用します。言語コードが指定されていない場合、ポッドキャストは英語で生成されます。
    • MEDIA_TYPE_N: ポッドキャストの生成に使用するメディアのタイプを指定します。使用できる型は次のとおりです。
      • text。書式なしテキスト。
      • blob。プレーン テキスト以外のすべてのメディア タイプでは、このタイプを使用して、データを未加工のバイトとしてアップロードします。
    • MEDIA_CONTENT_N: プレーン テキストまたは未加工のバイト形式のコンテンツ自体。コンテキスト配列の合計コンテンツは 100K トークン未満にする必要があります。
    • PODCAST_TITLE: ポッドキャストのタイトル。これは内部で使用することも、エンドユーザーに表示することもできます。
    • PODCAST_DESCRIPTION: ポッドキャストの説明。これは内部で使用することも、エンドユーザーに表示することもできます。

    ポッドキャストの生成には数分かかります。

  2. オペレーション名をメモします。ステップ 4 でポッドキャストをダウンロードする際に必要になります。上記の例では、オペレーション名は projects/123456/locations/global/operations/create-podcast-54321 です。

  3. 省略可。ポッドキャスト作成オペレーションのステータスをポーリングします。長時間実行オペレーションの詳細を取得するをご覧ください。

  4. オペレーションが完了したら、次の curl コマンドを実行してポッドキャストをダウンロードします。

    curl -v \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      "https://discoveryengine.googleapis.com/v1/OPERATION_NAME:download?alt=media" \
      --output FILENAME.mp3 -L
    

    次のように置き換えます。

    • OPERATION_NAME: ステップ 2 でメモしたオペレーションの名前。
    • FILENAME: ポッドキャストのファイル名。

    このコマンドは、ポッドキャストをローカル ディレクトリの MP3 ファイルにダウンロードします。

コンプライアンス

Podcast API は、顧客管理の暗号鍵である Gemini Enterprise の CMEK に準拠していません。