Podcasts generieren (API-Methode)

Gemini Enterprise bietet eine API, mit der Sie Podcasts basierend auf Quelldokumenten generieren können. Die Ausgabe ähnelt sehr den Podcasts, die Endnutzer in ihren Notebooks generieren können.

Die Podcast-Generierung über die API eignet sich gut für Batch-Jobs, bei denen Sie möglicherweise Dutzende oder Hunderte von Büchern, Artikeln oder Kursen haben und für jeden einen Podcast generieren möchten.

Die Podcast API ist eine eigenständige API. Sie benötigen also kein NotebookLM Enterprise-Notebook, keine Gemini Enterprise-Lizenz und keinen Datenspeicher. Sie benötigen lediglich ein aktiviertes Google Cloud -Projekt und die Rolle „Podcast API User“.

Eingaben

Die Eingabe für die API ist ein Array mit context-Elementen. Das ist das Quellmaterial, aus dem der Podcast generiert wird. Die Eingabe kann in Form von Text, Bildern, Audio und Video erfolgen. Der gesamte Inhalt des Kontext-Arrays muss weniger als 100.000 Tokens umfassen.

Eine Liste der unterstützten Typen finden Sie auf dieser Seite unter Gemini 2.5 Flash in den technischen Spezifikationen für Bilder, Dokumente, Videos und Audio.

Ausgabe

Die Ausgabe der API ist der Podcast im MP3-Format.

Hinweise

Bevor Sie einen Podcast mit der API generieren können, benötigen Sie Folgendes:

Podcast aus Kontext-Eingabe generieren

Verwenden Sie den folgenden Befehl, um einen Podcast zu generieren, indem Sie die Methode podcast aufrufen.

Die Eingabe ist ein Array von Multimedia-Objekten wie Text, Bildern sowie Audio- und Videoclips.

REST

So generierst und exportierst du einen Podcast:

  1. Führen Sie den folgenden curl-Befehl aus:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/podcasts" \
      -d '{
          "podcastConfig": {
            "focus": "FOCUS",
            "length": "LENGTH",
            "languageCode": "LANGUAGE_CODE"
          },
          "contexts": [
            {
              "MEDIA_TYPE_1": "MEDIA_CONTENT_1"
            },
            {
              "MEDIA_TYPE_2": "MEDIA_CONTENT_2"
            }
          ],
          "title": "PODCAST_TITLE",
          "description": "PODCAST_DESCRIPTION"
      }'
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die Projekt-ID.
    • FOCUS: Ein Prompt, in dem Sie den Fokus des Podcasts vorschlagen.
    • LENGTH: Es gibt zwei Möglichkeiten:
      • SHORT (in der Regel 4–5 Minuten)
      • STANDARD (in der Regel etwa 10 Minuten, bei kleineren Datensätzen kann es aber auch kürzer sein)
    • LANGUAGE_CODE: Optional. Geben Sie den Sprachcode für den Podcast an. Verwenden Sie Sprachentags, die von BCP47 definiert werden. Wenn der Sprachcode nicht angegeben ist, wird der Podcast auf Englisch generiert.
    • MEDIA_TYPE_N: Gib den Medientyp an, auf den du dich beziehst, um den Podcast zu generieren. Die folgenden Typen sind zulässig:
      • text. Nur-Text.
      • blob. Verwenden Sie diesen Typ für alle Medientypen außer Nur-Text und laden Sie die Daten als Rohbytes hoch.
    • MEDIA_CONTENT_N: Der Inhalt selbst als Nur-Text oder Rohbytes. Der gesamte Inhalt des Kontextarrays muss weniger als 100.000 Tokens umfassen.
    • PODCAST_TITLE: Ein Titel für den Podcast. Sie kann für den internen Gebrauch bestimmt sein oder Sie können sie Ihren Endnutzern anzeigen lassen.
    • PODCAST_DESCRIPTION: eine Beschreibung des Podcasts. Sie kann intern verwendet werden oder Sie können sie Ihren Endnutzern anzeigen.

    Die Erstellung eines Podcasts dauert einige Minuten.

  2. Notieren Sie sich den Namen des Vorgangs. Sie benötigen ihn, um den Podcast in Schritt 4 herunterzuladen. Im obigen Beispiel lautet der Vorgangsname projects/123456/locations/global/operations/create-podcast-54321.

  3. Optional. Fragen Sie den Status des Vorgangs zur Podcast-Erstellung ab. Weitere Informationen finden Sie unter Details zu einem Vorgang mit langer Ausführungszeit abrufen.

  4. Führen Sie nach Abschluss des Vorgangs den folgenden curl-Befehl aus, um den Podcast herunterzuladen:

    curl -v \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      "https://discoveryengine.googleapis.com/v1/OPERATION_NAME:download?alt=media" \
      --output FILENAME.mp3 -L
    

    Ersetzen Sie Folgendes:

    • OPERATION_NAME: Der Name des Vorgangs, den Sie sich in Schritt 2 notiert haben.
    • FILENAME: ein Dateiname für den Podcast.

    Mit diesem Befehl wird der Podcast als MP3-Datei in Ihr lokales Verzeichnis heruntergeladen.

Compliance

Die Podcast API entspricht nicht den vom Kunden verwalteten Verschlüsselungsschlüsseln (Customer-Managed Encryption Keys, CMEK) für CMEK für Gemini Enterprise.