Podcasts generieren (API-Methode)

Gemini Enterprise bietet eine API, mit der Sie Podcasts basierend auf Quelldokumenten generieren können. Die Ausgabe ähnelt sehr den Podcasts, die Endnutzer in ihren Notebooks generieren können.

Die Podcast-Generierung über die API eignet sich gut für Batchjobs, bei denen Sie möglicherweise Dutzende oder Hunderte von Büchern, Artikeln oder Kursen haben und für jeden einen Podcast generieren möchten.

Die Podcast API ist eine eigenständige API. Sie benötigen also kein NotebookLM Enterprise-Notebook, keine Gemini Enterprise-Lizenz und keinen Datenspeicher. Sie benötigen lediglich ein aktiviertes Google Cloud Projekt und die Rolle „Podcast API User“.

Eingaben

Die Eingabe für die API ist ein Array von context-Elementen. Dies ist das Quellmaterial, aus dem der Podcast generiert wird. Die Eingabe kann die Form von Text, Bildern, Audio und Video haben. Der gesamte Inhalt des Kontextarrays muss weniger als 100.000 Tokens umfassen.

Eine Liste der unterstützten Typen finden Sie unter Gemini 2.5 Flash in den technischen Spezifikationen für Bilder, Dokumente, Videos und Audio.

Ausgabe

Die Ausgabe der API ist der Podcast im MP3-Format.

Voraussetzungen

Bevor Sie einen Podcast mit der API erstellen können, benötigen Sie Folgendes:

Podcast aus Kontexteingabe generieren

Verwenden Sie den folgenden Befehl, um einen Podcast zu generieren, indem Sie die Methode podcast aufrufen.

Die Eingabe ist ein Array von Multimedia-Objekten wie Text, Bildern sowie Audio- und Videoclips.

REST

So generieren und exportieren Sie einen Podcast:

  1. Führen Sie den folgenden curl-Befehl aus:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/podcasts" \
      -d '{
          "podcastConfig": {
            "focus": "FOCUS",
            "length": "LENGTH",
            "languageCode": "LANGUAGE_CODE"
          },
          "contexts": [
            {
              "MEDIA_TYPE_1": "MEDIA_CONTENT_1"
            },
            {
              "MEDIA_TYPE_2": "MEDIA_CONTENT_2"
            }
          ],
          "title": "PODCAST_TITLE",
          "description": "PODCAST_DESCRIPTION"
      }'
    

    Ersetzen Sie Folgendes:

    • PROJECT_ID: die Projekt-ID
    • FOCUS: ein Prompt, in dem Sie den Schwerpunkt des Podcasts vorschlagen
    • LENGTH: Es gibt zwei Möglichkeiten:
      • SHORT (in der Regel 4 bis 5 Minuten)
      • STANDARD (in der Regel etwa 10 Minuten, kann bei kleineren Datasets aber auch kürzer sein)
    • LANGUAGE_CODE: optional. Geben Sie den Sprachcode für den Podcast an. Verwenden Sie Sprach-Tags, wie von BCP47 definiert. Wenn der Sprachcode nicht angegeben ist, wird der Podcast auf Englisch generiert.
    • MEDIA_TYPE_N: Geben Sie den Medientyp an, auf den Sie sich beziehen, um den Podcast zu generieren. Die folgenden Typen sind zulässig:
      • text: Nur-Text.
      • blob: Verwenden Sie diesen Typ für alle Medientypen außer Nur-Text und laden Sie die Daten als Rohbyte hoch.
    • MEDIA_CONTENT_N: der Inhalt selbst als Nur-Text oder Rohbyte. Der gesamte Inhalt des Kontextarrays muss weniger als 100.000 Tokens umfassen.
    • PODCAST_TITLE: ein Titel für den Podcast. Er kann für den internen Gebrauch bestimmt sein oder Sie können ihn Ihren Endnutzern anzeigen lassen.
    • PODCAST_DESCRIPTION: eine Beschreibung des Podcasts. Sie kann für den internen Gebrauch bestimmt sein oder Sie können sie Ihren Endnutzern anzeigen lassen.

    Das Erstellen eines Podcasts dauert einige Minuten.

  2. Notieren Sie sich den Namen des Vorgangs. Sie benötigen ihn in Schritt 4, um den Podcast herunterzuladen. Im obigen Beispiel lautet der Vorgangsname projects/123456/locations/global/operations/create-podcast-54321.

  3. Optional. Fragen Sie den Status des Vorgangs zur Podcast-Erstellung ab. Weitere Informationen finden Sie unter Details zu einem Vorgang mit langer Ausführungszeit abrufen.

  4. Führen Sie nach Abschluss des Vorgangs den folgenden curl-Befehl aus, um den Podcast herunterzuladen:

    curl -v \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      "https://discoveryengine.googleapis.com/v1/OPERATION_NAME:download?alt=media" \
      --output FILENAME.mp3 -L
    

    Ersetzen Sie Folgendes:

    • OPERATION_NAME: der Name des Vorgangs, den Sie sich in Schritt 2 notiert haben
    • FILENAME: ein Dateiname für den Podcast

    Mit diesem Befehl wird der Podcast als MP3-Datei in Ihr lokales Verzeichnis heruntergeladen.

Compliance

Die Podcast API entspricht nicht den kundenverwalteten Verschlüsselungsschlüsseln (Customer-Managed Encryption Keys, CMEK). Siehe Vom Kunden verwaltete Verschlüsselungsschlüssel.