Generar pódcasts (método de la API)

Gemini Enterprise ofrece una API que te permite generar pódcasts a partir de documentos de origen. El resultado es muy similar a los pódcasts que los usuarios finales pueden generar desde sus cuadernos.

La generación de pódcasts a través de la API es ideal para trabajos por lotes en los que tengas decenas o cientos de libros, artículos o cursos y quieras generar un pódcast para cada uno de ellos.

La API Podcast es una API independiente. Es decir, no necesitas un cuaderno de NotebookLM Enterprise, una licencia de Gemini Enterprise ni un almacén de datos. Solo necesitas un proyecto Google Cloud habilitado y el rol Usuario de la API Podcast.

Entradas

La entrada de la API es una matriz de elementos context. Esta es la fuente a partir de la que se genera el pódcast. La entrada puede ser texto, imágenes, audio y vídeo. El contenido total de la matriz de contexto debe ser inferior a 100.000 tokens.

Para ver una lista de los tipos admitidos, consulta las especificaciones técnicas de imágenes, documentos, vídeos y audio en esta página sobre Gemini 2.5 Flash.

Salida

La API devuelve el pódcast en formato MP3.

Antes de empezar

Para poder generar un pódcast con la API, debes tener lo siguiente:

Generar un pódcast a partir de una entrada de contexto

Usa el siguiente comando para generar un pódcast llamando al método podcast.

La entrada es una matriz de objetos multimedia, como texto, imágenes, clips de audio y vídeo.

REST

Para generar y exportar un pódcast, sigue estos pasos:

  1. Ejecuta el siguiente comando curl:

    curl -X POST \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/podcasts" \
      -d '{
          "podcastConfig": {
            "focus": "FOCUS",
            "length": "LENGTH",
            "languageCode": "LANGUAGE_CODE"
          },
          "contexts": [
            {
              "MEDIA_TYPE_1": "MEDIA_CONTENT_1"
            },
            {
              "MEDIA_TYPE_2": "MEDIA_CONTENT_2"
            }
          ],
          "title": "PODCAST_TITLE",
          "description": "PODCAST_DESCRIPTION"
      }'
    

    Haz los cambios siguientes:

    • PROJECT_ID: el ID de tu proyecto.
    • FOCUS: una petición en la que sugieras el tema del pódcast.
    • LENGTH: hay dos opciones:
      • SHORT (normalmente, de 4 a 5 minutos)
      • STANDARD (normalmente unos 10 minutos, pero puede ser menos si los conjuntos de datos son más pequeños)
    • LANGUAGE_CODE: opcional. Especifica el código de idioma del pódcast. Usa etiquetas de idioma definidas por BCP47. Si no se proporciona el código de idioma, el pódcast se genera en inglés.
    • MEDIA_TYPE_N: especifica el tipo de contenido multimedia al que haces referencia para generar el pódcast. Los tipos permitidos son los siguientes:
      • text. Texto sin formato.
      • blob. Para todos los tipos de contenido multimedia, excepto el texto sin formato, utilice este tipo y suba los datos como bytes sin procesar.
    • MEDIA_CONTENT_N: el contenido en sí en texto sin formato o bytes sin procesar. El contenido total de la matriz de contexto debe ser inferior a 100.000 tokens.
    • PODCAST_TITLE: un título para el pódcast. Puedes usarla internamente o mostrarla a tus usuarios finales.
    • PODCAST_DESCRIPTION: una descripción del pódcast. Puedes usarla internamente o mostrarla a tus usuarios finales.

    Se tarda unos minutos en generar un pódcast.

  2. Anota el nombre de la operación, ya que lo necesitarás para descargar el podcast en el paso 4. En el ejemplo anterior, el nombre de la operación es projects/123456/locations/global/operations/create-podcast-54321.

  3. Opcional. Sondea el estado de la operación de creación del pódcast. Consulta Obtener detalles sobre una operación de larga duración.

  4. Una vez finalizada la operación, ejecuta el siguiente comando curl para descargar el pódcast:

    curl -v \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      "https://discoveryengine.googleapis.com/v1/OPERATION_NAME:download?alt=media" \
      --output FILENAME.mp3 -L
    

    Haz los cambios siguientes:

    • OPERATION_NAME: el nombre de la operación que has anotado en el paso 2.
    • FILENAME: el nombre del archivo del pódcast.

    Este comando descarga el pódcast en un archivo MP3 de tu directorio local.

Cumplimiento

La API de pódcasts no cumple los requisitos de las claves de encriptado gestionadas por el cliente (CMEK) para Gemini Enterprise.