Gemini 3 Pro

Gemini 3 Pro es nuestro modelo de razonamiento más avanzado de Gemini, capaz de resolver problemas complejos. Gemini 3 Pro puede comprender vastos conjuntos de datos y problemas complejos a partir de distintas fuentes de información, como texto, audio, imágenes, video, PDFs e incluso repositorios enteros de código con su ventana de contexto de 1 millón de tokens.

Cambios en la calidad

Cuando migres de Gemini 2.5 Pro a Gemini 3 Pro, puedes esperar ver mejoras significativas en el razonamiento de alto nivel, el cumplimiento de instrucciones complejas, el uso de herramientas, los casos de uso de agentes y mejores capacidades de contexto largo (incluida la comprensión de imágenes y documentos). Los modelos de Gemini 3 Pro no se diseñaron para priorizar la compatibilidad con casos de uso de comprensión de audio o segmentación de imágenes. Para obtener un rendimiento alto en esos casos de uso, intenta usar modelos creados específicamente para esas necesidades. En el caso de los gráficos, las tablas o los diagramas complejos o con mucha información, a veces el modelo puede extraer información de forma incorrecta o malinterpretar los recursos proporcionados. Presentar la información clave de la manera más sencilla posible puede ayudar a garantizar el resultado preferido cuando se trabaja con Gemini 3 Pro.

Cambios en los comportamientos

Gemini 3 Pro está diseñado para brindar alta eficiencia y acción. El modelo se entrenó para proporcionar respuestas concisas y directas, y para intentar resolver la intención del usuario lo más rápido posible. Dado que el modelo está diseñado para priorizar la utilidad, es posible que, en ocasiones, haga conjeturas cuando falte información o priorice una respuesta satisfactoria por sobre las instrucciones estrictas. Este comportamiento se puede mitigar o modificar con instrucciones. Para obtener más información y conocer las prácticas recomendadas, consulta Comienza a usar Gemini 3.

Funciones nuevas

Gemini 3 Pro introduce varias funciones nuevas para mejorar el rendimiento, el control y la fidelidad multimodal:

  • Nivel de pensamiento: Usa el parámetro thinking_level para controlar la cantidad de razonamiento interno que realiza el modelo (bajo o alto) para equilibrar la calidad de la respuesta, la complejidad del razonamiento, la latencia y el costo. El parámetro thinking_level reemplaza a thinking_budget para los modelos de Gemini 3.
  • Resolución de medios: Usa el parámetro media_resolution (low, medium o high) para controlar el procesamiento de visión de las entradas multimodales, lo que afecta el uso de tokens y la latencia. Consulta Comienza a usar Gemini 3 para conocer la configuración de resolución predeterminada.
  • Firmas de pensamiento: La validación más estricta de las firmas de pensamiento mejora la confiabilidad en las llamadas a funciones de varios turnos.
  • Respuestas de funciones multimodales: Las respuestas de funciones ahora pueden incluir objetos multimodales, como imágenes y PDFs, además de texto.
  • Llamadas a funciones de transmisión: Transmite argumentos parciales de llamadas a funciones para mejorar la experiencia del usuario durante el uso de herramientas.

Para obtener más información sobre el uso de estas funciones, consulta Cómo comenzar a usar Gemini 3.

Probar en Vertex AI Ver en Model Garden (Vista previa) Implementar app de ejemplo

Nota: Para usar la función "Implementar app de ejemplo", necesitas un proyecto de Google Cloud con facturación y la API de Vertex AI habilitadas.
ID de modelo gemini-3-pro-preview
Entradas y salidas compatibles
  • Entradas:
    Texto, Código, Imágenes, Audio, Video, PDF
  • Resultados:
    Texto
Límites de tokens
  • Cantidad máxima de tokens de entrada: 1,048,576
  • Cantidad máxima de tokens de salida: 65,536
Funciones
Tipos de uso
Especificaciones técnicas
Imágenes
  • Cantidad máxima de imágenes por instrucción: 900
  • Tamaño máximo de archivo por archivo para los datos intercalados o las cargas directas a través de la consola: 7 MB
  • Tamaño máximo de archivo por archivo de Google Cloud Storage: 30 MB
  • Tokens de resolución predeterminados: 1120
  • Tipos de MIME admitidos:
    image/png, image/jpeg, image/webp, image/heic, image/heif
Documentos
  • Cantidad máxima de archivos por instrucción: 900
  • Cantidad máxima de páginas por archivo: 900
  • Tamaño máximo de archivo por archivo para las importaciones de la API o de Cloud Storage: 50 MB
  • Tamaño máximo de archivo para las cargas directas a través de la consola: 7 MB
  • Tokens de resolución predeterminados: 560
  • OCR para archivos PDF escaneados: No se usa de forma predeterminada
  • Tipos de MIME admitidos:
    application/pdf, text/plain
Video
  • Duración máxima del video (con audio): Aproximadamente 45 minutos
  • Duración máxima del video (sin audio): Aproximadamente 1 hora
  • Cantidad máxima de videos por instrucción: 10
  • Tokens de resolución predeterminados por fotograma: 70
  • Tipos de MIME admitidos:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Audio
  • Duración máxima de audio por instrucción: Aproximadamente 8.4 horas o hasta 1 millón de tokens
  • Cantidad máxima de archivos de audio por instrucción: 1
  • Comprensión del habla para: Resumen, transcripción y traducción de audio
  • Tipos de MIME admitidos:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Valores predeterminados de los parámetros
  • Temperatura: 0.0 a 2.0 (predeterminado 1.0)
  • topP: 0.0 a 1.0 (predeterminado 0.95)
  • topK: 64 (fijo)
  • candidateCount: 1 a 8 (el valor predeterminado es 1)
Regiones admitidas

Disponibilidad del modelo

(Incluye el plan Estándar con pago por uso y la capacidad de procesamiento aprovisionada)

  • Global
    • global
Consulta Implementaciones y endpoints para obtener más información.
Fecha límite de conocimiento Enero de 2025
Versiones
  • gemini-3-pro-preview
    • Etapa de lanzamiento: Versión preliminar pública
    • Fecha de lanzamiento: 18 de noviembre de 2025
Controles de seguridad
Predicción en línea
  • Residencia de los datos
  • CMEK
  • VPC-SC
  • AXT
Predicción por lotes
  • Residencia de los datos
  • CMEK
  • VPC-SC
  • AXT
Ajuste
  • Residencia de los datos
  • CMEK
  • VPC-SC
  • AXT
Almacenamiento en caché del contexto
  • Residencia de los datos
  • CMEK
  • VPC-SC
  • AXT
Consulta Controles de seguridad para obtener más información.
Idiomas compatibles Consulta Idiomas admitidos.
Precios Consulta la sección de precios.