Gemini 3 Pro

Gemini 3 Pro è il nostro modello Gemini di ragionamento più avanzato, in grado di risolvere problemi complessi. Grazie alla finestra contestuale di 1 milione di token, Gemini 3 Pro può comprendere vasti set di dati e problemi complessi provenienti da diverse fonti di informazione, tra cui testo, audio, immagini, video, PDF e persino interi repository di codice.

Modifiche alla qualità

Quando esegui la migrazione da Gemini 2.5 Pro a Gemini 3 Pro, puoi aspettarti miglioramenti significativi nel ragionamento di alto livello, nel rispetto di istruzioni complesse, nell'utilizzo degli strumenti, nei casi d'uso agentici e in una migliore capacità di contesto lungo (inclusa la comprensione di immagini e documenti). I modelli Gemini 3 Pro non sono progettati per dare la priorità al supporto dei casi d'uso di comprensione dell'audio o segmentazione delle immagini. Per un output ad alte prestazioni in questi casi d'uso, prova a utilizzare modelli creati appositamente per queste esigenze. Per grafici, tabelle o diagrammi densi di informazioni o complicati, il modello a volte può estrarre informazioni in modo errato o interpretare in modo errato le risorse fornite. La presentazione delle informazioni chiave nel modo più semplice possibile può contribuire a garantire l'output preferito quando si lavora con Gemini 3 Pro.

Modifiche al comportamento

Gemini 3 Pro è progettato per un'elevata efficienza e azione. Il modello è stato addestrato per fornire risposte concise e dirette e per tentare di risolvere l'intento dell'utente il più rapidamente possibile. Poiché il modello è progettato per dare la priorità all'utilità, a volte potrebbe indovinare quando mancano informazioni o dare la priorità a una risposta soddisfacente rispetto a istruzioni rigorose. Questo comportamento può essere mitigato o modificato con i prompt. Per ulteriori informazioni e best practice, vedi Inizia a utilizzare Gemini 3.

Nuove funzionalità

Gemini 3 Pro introduce diverse nuove funzionalità per migliorare le prestazioni, il controllo e la fedeltà multimodale:

  • Livello di ragionamento: utilizza il parametro thinking_level per controllare la quantità di ragionamento interno eseguito dal modello (low o high) per bilanciare la qualità della risposta, la complessità del ragionamento, la latenza e il costo. Il parametro thinking_level sostituisce thinking_budget per i modelli Gemini 3.
  • Risoluzione dei contenuti multimediali: utilizza il parametro media_resolution (low, medium o high) per controllare l'elaborazione della visione per gli input multimodali , influendo sull'utilizzo dei token e sulla latenza. Per le impostazioni di risoluzione predefinite, vedi Inizia a utilizzare Gemini 3.
  • Firme di ragionamento: una convalida più rigorosa delle firme di ragionamento migliora l'affidabilità nella chiamata di funzioni multi-turn.
  • Risposte di funzioni multimodali: le risposte di funzioni ora possono includere oggetti multimodali come immagini e PDF, oltre al testo.
  • Chiamata di funzioni in streaming: trasmetti in streaming gli argomenti di chiamata di funzioni parziali per migliorare l'esperienza utente durante l'utilizzo degli strumenti.

Per ulteriori informazioni sull'utilizzo di queste funzionalità, vedi Inizia a utilizzare Gemini 3.

Prova in Agent Platform Visualizza in Model Garden (anteprima) Esegui il deployment dell'app di esempio

Nota: per utilizzare la funzionalità "Esegui il deployment dell'app di esempio", devi disporre di un progetto Google Cloud con la fatturazione e l'API di Agent Platform abilitate.
ID modello gemini-3-pro-preview
Input e output supportati
  • Input:
    testo, codice, immagini, audio, video, PDF
  • Output:
    testo
Limiti di token
  • Numero massimo di token di input: 1.048.576
  • Numero massimo di token di output: 65.536
Funzionalità
Opzioni di consumo
Per ulteriori informazioni, vedi Opzioni di consumo.
Specifiche tecniche
Immagini
  • Numero massimo di immagini per prompt: 3000
  • Dimensione massima del file per i dati in linea o i caricamenti diretti tramite la console: 7 MB
  • Dimensione massima del file per file da Google Cloud Storage: 30 MB
  • Token di risoluzione predefiniti: 1120
  • Tipi MIME supportati:
    image/png, image/jpeg, image/webp, image/heic, image/heif
Documenti
  • Numero massimo di file per prompt: 3000
  • Numero massimo di pagine per file: 3000
  • Dimensione massima del file per file per le importazioni API o Cloud Storage: 50 MB(application/pdf) o 7 MB(text/plain)
  • Dimensione massima del file per file per i caricamenti diretti tramite la console: 7 MB
  • Token di risoluzione predefiniti: 560
  • OCR per PDF scansionati: non utilizzato per impostazione predefinita
  • Tipi MIME supportati:
    application/pdf, text/plain
Video
  • Durata massima del video (con audio): circa 45 minuti
  • Durata massima del video (senza audio): circa 1 ora
  • Numero massimo di video per prompt: 10
  • Token di risoluzione predefiniti per frame: 70
  • Tipi MIME supportati:
    video/x-flv, video/quicktime, video/mpeg, video/mpegs, video/mpg, video/mp4, video/webm, video/wmv, video/3gpp
Audio
  • Durata massima dell'audio per prompt: circa 8, 4 ore o fino a 1 milione di token
  • Numero massimo di file audio per prompt: 1
  • Comprensione del parlato per: riepilogo audio, trascrizione e traduzione
  • Tipi MIME supportati:
    audio/x-aac, audio/flac, audio/mp3, audio/m4a, audio/mpeg, audio/mpga, audio/mp4, audio/ogg, audio/pcm, audio/wav, audio/webm
Valori predefiniti dei parametri
  • Temperatura: 0.0-2.0 (valore predefinito 1.0)
  • topP: 0.0-1.0 (valore predefinito 0.95)
  • topK: 64 (fisso)
  • candidateCount: 1-8 (valore predefinito 1)
Aree geografiche supportate

Disponibilità del modello

  • Globale
    • globale
Per ulteriori informazioni, vedi Deployment ed endpoint.
Data di knowledge cutoff Gennaio 2025
Versioni
  • gemini-3-pro-preview
    • Fase di lancio: anteprima pubblica
    • Data di rilascio: 18 novembre 2025
    • Data di interruzione: 26 marzo 2026
Lingue supportate Vedi Lingue supportate.
Prezzi Vedi Prezzi.