Ottieni un'inferenza asincrona, a throughput elevato e conveniente per le tue esigenze di elaborazione dei dati su larga scala con l'inferenza batch di Gemini (precedentemente nota come previsioni in batch). Questa guida ti illustrerà il valore dell'inferenza batch, il suo funzionamento, le limitazioni e le best practice per ottenere risultati ottimali.
Perché utilizzare l'inferenza batch?
In molti scenari reali, non hai bisogno di una risposta immediata da un modello linguistico. Potresti invece avere un set di dati di prompt di grandi dimensioni che devi elaborare in modo efficiente ed economico. Ed è qui che l'inferenza batch si distingue.
I vantaggi principali includono:
- Convenienza: l'elaborazione batch viene offerta a una tariffa scontata del 50% rispetto all'inferenza in tempo reale, il che la rende ideale per attività su larga scala e non urgenti. La memorizzazione nella cache implicita è abilitata per impostazione predefinita per Gemini 2.5 Pro, Gemini 2.5 Flash e Gemini 2.5 Flash-Lite. La memorizzazione nella cache implicita offre uno sconto del 90% sui token memorizzati nella cache rispetto ai token di input standard. Tuttavia, gli sconti per la cache e il batch non sono cumulabili. Lo sconto del 90% per successo della cache ha la precedenza sullo sconto batch.
- Limiti di frequenza elevati: elabora centinaia di migliaia di richieste in un singolo batch con un limite di frequenza più elevato rispetto all'API Gemini in tempo reale.
- Workflow semplificato: anziché gestire una pipeline complessa di singole richieste in tempo reale, puoi inviare un singolo job batch e recuperare i risultati al termine dell'elaborazione. Il servizio gestirà la convalida del formato, parallelizzerà le richieste per l'elaborazione simultanea e riproverà automaticamente a ottenere una percentuale di completamento elevata con un tempo di risposta di 24 ore.
L'inferenza batch è ottimizzata per attività di elaborazione su larga scala come:
- Generazione di contenuti: genera in blocco descrizioni dei prodotti, post sui social media o altri testi creativi.
- Annotazione e classificazione dei dati: classifica le recensioni degli utenti, categorizza i documenti o esegui l'analisi del sentiment su un corpus di testo di grandi dimensioni.
- Analisi offline: riassumi articoli, estrai informazioni chiave dai report o traduci documenti su larga scala.
Modelli Gemini che supportano l'inferenza batch
I seguenti modelli Gemini di base e ottimizzati supportano l'inferenza batch:
- Gemini 3.1 Flash-Lite
- Immagine Gemini 3.1 Flash
- Anteprima
- Anteprima Gemini 3 Flash
- Immagine Gemini 3 Pro
- Gemini 2.5 Pro
- Immagine Gemini 2.5 Flash
- Gemini 2.5 Flash
- Gemini 2.5 Flash-Lite
Supporto del modello di endpoint globale
L'inferenza batch supporta l'utilizzo dell' endpoint globale per i modelli Gemini di base. Non supporta l'endpoint globale per i modelli Gemini ottimizzati.
L'endpoint globale contribuisce a migliorare la disponibilità complessiva pubblicando le richieste da qualsiasi regione supportata dal modello che stai utilizzando. Tieni presente che non supporta i requisiti di residenza dei dati. Se hai requisiti di residenza dei dati, utilizza gli endpoint regionali.
Quote e limiti
Sebbene l'inferenza batch sia potente, è importante essere consapevoli delle seguenti limitazioni.
- Quota: non esistono limiti di quota predefiniti per l'utilizzo. Il servizio batch fornisce invece l'accesso a un pool di risorse condiviso di grandi dimensioni, allocato dinamicamente in base alla disponibilità delle risorse e alla domanda in tempo reale di tutti i clienti di quel modello. Quando più clienti sono attivi e la nostra capacità è satura, le richieste batch potrebbero essere messe in coda per la capacità.
- Tempo di attesa: quando il nostro servizio registra un traffico elevato, il job batch viene messo in coda per la capacità. Il job rimane in coda per un massimo di 72 ore prima della scadenza.
- Limiti delle richieste: un singolo job batch può includere fino a 200.000 richieste. Se utilizzi Cloud Storage come input, è previsto anche un limite di dimensioni dei file di 1 GB.
- Tempo di elaborazione: i job batch vengono elaborati in modo asincrono e non sono progettati per applicazioni in tempo reale. La maggior parte dei job viene completata entro 24 ore dall'inizio dell'esecuzione (senza contare il tempo di attesa). Dopo 24 ore, i job incompleti verranno annullati e ti verrà addebitato solo il costo delle richieste completate.
- Job annullati: puoi annullare i job di inferenza batch in qualsiasi momento. Quando annulli un job, qualsiasi lavoro rimanente viene annullato e qualsiasi lavoro già completato viene restituito. Ti verrà addebitato solo il costo del lavoro completato.
- Funzionalità non supportate: l'inferenza batch non supporta il Throughput riservato, la memorizzazione nella cache esplicita o RAG. La memorizzazione nella cache implicita dell'inferenza batch non è supportata in Gemini 2.0 Flash o Gemini 2.0 Flash-Lite.
- Output immagine: l'inferenza batch è limitata alla risoluzione predefinita di 1K. Gli output 2K e 4K non sono supportati.
Best practice
Per ottenere il massimo dall'inferenza batch con Gemini, ti consigliamo di attenerti alle seguenti best practice:
- Combina i job: per massimizzare la velocità effettiva, combina i job più piccoli in un unico job di grandi dimensioni, entro i limiti del sistema. Ad esempio, l'invio di un job batch con 200.000 richieste offre una velocità effettiva migliore rispetto a 1000 job con 200 richieste ciascuno.
- Monitora lo stato del job: puoi monitorare l'avanzamento del job utilizzando l'API, l'SDK o l'interfaccia utente. Per saperne di più, consulta Monitora lo stato del job. Se un job non riesce, controlla i messaggi di errore per diagnosticare e risolvere il problema.
- Ottimizza i costi: approfitta dei risparmi sui costi offerti dall'elaborazione batch per tutte le attività che non richiedono una risposta immediata.
Passaggi successivi
- Crea un job batch con Cloud Storage
- Crea un job batch con BigQuery
- Scopri come ottimizzare un modello Gemini in Panoramica dell'ottimizzazione dei modelli per Gemini
- Scopri di più sull' API Previsioni in batch.