Inferenza batch con Gemini

Ottieni un'inferenza asincrona, a velocità effettiva elevata e conveniente per le tue esigenze di elaborazione dei dati su larga scala con l'inferenza in batch di Gemini (precedentemente nota come previsioni in batch). Questa guida illustra il valore dell'inferenza in batch, il suo funzionamento, le limitazioni e le best practice per risultati ottimali.

Perché utilizzare l'inferenza in batch?

In molti scenari reali, non hai bisogno di una risposta immediata da un modello linguistico. Potresti invece avere un set di dati di prompt di grandi dimensioni che devi elaborare in modo efficiente e conveniente. È qui che l'inferenza in batch eccelle.

I vantaggi principali includono:

  • Convenienza: l'elaborazione batch viene offerta a una tariffa scontata del 50% rispetto all'inferenza in tempo reale, il che la rende ideale per attività su larga scala e non urgenti. La memorizzazione nella cache implicita è abilitata per impostazione predefinita per i modelli Gemini 2.5 e Gemini 3. La memorizzazione nella cache implicita offre uno sconto del 90% sui token memorizzati nella cache rispetto ai token di input standard. Tuttavia, gli sconti per la cache e il batch non sono cumulabili. Lo sconto del 90% per il successo della cache ha la precedenza sullo sconto in batch.
  • Limiti di frequenza elevati: elabora centinaia di migliaia di richieste in un singolo batch con un limite di frequenza più elevato rispetto all'API Gemini in tempo reale.
  • Workflow semplificato: anziché gestire una pipeline complessa di singole richieste in tempo reale, puoi inviare un singolo job batch e recuperare i risultati al termine dell'elaborazione. Il servizio gestisce la convalida del formato, parallelizza le richieste per l'elaborazione simultanea e ritenta automaticamente per ottenere una percentuale di completamento elevata con un tempo di risposta di 24 ore.

L'inferenza in batch è ottimizzata per attività di elaborazione su larga scala come:

  • Generazione di contenuti: genera in blocco descrizioni dei prodotti, post sui social media o altri testi creativi.
  • Annotazione e classificazione dei dati: classifica le recensioni degli utenti, categorizza i documenti o esegui l'analisi del sentiment su un corpus di testo di grandi dimensioni.
  • Analisi offline: riassumi articoli, estrai informazioni chiave dai report o traduci documenti su larga scala.

Modelli Gemini che supportano l'inferenza in batch

I seguenti modelli Gemini di base e ottimizzati supportano l'inferenza in batch:

Supporto del modello di endpoint globale

L'inferenza in batch supporta l'utilizzo dell' endpoint globale per i modelli Gemini di base. Non supporta l'endpoint globale per i modelli Gemini ottimizzati.

L'endpoint globale contribuisce a migliorare la disponibilità complessiva gestendo le richieste da qualsiasi regione supportata dal modello che stai utilizzando. Tieni presente che non supporta i requisiti di residenza dei dati. Se hai requisiti di residenza dei dati, utilizza gli endpoint regionali.

Quote e limiti

Sebbene l'inferenza in batch sia potente, è importante essere consapevoli delle seguenti limitazioni.

  • Quota: non esistono limiti di quota predefiniti per l'utilizzo. Il servizio batch fornisce invece l'accesso a un pool di risorse condiviso di grandi dimensioni, allocato dinamicamente in base alla disponibilità delle risorse e alla domanda in tempo reale di tutti i clienti di quel modello. Quando più clienti sono attivi e la nostra capacità è satura, le richieste batch potrebbero essere messe in coda per la capacità.
  • Tempo di attesa: quando il nostro servizio registra un traffico elevato, il job batch viene messo in coda per la capacità. Il job rimane in coda per un massimo di 72 ore prima della scadenza.
  • Limiti delle richieste: un singolo job batch può includere fino a 200.000 richieste. Se utilizzi Cloud Storage come input, è previsto anche un limite di dimensioni dei file di 1 GB.
  • Tempo di elaborazione: i job batch vengono elaborati in modo asincrono e non sono progettati per applicazioni in tempo reale. La maggior parte dei job viene completata entro 24 ore dall'inizio dell'esecuzione (senza contare il tempo di attesa). Dopo 24 ore, i job incompleti vengono annullati e ti verrà addebitato solo il costo delle richieste completate.
  • Job annullati: puoi annullare i job di inferenza in batch in qualsiasi momento. Quando annulli un job, qualsiasi lavoro rimanente viene annullato e qualsiasi lavoro già completato viene restituito. Ti verrà addebitato solo il costo del lavoro completato.
  • Funzionalità non supportate: l'inferenza in batch non supporta il Throughput riservato, la memorizzazione nella cache esplicita o RAG. La memorizzazione nella cache implicita dell'inferenza in batch non è supportata in Gemini 2.0 Flash o Gemini 2.0 Flash-Lite.
  • Output immagine: l'inferenza in batch è limitata alla risoluzione predefinita di 1K. Gli output 2K e 4K non sono supportati.

Best practice

Per ottenere il massimo dall'inferenza in batch con Gemini, ti consigliamo di attenerti alle seguenti best practice:

  • Combina i job: per massimizzare la velocità effettiva, combina i job più piccoli in un unico job di grandi dimensioni, entro i limiti del sistema. Ad esempio, l'invio di un job batch con 200.000 richieste offre una velocità effettiva migliore rispetto a 1000 job con 200 richieste ciascuno.
  • Monitora lo stato del job: puoi monitorare l'avanzamento del job utilizzando l'API, l'SDK o l'interfaccia utente. Per saperne di più, consulta Monitora lo stato del job. Se un job non riesce, controlla i messaggi di errore per diagnosticare e risolvere il problema.
  • Ottimizza i costi: approfitta dei risparmi sui costi offerti dall'elaborazione in batch per tutte le attività che non richiedono una risposta immediata.

Passaggi successivi