Questa pagina è stata tradotta dall'API Cloud Translation.

Inferenza batch con Gemini

Ottieni un'inferenza asincrona, a velocità effettiva elevata e conveniente per le tue esigenze di elaborazione dei dati su larga scala con l'inferenza batch di Gemini (precedentemente nota come previsione batch). Questa guida illustra il valore dell'inferenza batch, il suo funzionamento, i suoi limiti e le best practice per ottenere risultati ottimali.

Perché utilizzare l'inferenza batch?

In molti scenari reali, non è necessaria una risposta immediata da un modello linguistico. Potresti invece avere un ampio set di dati di prompt che devi elaborare in modo efficiente ed economico. È qui che l'inferenza batch si distingue.

I vantaggi principali includono:

Convenienza: l'elaborazione batch viene offerta a una tariffa scontata del 50% rispetto all'inferenza in tempo reale, il che la rende ideale per attività su larga scala e non urgenti. La memorizzazione nella cache implicita è attivata per impostazione predefinita per Gemini 2.5 Pro, Gemini 2.5 Flash e Gemini 2.5 Flash-Lite. La memorizzazione nella cache implicita offre uno sconto del 90% sui token memorizzati nella cache rispetto ai token di input standard. Tuttavia, gli sconti per la cache e il batch non si sommano. Lo sconto per successo della cache del 90% ha la precedenza sullo sconto batch.
Limiti di frequenza elevati:elabora centinaia di migliaia di richieste in un singolo batch con un limite di frequenza più elevato rispetto all'API Gemini in tempo reale.
Flusso di lavoro semplificato:anziché gestire una pipeline complessa di singole richieste in tempo reale, puoi inviare un singolo job batch e recuperare i risultati al termine dell'elaborazione. Il servizio gestirà la convalida del formato, parallelizzerà le richieste per l'elaborazione simultanea e riproverà automaticamente a ottenere un tasso di completamento elevato con un tempo di risposta di 24 ore.

L'inferenza batch è ottimizzata per attività di elaborazione su larga scala come:

Generazione di contenuti: genera descrizioni di prodotti, post sui social media o altri testi creativi in blocco.
Annotazione e classificazione dei dati:classifica le recensioni degli utenti, categorizza i documenti o esegui l'analisi del sentiment su un ampio corpus di testo.
Analisi offline: riassumi articoli, estrai informazioni chiave da report o traduci documenti su larga scala.

Modelli Gemini che supportano l'inferenza batch

I seguenti modelli Gemini di base e ottimizzati supportano l'inferenza batch:

Supporto del modello di endpoint globale

L'inferenza batch supporta l'utilizzo dell'endpoint globale per i modelli Gemini di base. Non supporta l'endpoint globale per i modelli Gemini ottimizzati.

L'anteprima pubblica del supporto dell'inferenza batch per gli endpoint globali non supporta le tabelle BigQuery come input o output.

L'endpoint globale contribuisce a migliorare la disponibilità complessiva gestendo le richieste da qualsiasi regione supportata dal modello che stai utilizzando. Tieni presente che non supporta i requisiti di residenza dei dati. Se hai requisiti di residenza dei dati, utilizza gli endpoint regionali.

Quote e limiti

Sebbene l'inferenza batch sia potente, è importante tenere presenti le seguenti limitazioni.

Quota: non esistono limiti di quota predefiniti per il tuo utilizzo. Il servizio batch fornisce invece l'accesso a un ampio pool condiviso di risorse, allocate dinamicamente in base alla disponibilità delle risorse e alla domanda in tempo reale di tutti i clienti di quel modello. Quando più clienti sono attivi e la nostra capacità è satura, le richieste batch potrebbero essere messe in coda per capacità.
Tempo di attesa: quando il nostro servizio registra un traffico elevato, il tuo job batch viene messo in coda per capacità. Il job rimarrà in coda fino a 72 ore prima di scadere.
Limiti delle richieste: un singolo job batch può includere fino a 200.000 richieste. Se utilizzi Cloud Storage come input, è previsto anche un limite di dimensione dei file pari a 1 GB.
Tempo di elaborazione: i job batch vengono elaborati in modo asincrono e non sono progettati per applicazioni in tempo reale. La maggior parte dei job viene completata entro 24 ore dall'inizio dell'esecuzione (senza contare il tempo di attesa in coda). Dopo 24 ore, i lavori incompleti verranno annullati e ti verrà addebitato solo l'importo delle richieste completate.
Funzionalità non supportate: l'inferenza batch non supporta la memorizzazione esplicita nella cache o RAG. La memorizzazione implicita nella cache dell'inferenza batch non è supportata in Gemini 2.0 Flash o Gemini 2.0 Flash-Lite.

Best practice

Per ottenere il massimo dall'inferenza batch con Gemini, ti consigliamo di seguire le seguenti best practice:

Combina i job:per massimizzare la velocità effettiva, combina i job più piccoli in un unico job di grandi dimensioni, entro i limiti del sistema. Ad esempio, l'invio di un job batch con 200.000 richieste offre un throughput migliore rispetto a 1000 job con 200 richieste ciascuno.
Monitora lo stato del job:puoi monitorare l'avanzamento del job utilizzando l'API, l'SDK o la UI. Per saperne di più, consulta Monitorare lo stato del job. Se un job non viene completato, controlla i messaggi di errore per diagnosticare e risolvere il problema.
Ottimizza per il costo:approfitta del risparmio sui costi offerto dall'elaborazione batch per le attività che non richiedono una risposta immediata.

Passaggi successivi

Crea un job batch con Cloud Storage
Crea un job batch con BigQuery
Scopri come ottimizzare un modello Gemini in Panoramica dell'ottimizzazione dei modelli per Gemini
Scopri di più sull'API per le previsioni batch.