La piattaforma agentica Gemini Enterprise offre diverse opzioni per ottenere e utilizzare le risorse di calcolo quando si utilizzano modelli generativi. Queste opzioni di consumo sono progettate per soddisfare le esigenze di qualsiasi workload, dalla prototipazione iniziale ai deployment di produzione. La scelta dell'opzione giusta è fondamentale per bilanciare prestazioni, affidabilità e costi.
Questa guida descrive in dettaglio le opzioni di consumo disponibili, ti aiuta a mapparle in base ai requisiti specifici del tuo workload e fornisce strategie per ottimizzare latenza, disponibilità e costi.
Opzioni di consumo
La piattaforma agentica Gemini Enterprise offre cinque opzioni di consumo personalizzate per diversi pattern di traffico ed esigenze aziendali:
| Opzione di consumo | Descrizione | Ideale per | Prezzi | |
|---|---|---|---|---|
| Throughput riservato | Fornisce un throughput garantito per un periodo di impegno | Workload critici, in stato stazionario e sempre attivi in cui è necessario un SLA | Basato sull'impegno (disponibile nei piani da 1 settimana, 1 mese, 3 mesi e 1 anno) | |
| PayGo | Standard | Opzione flessibile con pagamento in base all'utilizzo senza impegno iniziale | Opzione predefinita per i casi d'uso quotidiani con flessibilità per la domanda di traffico variabile | Per token (tariffa standard) |
| Priorità | Offre una maggiore affidabilità grazie all'elaborazione con priorità, mantenendo la flessibilità di PayGo | Workload importanti che richiedono maggiore affidabilità e limiti rispetto a PayGo standard | Per token (tariffa premium) | |
| Flex | Opzione conveniente per i workload a tolleranza di latenza | Attività che possono tollerare tempi di risposta più lenti e una limitazione più elevata, offrendo prezzi più bassi | Per token (tariffa scontata) | |
| Inferenza batch | Ottimizzata per i costi per l'elaborazione asincrona ad alto volume | Job su larga scala in cui i risultati sono necessari entro un periodo di tempo più lungo | Per token (tariffa scontata) | |
Per informazioni sui prezzi, consulta la pagina dei prezzi.
Scegli l'opzione giusta per il tuo workload
Le sezioni seguenti forniscono indicazioni sulla scelta dell'opzione di consumo più adatta in base ai requisiti e alle caratteristiche specifici del tuo workload.
Workload sensibili alla latenza
Le organizzazioni spesso devono scendere a compromessi tra affidabilità e costi quando scelgono i modelli di consumo giusti. Sebbene il throughput riservato offra la massima affidabilità, esso può causare una sottoutilizzazione se il traffico presenta picchi. Allo stesso modo, PayGo potrebbe offrire la massima flessibilità, ma non può garantire una qualità del servizio. La sezione seguente descrive come combinare al meglio questi meccanismi per ottenere il risultato ottimale:
- Copri il traffico di base con il throughput riservato. In questo modo, l'utilizzo della capacità riservata viene migliorato, il che lo rende economico e garantisce l'affidabilità del traffico principale. Per farlo:
- Analizza i pattern di traffico a livello di minuti o secondi.
- Determina la quantità di traffico da coprire con il throughput riservato. Dovrebbe coprire il traffico con la priorità più alta.
- Gestisci il traffico in eccesso con PayGo standard o con priorità: per impostazione predefinita, il traffico che supera la baseline del throughput riservato (chiamato traffico in eccesso) viene gestito da PayGo standard. Se noti una maggiore varianza nel rendimento delle richieste al di sopra del limite di TPM, puoi attenuarla tramite l'ottimizzazione. PayGo con priorità ti offre la possibilità di ottenere un rendimento affidabile a un prezzo premium, soggetto al limite di aumento.
Workload asincroni ad alto volume
Se hai un backlog di richieste di grandi dimensioni (ad esempio, se hai milioni di documenti da riassumere) e la latenza immediata non è un problema, devi inviare un job batch formulando le richieste in un file JSON o in un foglio di lavoro. Questa opzione è utile per casi d'uso come l'etichettatura delle immagini, l'elaborazione di documenti in blocco o l'analisi del sentiment sui dati storici.
Questa è l'opzione più conveniente per l'inferenza ad alto volume.
Workload a tolleranza di latenza e sensibili ai costi
Se devi elaborare richieste (ad esempio, annotazione dei dati o creazione di cataloghi), in cui l'applicazione può attendere una risposta, ma la riduzione dei costi è una priorità, devi utilizzare PayGo Flex. PayGo Flex offre prezzi per token ridotti per le richieste che non richiedono l'esecuzione immediata. Questa opzione è utile per casi d'uso come l'analisi offline, l'annotazione dei dati, la creazione di cataloghi di prodotti o la traduzione.
Strategie di ottimizzazione
Dopo aver selezionato il modello di consumo, utilizza le seguenti strategie per ottimizzare ulteriormente latenza, disponibilità e costi.
Latenza
Quando crei applicazioni interattive, la latenza svolge un ruolo fondamentale nell'esperienza utente. La latenza si riferisce al tempo impiegato da un modello per elaborare il prompt di input e generare una risposta di output corrispondente. Quando esamini la latenza con un modello, tieni presente quanto segue:
- Tempo al primo token (TTFT): il tempo impiegato dal modello per produrre il primo token della risposta dopo aver ricevuto il prompt. Il TTFT è particolarmente importante per le applicazioni di streaming, in cui è fondamentale fornire un feedback immediato.
- _Tempo all'ultimo token (TTLT)_: il tempo totale impiegato dal modello per elaborare il prompt e generare la risposta.
Per ottimizzare la latenza:
- Seleziona il modello giusto per il tuo caso d'uso: la piattaforma agentica Gemini Enterprise offre una vasta gamma di modelli con diverse funzionalità e caratteristiche di rendimento. Valuta attentamente i tuoi requisiti in termini di velocità e qualità dell'output per scegliere il modello più adatto al tuo caso d'uso. Per un elenco dei modelli disponibili, consulta Model Garden.
- Riduci le dimensioni del prompt: crea prompt chiari e concisi che trasmettano efficacemente la tua intenzione senza dettagli o ridondanze non necessari. I prompt più brevi riducono il tempo al primo token.
- Limita i token di output:
- Utilizza le istruzioni di sistema per controllare la lunghezza della risposta. Chiedi al modello di fornire risposte concise o di limitare l'output a un numero specifico di frasi o paragrafi. Questa strategia può ridurre il tempo all'ultimo token.
- Limita l'output impostando un limite. Utilizza il parametro
max_output_tokensper impostare un limite massimo alla lunghezza della risposta generata, evitando output eccessivamente lunghi. La latenza è direttamente proporzionale al numero di token generati; la generazione di un numero inferiore di token comporta risposte più rapide. Tuttavia, fai attenzione perché questa operazione potrebbe interrompere le risposte a metà frase.
- Utilizza il throughput riservato: per un rendimento più coerente, utilizza il throughput riservato. In questo modo, elimini la variabilità causata da "avvii a freddo" o code che possono verificarsi occasionalmente nei modelli PayGo durante il traffico elevato.
- Limita il budget di ragionamento: se utilizzi un modello che supporta il ragionamento, puoi ridurre la latenza riducendo il budget di ragionamento. Limitando i token di ragionamento interni generati dal modello prima di rispondere, riduci il tempo di elaborazione complessivo. Tuttavia, devi assicurarti che il budget rimanga sufficiente per la complessità dell'attività per evitare di compromettere la qualità della risposta.
- Utilizza lo streaming per le risposte: Lo streaming migliora la reattività percepita e crea un'esperienza utente più interattiva. Con lo streaming, il modello inizia a inviare la risposta prima di generare l'output completo. In questo modo, puoi elaborare l'output in tempo reale, aggiornare immediatamente l'interfaccia utente ed eseguire altre attività simultanee.
Disponibilità
Per ottimizzare la disponibilità:
- Implementa la logica per i nuovi tentativi: implementa il backoff esponenziale per gli errori 429, in particolare quando utilizzi PayGo standard.
- Utilizza un'implementazione ibrida: come descritto nelle sezioni precedenti, non fare affidamento esclusivamente su PayGo per le app di produzione critiche. La combinazione di throughput riservato e PayGo offre la massima garanzia contro l'esaurimento delle risorse (errori 429).
- Gestisci la quota di throughput riservato: monitora regolarmente il consumo di TPM e aumenta le GSU di throughput riservato prima degli eventi di traffico previsti (ad esempio, i lanci di prodotti). Puoi utilizzare un criterio di avviso per automatizzare il monitoraggio.
- Utilizza l'endpoint globale: utilizza l'endpoint globale per utilizzare il pool di capacità globale di Google per ridurre al minimo la limitazione dovuta a vincoli di capacità regionali.
- Se possibile, uniforma il traffico per ridurre i picchi: la frequenza di traffico PayGo più elevata (TPM) tende a essere associata a frequenze di limitazione più elevate.
- Sposta il traffico nelle ore non di punta: l'utilizzo del modello in aggregato in genere segue un pattern diurno. Lo spostamento del workload nelle ore non di punta o nei fine settimana potrebbe migliorare significativamente la disponibilità.
Costo
Per ottimizzare i costi:
- Utilizza il dimensionamento corretto per il throughput riservato: in genere non è necessario eseguire il provisioning del throughput riservato al picco, il che riduce l'utilizzo complessivo del throughput riservato e aumenta i costi totali. Punta a una determinata percentuale di traffico in base alla tua tolleranza al rischio e lascia che PayGo standard e PayGo con priorità gestiscano il resto.
- Acquista il throughput riservato a lungo termine: il throughput riservato di 1 anno ha un prezzo inferiore del 26% rispetto al throughput riservato di 1 mese, il che comporta un notevole risparmio sui costi. Puoi sempre passare le GSU di throughput riservato acquistate tra diversi modelli per sfruttare le funzionalità del nostro modello più recente.
- Utilizza PayGo Flex: identifica qualsiasi parte della pipeline che non sia sensibile alla latenza (ad esempio, riepilogo in background, estrazione dei dati) e spostala su Flex per ridurre i costi di circa il 50%.
- Utilizza l'elaborazione batch: per i job asincroni come l'elaborazione di set di dati di grandi dimensioni, l'elaborazione batch è significativamente più economica (50%) rispetto all'elaborazione sequenziale delle richieste utilizzando PayGo standard.
- Utilizza la memorizzazione nella cache del contesto: La memorizzazione nella cache del contesto aiuta a ridurre il costo e la latenza delle richieste che contengono contenuti ripetuti. Aumenta il successo della cache inserendo contenuti di grandi dimensioni e comuni all'inizio del prompt e inviando richieste con un prefisso simile in un breve periodo di tempo.
- Seleziona un modello a prezzo inferiore: se il tuo caso d'uso lo consente, utilizza uno dei nostri modelli più piccoli, come Flash-Lite, che ha un prezzo per token inferiore rispetto ai nostri modelli per carichi di lavoro elevati e con funzionalità complete.