Opzioni di consumo

Gemini Enterprise Agent Platform offre diverse opzioni per ottenere e utilizzare le risorse di calcolo quando si utilizzano modelli generativi. Queste opzioni di consumo sono progettate per soddisfare le esigenze di qualsiasi carico di lavoro, dalla prototipazione iniziale ai deployment di produzione. La scelta dell'opzione giusta è fondamentale per bilanciare prestazioni, affidabilità e costi.

Questa guida descrive in dettaglio le opzioni di consumo disponibili, ti aiuta a mapparle in base ai requisiti specifici del carico di lavoro e fornisce strategie per ottimizzare latenza, disponibilità e costi.

Opzioni di consumo

Gemini Enterprise Agent Platform offre cinque opzioni di consumo personalizzate per diversi pattern di traffico ed esigenze aziendali:

Opzione di consumo Descrizione Ideale per Prezzi
Throughput riservato Fornisce un throughput garantito per un periodo di impegno Carichi di lavoro critici, in stato stazionario e sempre attivi in cui è necessario uno SLA Basato sull'impegno (disponibile in piani da 1 settimana, 1 mese, 3 mesi e 1 anno)
PayGo Standard Opzione flessibile con pagamento in base all'utilizzo senza impegno iniziale Opzione predefinita per i casi d'uso quotidiani con flessibilità per la domanda di traffico variabile Per token (tariffa standard)
Priorità Offre una maggiore affidabilità grazie all'elaborazione con priorità, mantenendo la flessibilità di PayGo Carichi di lavoro importanti che richiedono limiti e affidabilità superiori rispetto a PayGo standard Per token (tariffa premium)
Flex Opzione conveniente per i carichi di lavoro a tolleranza di latenza Attività che possono tollerare tempi di risposta più lenti e una limitazione più elevata in cambio di prezzi inferiori Per token (tariffa scontata)
Inferenza batch Ottimizzata per i costi per l'elaborazione asincrona ad alto volume Job su larga scala in cui i risultati sono necessari entro un periodo di tempo più lungo Per token (tariffa scontata)

Per informazioni sui prezzi, consulta la pagina dei prezzi.

Scegli l'opzione giusta per il tuo carico di lavoro

Le sezioni seguenti forniscono indicazioni sulla selezione dell'opzione di consumo più adatta in base ai requisiti e alle caratteristiche specifici del carico di lavoro.

Carichi di lavoro sensibili alla latenza

Le organizzazioni spesso devono scendere a compromessi tra affidabilità e costi quando scelgono i modelli di consumo giusti. Sebbene il throughput riservato offra la massima affidabilità, esso può causare una sottoutilizzazione se il traffico presenta picchi. Allo stesso modo, PayGo potrebbe offrire la massima flessibilità, ma non può garantire una qualità del servizio. La sezione seguente descrive il modo migliore per combinare questi meccanismi per ottenere il risultato ottimale:

  1. Copri il traffico di base con il throughput riservato. In questo modo, l'utilizzo della capacità riservata viene migliorato, rendendola economica e garantendo al contempo l'affidabilità del traffico principale. Per farlo:
    • Analizza i pattern di traffico a livello di minuti o secondi.
    • Determina la quantità di traffico da coprire con il throughput riservato. Dovrebbe coprire il traffico con la priorità più alta.
  2. Gestisci il traffico in eccesso con PayGo standard o con priorità: per impostazione predefinita, il traffico che supera la baseline del throughput riservato (chiamato traffico in eccesso) viene gestito da PayGo standard. Se osservi una maggiore varianza nel rendimento delle richieste al di sopra del limite di TPM, puoi attenuarla tramite l'ottimizzazione. PayGo con priorità ti offre la possibilità di ottenere un rendimento affidabile a un prezzo premium, soggetto al limite di aumento.

Carichi di lavoro asincroni ad alto volume

Se hai un backlog di richieste di grandi dimensioni (ad esempio, se devi riassumere milioni di documenti) e la latenza immediata non è un problema, devi inviare un job batch formulando le richieste in un file JSON o in un foglio di lavoro. Questa opzione è utile per casi d'uso come l'etichettatura delle immagini, l'elaborazione di documenti in blocco o l'analisi del sentiment sui dati storici.

Questa è l'opzione più conveniente per l'inferenza ad alto volume.

Carichi di lavoro a tolleranza di latenza e sensibili ai costi

Se devi elaborare richieste in cui l'applicazione può attendere una risposta ma la riduzione dei costi è una priorità, devi utilizzare PayGo Flex. PayGo Flex offre prezzi per token ridotti per le richieste che non richiedono l'esecuzione immediata. Questa opzione è utile per casi d'uso come l'analisi offline, l'annotazione dei dati, la creazione di cataloghi di prodotti o la traduzione.

Strategie di ottimizzazione

Dopo aver selezionato il modello di consumo, utilizza le seguenti strategie per ottimizzare ulteriormente latenza, disponibilità e costi.

Latenza

Quando crei applicazioni interattive, la latenza svolge un ruolo fondamentale nell'esperienza utente. La latenza si riferisce al tempo impiegato da un modello per elaborare il prompt di input e generare una risposta di output corrispondente. Quando esamini la latenza con un modello, tieni presente quanto segue:

  • Tempo al primo token (TTFT): il tempo impiegato dal modello per produrre il primo token della risposta dopo aver ricevuto il prompt. Il TTFT è particolarmente importante per le applicazioni di streaming, in cui è fondamentale fornire un feedback immediato.
  • _Tempo all'ultimo token (TTLT)_: il tempo totale impiegato dal modello per elaborare il prompt e generare la risposta.

Per ottimizzare la latenza:

  • Seleziona il modello giusto per il tuo caso d'uso: Gemini Enterprise Agent Platform offre una vasta gamma di modelli con diverse funzionalità e caratteristiche di rendimento. Valuta attentamente i tuoi requisiti in termini di velocità e qualità dell'output per scegliere il modello più adatto al tuo caso d'uso. Per un elenco dei modelli disponibili, consulta Model Garden.
  • Riduci le dimensioni del prompt: crea prompt chiari e concisi che esprimano efficacemente la tua intenzione senza dettagli o ridondanze non necessari. I prompt più brevi riducono il tempo al primo token.
  • Limita i token di output:
    • Utilizza le istruzioni di sistema per controllare la lunghezza della risposta. Chiedi al modello di fornire risposte concise o di limitare l'output a un numero specifico di frasi o paragrafi. Questa strategia può ridurre il tempo all'ultimo token.
    • Limita l'output impostando un limite. Utilizza il parametro max_output_tokens per impostare un limite massimo alla lunghezza della risposta generata, evitando output eccessivamente lunghi. La latenza è direttamente proporzionale al numero di token generati; la generazione di un numero inferiore di token comporta risposte più rapide. Tuttavia, fai attenzione perché questa operazione potrebbe interrompere le risposte a metà frase.
  • Utilizza il throughput riservato: per un rendimento più coerente, utilizza il throughput riservato. In questo modo, elimini la variabilità causata da "avvii a freddo" o code che possono verificarsi occasionalmente nei modelli PayGo durante il traffico elevato.
  • Limita il budget di pensiero: se utilizzi un modello che supporta il pensiero, puoi ridurre la latenza riducendo il budget di pensiero. Limitando i token di ragionamento interni generati dal modello prima di rispondere, riduci il tempo di elaborazione complessivo. Tuttavia, devi assicurarti che il budget rimanga sufficiente per la complessità dell'attività per evitare di compromettere la qualità della risposta.
  • Utilizza lo streaming per le risposte: Lo streaming migliora la reattività percepita e crea un'esperienza utente più interattiva. Con lo streaming, il modello inizia a inviare la risposta prima di generare l'output completo. In questo modo, puoi elaborare l'output in tempo reale, aggiornare immediatamente l'interfaccia utente ed eseguire altre attività simultanee.

Disponibilità

Per ottimizzare la disponibilità:

  • Implementa la logica per i nuovi tentativi: implementa il backoff esponenziale per gli errori 429, in particolare quando utilizzi PayGo standard.
  • Utilizza un'implementazione ibrida: come descritto in Scegli l'opzione giusta per il tuo carico di lavoro, non fare affidamento esclusivamente su PayGo per le app di produzione critiche. La combinazione di throughput riservato e PayGo offre la massima garanzia contro l'esaurimento delle risorse (errori 429).
  • Gestisci la quota di throughput riservato: monitora regolarmente il consumo di TPM e aumenta le GSU di throughput riservato prima degli eventi di traffico previsti (ad esempio, i lanci di prodotti). Puoi utilizzare un criterio di avviso per automatizzare il monitoraggio.
  • Utilizza l'endpoint globale: utilizza l'endpoint globale per utilizzare il pool di capacità globale di Google per ridurre al minimo la limitazione dovuta a vincoli di capacità regionali.
  • Uniforma il traffico per ridurre i picchi, se possibile: le tariffe di traffico PayGo più elevate (TPM) tendono a essere associate a tassi di limitazione più elevati.
  • Sposta il traffico nelle ore non di punta: l'utilizzo del modello in aggregato in genere segue un pattern diurno. Lo spostamento del carico di lavoro nelle ore non di punta o nei fine settimana può migliorare notevolmente la disponibilità.

Costo

Per ottimizzare i costi:

  • Dimensiona correttamente il throughput riservato: in genere non è necessario eseguire il provisioning del throughput riservato per coprire la domanda di picco. Il provisioning per la domanda di picco riduce l'utilizzo complessivo e aumenta i costi. Cerca di coprire una percentuale specifica del traffico in base alla tua tolleranza al rischio e lascia che PayGo standard e PayGo con priorità gestiscano il resto.
  • Acquista il throughput riservato a lungo termine: un impegno di throughput riservato di 1 anno ha un prezzo scontato del 26% rispetto al throughput riservato di 1 mese, con un notevole risparmio sui costi. Puoi sempre modificare il modello associato alle GSU di throughput riservato acquistate per sfruttare le funzionalità del nostro modello più recente.
  • Utilizza PayGo Flex: identifica qualsiasi parte della pipeline che non sia sensibile alla latenza (ad es. riepilogo in background, estrazione dei dati) e spostala su PayGo Flex per ridurre i costi di circa il 50%.
  • Utilizza l'elaborazione batch: per i job asincroni come l'elaborazione di set di dati di grandi dimensioni, l'elaborazione batch è notevolmente più economica (50%) rispetto all'elaborazione sequenziale delle richieste utilizzando PayGo standard.
  • Utilizza la memorizzazione nella cache del contesto: La memorizzazione nella cache del contesto consente di ridurre il costo e la latenza delle richieste che contengono contenuti ripetuti. Aumenta i successi successo della cache contenuti di grandi dimensioni e comuni all'inizio del prompt e inviando richieste con un prefisso simile in un breve periodo di tempo.
  • Seleziona un modello a prezzo inferiore: se il tuo caso d'uso lo consente, utilizza uno dei nostri modelli più piccoli, come Flash-Lite, che ha un prezzo per token inferiore rispetto ai nostri modelli a funzionalità complete e per carichi di lavoro elevati.