Vertex AI offre diverse opzioni per ottenere e utilizzare risorse di calcolo quando utilizzi modelli generativi. Queste opzioni di consumo sono progettate per soddisfare le esigenze di qualsiasi workload, dal prototipo iniziale alle implementazioni di produzione. La scelta dell'opzione giusta è fondamentale per bilanciare prestazioni, affidabilità e costi.
Questa guida descrive in dettaglio le opzioni di consumo disponibili, ti aiuta a mapparle in base ai requisiti specifici del tuo workload e fornisce strategie per ottimizzare latenza, disponibilità e costi.
Opzioni di consumo
Vertex AI offre cinque opzioni di consumo personalizzate in base a diversi pattern di traffico ed esigenze aziendali:
| Opzione di consumo | Descrizione | Ideale per | Prezzi | |
|---|---|---|---|---|
| Throughput riservato | Fornisce una velocità effettiva garantita per un periodo di impegno | Workload critici, in stato stazionario e sempre attivi in cui è necessario lo SLA | Basati sull'impegno (disponibili nei piani da 1 settimana, 1 mese, 3 mesi e 1 anno) | |
| PayGo | Standard | Opzione flessibile con pagamento in base al consumo senza impegno iniziale | Opzione predefinita per i casi d'uso quotidiani con flessibilità per la domanda di traffico variabile | Per token (tariffa premium) |
| Priorità | Offre una maggiore affidabilità grazie all'elaborazione prioritaria, mantenendo la flessibilità del pagamento a consumo | Workload importanti che richiedono limiti e affidabilità superiori rispetto a Pay as you go standard | Per token (tariffa standard) | |
| Flex | Opzione conveniente per carichi di lavoro tolleranti alla latenza | Attività che possono tollerare tempi di risposta più lenti e una limitazione più elevata, offrendo prezzi più bassi | Per token (tariffa scontata) | |
| Inferenza batch | Ottimizzato per i costi per l'elaborazione asincrona ad alto volume | Job su larga scala in cui i risultati sono necessari in un periodo di tempo più lungo | Per token (tariffa scontata) | |
Per informazioni sui prezzi, consulta la pagina Prezzi.
Scegli l'opzione giusta per il tuo carico di lavoro
Carichi di lavoro sensibili alla latenza
Le organizzazioni spesso devono scendere a compromessi tra affidabilità e costi quando scelgono i modelli di consumo giusti. Sebbene la velocità effettiva sottoposta a provisioning offra la massima affidabilità, può causare un sottoutilizzo se il traffico presenta picchi. Analogamente, PayGo potrebbe offrire la massima flessibilità, ma non può garantire una qualità del servizio. La sezione seguente descrive come combinare al meglio questi meccanismi per ottenere il risultato ottimale:
- Copri il traffico di base con il throughput di cui è stato eseguito il provisioning. In questo modo, l'utilizzo della capacità riservata migliora, rendendola economica e garantendo l'affidabilità del traffico principale. Per farlo, segui questi
passaggi:
- Analizza i pattern di traffico a livello di minuti o secondi.
- Determina la quantità di traffico da coprire con il throughput di cui è stato eseguito il provisioning. Deve coprire il traffico con priorità più alta.
- Gestisci il traffico di overflow con Standard o Priority PayGo: per impostazione predefinita, il traffico che supera la baseline del throughput sottoposto a provisioning (chiamato traffico di overflow) viene gestito da Standard PayGo. Se noti una varianza maggiore nel rendimento delle richieste superiori al limite TPM, puoi ridurla tramite l'ottimizzazione. Priority PayGo ti offre un'opzione per ottenere prestazioni affidabili a un prezzo premium, soggette al limite di aumento.
Carichi di lavoro asincroni e ad alto volume
Se hai un backlog di richieste di grandi dimensioni (ad esempio, se hai milioni di documenti da riassumere) e la latenza immediata non è un problema, devi inviare un job batch formulando le richieste in un file JSON o in un foglio di lavoro. Ciò è utile per casi d'uso come l'etichettatura delle immagini, l'elaborazione collettiva di documenti o l'analisi del sentiment sui dati storici.
Questa opzione è la più conveniente per l'inferenza di grandi volumi.
Carichi di lavoro tolleranti alla latenza e sensibili ai costi
Se devi elaborare richieste (ad esempio annotazione dei dati o creazione di cataloghi), in cui l'applicazione può attendere una risposta, ma la riduzione dei costi è una priorità, devi utilizzare Flex PayGo. Flex PayGo offre prezzi per token ridotti per le richieste che non richiedono l'esecuzione immediata. Questa opzione è utile per casi d'uso come l'analisi offline, l'annotazione dei dati, la creazione di cataloghi di prodotti o la traduzione.
Strategie di ottimizzazione
Una volta selezionato il modello di consumo, utilizza le seguenti strategie per ottimizzare ulteriormente la latenza, la disponibilità e i costi.
Latenza
Per ottimizzare la latenza:
- Seleziona il modello giusto per il tuo caso d'uso: Vertex AI offre una vasta gamma di modelli con caratteristiche di prestazioni e funzionalità diverse. Valuta attentamente i tuoi requisiti in termini di velocità e qualità dell'output per scegliere il modello più adatto al tuo caso d'uso. Per un elenco dei modelli disponibili, consulta Model Garden.
- Ridurre le dimensioni del prompt: crea prompt chiari e concisi che esprimano in modo efficace la tua intenzione senza dettagli o ridondanze inutili. Prompt più brevi riducono il tempo al primo token.
- Limita i token di output:
- Utilizza le istruzioni di sistema per controllare la lunghezza della risposta. Chiedi al modello di fornire risposte concise o di limitare l'output a un numero specifico di frasi o paragrafi. Questa strategia può ridurre il tempo necessario per l'ultimo token.
- Limita l'output impostando un limite. Utilizza il parametro
max_output_tokensper impostare un limite massimo alla lunghezza della risposta generata, evitando output eccessivamente lunghi. La latenza è direttamente proporzionale al numero di token generati; la generazione di un numero inferiore di token comporta risposte più rapide. Tuttavia, fai attenzione perché questo potrebbe interrompere le risposte a metà frase.
- Utilizza il throughput riservato: per prestazioni più coerenti, utilizza il throughput riservato. In questo modo si elimina la variabilità causata da "avvii a freddo" o dalla messa in coda che può verificarsi occasionalmente nei modelli PayGo durante il traffico elevato.
- Limita il budget di pensiero: se utilizzi un modello che supporta il pensiero, puoi ridurre la latenza diminuendo il budget di pensiero. Limitando i token di ragionamento interno che il modello genera prima di rispondere, riduci il tempo di elaborazione complessivo. Tuttavia, devi assicurarti che il budget rimanga sufficiente per la complessità dell'attività per evitare di ridurre la qualità delle risposte.
Disponibilità
Per ottimizzare per la disponibilità:
- Implementa la logica per i nuovi tentativi: implementa il backoff esponenziale per gli errori 429, soprattutto quando utilizzi Standard PayGo.
- Utilizza un'implementazione ibrida: come descritto nelle sezioni precedenti, non fare affidamento esclusivamente su PayGo per le app di produzione critiche. La combinazione di Provisioned Throughput e PayGo offre la massima garanzia contro l'esaurimento delle risorse (errori 429).
- Gestisci la quota di throughput di cui è stato eseguito il provisioning: monitora regolarmente il consumo di TPM e aumenta le GSU di PT prima degli eventi di traffico previsti (ad esempio i lanci di prodotti). Puoi utilizzare un criterio di avviso per automatizzare il monitoraggio.
- Utilizza l'endpoint globale: utilizza l'endpoint globale per utilizzare il pool di capacità globale di Google per ridurre al minimo la limitazione dovuta a vincoli di capacità regionali.
- Uniforma il traffico per ridurre i picchi, se possibile: una tariffa PayGo più elevata per il traffico (TPM) tende a essere associata a tassi di limitazione più elevati.
- Sposta il traffico nelle ore non di punta: l'utilizzo del modello in aggregato generalmente segue un pattern diurno. Spostare il workload nelle ore non di punta o nei fine settimana potrebbe migliorare notevolmente la disponibilità.
Costo
Per ottimizzare i costi:
- Utilizza il dimensionamento corretto per il throughput di cui è stato eseguito il provisioning: in genere non è necessario eseguire il provisioning del throughput di cui è stato eseguito il provisioning al picco, il che riduce l'utilizzo complessivo del throughput di cui è stato eseguito il provisioning e aumenta i costi totali. Punta a una determinata percentuale del traffico a seconda della tua tolleranza al rischio e lascia che Standard PayGo e Priority PayGo si occupino del resto.
- Acquista un throughput di provisioning a lungo termine: il throughput di provisioning di 1 anno ha un prezzo scontato del 26% rispetto al throughput di provisioning di 1 mese, il che comporta un notevole risparmio sui costi. Puoi sempre cambiare le GSU di throughput di cui è stato eseguito il provisioning tra modelli diversi per sfruttare le funzionalità del nostro modello più recente.
- Utilizza Flex PayGo: identifica qualsiasi parte della pipeline che non è sensibile alla latenza (ad es. riepilogo in background, estrazione dei dati) e spostala su Flex per ridurre i costi di circa il 50%.
- Utilizza l'elaborazione batch: per i job asincroni, come l'elaborazione di set di dati di grandi dimensioni, l'elaborazione batch è significativamente più economica (50%) rispetto all'elaborazione sequenziale delle richieste utilizzando Standard PayGo.
- Utilizza la memorizzazione nella cache del contesto: la memorizzazione nella cache del contesto consente di ridurre il costo e la latenza delle richieste che contengono contenuti ripetuti. Aumenta il tasso di hit della cache inserendo contenuti di grandi dimensioni e comuni all'inizio del prompt e inviando richieste con un prefisso simile in un breve periodo di tempo.
- Seleziona un modello a un prezzo inferiore: se il tuo caso d'uso lo consente, utilizza uno dei nostri modelli più piccoli, come Flash-Lite, che ha un prezzo per token inferiore rispetto ai nostri modelli più potenti e ricchi di funzionalità.