Quota di velocità effettiva

Vertex AI offre diversi modi per gestire la velocità effettiva per i modelli di AI generativa per aiutarti a bilanciare costi e prestazioni. Questo documento descrive le opzioni disponibili: un modello pay-as-you-go flessibile e capacità riservata per un throughput prevedibile.

Quote dei modelli gestiti

Vertex AI offre due modi per gestire la velocità effettiva per i modelli di AI generativa gestiti su Vertex AI, che ti consentono di bilanciare costi, flessibilità e prestazioni. Puoi utilizzare un modello flessibile con pagamento a consumo oppure prenotare una quantità dedicata di throughput a un prezzo fisso.

Pagamento a consumo

Per il modello pay-as-you-go predefinito, Vertex AI utilizza la quota condivisa dinamica, che non ha un limite di utilizzo predefinito. Invece, ottieni l'accesso a un ampio pool condiviso di risorse che vengono allocate dinamicamente in base alla disponibilità e alla domanda in tempo reale.

Questo modello consente ai tuoi carichi di lavoro di utilizzare più risorse quando sono disponibili. Se ricevi un errore resource exhausted (429), significa che il pool condiviso sta temporaneamente registrando un'elevata domanda da parte di molti utenti contemporaneamente. Devi implementare meccanismi di ripetizione nella tua applicazione, poiché la disponibilità può cambiare rapidamente.

Capacità riservata

Per le applicazioni di produzione critiche che richiedono prestazioni costanti e costi prevedibili, puoi utilizzare Provisioned Throughput. Il Throughput riservato è un abbonamento a costo fisso che riserva una quantità specifica di throughput per i tuoi modelli in una località scelta.

Quote per i servizi di AI generativa

Vertex AI offre una suite di servizi di AI generativa, come l'ottimizzazione dei modelli, la valutazione dei modelli, la previsione batch, gli incorporamenti e la generazione RAG (Retrieval Augmented Generation). Per saperne di più sulle quote per questi servizi, consulta Quote e limiti di sistema dell'AI generativa su Vertex AI.

Passaggi successivi

Scopri di più sulla quota condivisa dinamica.
Scopri di più sul throughput riservato.
Scopri di più su quote e limiti di sistema dell'AI generativa.
Scopri di più sulle quote di Google Cloud.

Quota di velocità effettiva Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.