Panoramica del throughput riservato

Questa pagina spiega cos'è il throughput di cui è stato eseguito il provisioning e quando utilizzarlo.

Introduzione al throughput riservato

Il Throughput riservato è un abbonamento a costo fisso e durata fissa disponibile in diverse durate che riserva il throughput per i modelli di AI generativa supportati su Vertex AI. Per prenotare la velocità effettiva, devi specificare il modello e le posizioni disponibili in cui viene eseguito.

Quando utilizzare il throughput riservato

Se uno dei seguenti aspetti si applica al tuo caso d'uso, valuta la possibilità di utilizzare il throughput di cui è stato eseguito il provisioning:

  • Stai creando applicazioni di produzione di AI generativa in tempo reale, come chatbot e agenti.
  • I tuoi workload critici richiedono costantemente una velocità effettiva elevata. La misurazione del throughput dipende dal modello.
  • Vuoi offrire un'esperienza coerente e prevedibile agli utenti delle tue applicazioni.
  • Vuoi costi deterministici dell'AI generativa pagando un prezzo mensile o settimanale fisso con controllo dei costi aggiuntivi.

Il Throughput riservato è uno dei diversi modi per utilizzare i modelli di AI generativa. Per scoprire di più su tutte le opzioni di consumo, consulta la sezione Opzioni di consumo.

Passaggi successivi