Cota de capacidade de processamento

A plataforma de agentes do Gemini Enterprise oferece diferentes maneiras de gerenciar a capacidade de processamento para modelos de IA generativa e ajudar você a equilibrar custo e desempenho. Este documento descreve as opções disponíveis: um modelo flexível de pagamento conforme o uso e capacidade reservada para capacidade de processamento previsível.

Cotas de modelos gerenciados

A Agent Platform oferece duas maneiras de gerenciar a capacidade de processamento dos modelos gerenciados de IA generativa na Gemini Enterprise Agent Platform, permitindo equilibrar custo, flexibilidade e desempenho. Você pode usar um modelo de pagamento por uso ou reservar uma quantidade dedicada de capacidade de processamento por um preço fixo.

Pagamento por uso

Para o modelo padrão de pagamento por uso, a plataforma de agente usa o pagamento por uso padrão (PayGo padrão). Com o PayGo, você paga apenas pelos recursos que consome, sem precisar de compromissos financeiros antecipados. Há outras opções de PayGo que variam em custo e desempenho. Para mais informações, consulte PayGo prioritário ou PayGo flexível.

Capacidade reservada

Para aplicativos de produção críticos que exigem desempenho consistente e custos previsíveis, você pode usar a Capacidade de Processamento Provisionada. A Capacidade de Processamento Provisionada é uma assinatura de custo fixo que reserva uma quantidade específica de capacidade de processamento para seus modelos em um local escolhido.

Cotas para serviços de IA generativa

A Plataforma de agentes do Gemini Enterprise oferece um pacote de serviços de IA generativa, como ajuste e avaliação de modelos, previsão em lote, incorporações e geração aumentada de recuperação. Para saber mais sobre as cotas desses serviços, consulte Cotas e limites do sistema da IA generativa na Gemini Enterprise Agent Platform.

A seguir