A Vertex AI oferece diferentes maneiras de gerenciar a capacidade de processamento de modelos de IA generativa para ajudar você a equilibrar custo e desempenho. Este documento descreve as opções disponíveis: um modelo flexível de pagamento conforme o uso e capacidade reservada para capacidade de processamento previsível.
Cotas de modelos gerenciados
A Vertex AI oferece duas maneiras de gerenciar a capacidade de processamento dos modelos gerenciados de IA generativa na Vertex AI, o que permite equilibrar custo, flexibilidade e desempenho. Você pode usar um modelo flexível de pagamento por uso ou reservar uma quantidade dedicada de capacidade de processamento por um preço fixo.
Pagamento por utilização
No modelo padrão de pagamento por uso, a Vertex AI usa a cota compartilhada dinâmica, que não tem um limite de uso predefinido. Em vez disso, você tem acesso a um grande pool compartilhado de recursos que são alocados dinamicamente com base na disponibilidade e na demanda em tempo real.
Esse modelo permite que suas cargas de trabalho usem mais recursos quando eles estão disponíveis.
Se você receber um erro resource exhausted (429), isso significa que o pool compartilhado está
temporariamente com alta demanda de muitos usuários ao mesmo tempo. Implemente mecanismos de nova tentativa no aplicativo, já que a disponibilidade pode mudar rapidamente.
Capacidade reservada
Para aplicativos de produção críticos que exigem desempenho consistente e custos previsíveis, use a capacidade de processamento provisionada. A capacidade de processamento provisionada é uma assinatura de custo fixo que reserva uma quantidade específica de capacidade de processamento para seus modelos em um local escolhido.
Cotas para serviços de IA generativa
A Vertex AI oferece um pacote de serviços de IA generativa, como ajuste e avaliação de modelos, predição em lote, incorporações e geração aumentada de recuperação. Para saber mais sobre as cotas desses serviços, consulte Cotas e limites do sistema da IA generativa na Vertex AI.
A seguir
- Saiba mais sobre a Cota compartilhada dinâmica.
- Saiba mais sobre a capacidade provisionada.
- Saiba mais sobre cotas de IA generativa e limites do sistema.
- Saiba mais sobre as cotas do Google Cloud.