A Vertex AI oferece diferentes formas de gerir o débito para modelos de IA generativa, o que ajuda a equilibrar o custo e o desempenho. Este documento descreve as opções disponíveis: um modelo flexível de pagamento conforme o uso e capacidade reservada para débito previsível.
Quotas de modelos geridos
O Vertex AI oferece duas formas de gerir o débito para os modelos de IA generativa geridos no Vertex AI, o que lhe permite equilibrar o custo, a flexibilidade e o desempenho. Pode usar um modelo flexível de pagamento conforme o uso ou reservar uma quantidade dedicada de débito para um preço fixo.
Pay-as-you-go
Para o modelo de pagamento por utilização predefinido, o Vertex AI usa a quota partilhada dinâmica, que não tem um limite de utilização predefinido. Em vez disso, tem acesso a um grande conjunto partilhado de recursos que são atribuídos dinamicamente com base na disponibilidade e na procura em tempo real.
Este modelo permite que as suas cargas de trabalho usem mais recursos quando estiverem disponíveis.
Se receber um erro resource exhausted (429), significa que o conjunto partilhado está a
ter temporariamente uma elevada procura de muitos utilizadores em simultâneo. Deve implementar mecanismos de repetição na sua aplicação, uma vez que a disponibilidade pode mudar rapidamente.
Capacidade reservada
Para aplicações de produção críticas que requerem um desempenho consistente e custos previsíveis, pode usar o débito processado. A capacidade de débito aprovisionada é uma subscrição de custo fixo que reserva uma quantidade específica de capacidade de débito para os seus modelos numa localização escolhida.
Quotas para serviços de IA generativa
O Vertex AI oferece um conjunto de serviços de IA generativa, como o aperfeiçoamento de modelos, a avaliação de modelos, a previsão em lote, as incorporações e a geração aumentada de recuperação. Para saber mais sobre as quotas destes serviços, consulte o artigo IA generativa nas quotas e nos limites do sistema da Vertex AI.
O que se segue?
- Saiba mais acerca da quota partilhada dinâmica.
- Saiba mais acerca do débito aprovisionado.
- Saiba mais sobre as quotas e os limites do sistema da IA generativa.
- Saiba mais sobre as cotas do Google Cloud.