A Vertex AI oferece várias opções para receber e usar recursos de computação ao usar modelos generativos. Essas opções de consumo foram projetadas para atender às necessidades de qualquer carga de trabalho, desde a prototipagem inicial até as implantações de produção. Selecionar a opção certa é fundamental para equilibrar desempenho, confiabilidade e custo.
Este guia detalha as opções de consumo disponíveis, ajuda você a mapeá-las para os requisitos específicos da sua carga de trabalho e oferece estratégias para otimizar a latência, a disponibilidade e o custo.
Opções de consumo
A Vertex AI oferece cinco opções de consumo adaptadas a diferentes padrões de tráfego e necessidades comerciais:
| Opção de consumo | Descrição | Ideal para | Preços | |
|---|---|---|---|---|
| Capacidade de processamento provisionada | Oferece capacidade de processamento garantida por um período de fidelidade | Cargas de trabalho críticas, de estado estável e sempre ativas em que um SLA é necessário | Com base em fidelidade (disponível em planos de 1 semana, 1 mês, 3 meses e 1 ano) | |
| PayGo | Padrão | Opção flexível de pagamento por uso sem compromisso inicial | Opção padrão para casos de uso diários com flexibilidade para demanda de tráfego variável | Por token (taxa premium) |
| Prioridade | Oferece mais confiabilidade com o processamento prioritário, mantendo a flexibilidade do pagamento conforme o uso | Cargas de trabalho importantes que exigem maior confiabilidade e limites do que o pagamento por uso padrão | Por token (taxa padrão) | |
| Flex | Opção econômica para cargas de trabalho tolerantes à latência | Tarefas que podem tolerar um tempo de resposta mais lento e maior limitação, oferecendo preços mais baixos | Por token (preço com desconto) | |
| Inferência em lote | Custo otimizado para processamento assíncrono de alto volume | Jobs em grande escala em que os resultados são necessários em um período mais longo | Por token (preço com desconto) | |
Para informações sobre preços, consulte a página de preços.
Escolha a opção certa para sua carga de trabalho
Cargas de trabalho sensíveis à latência
Ao escolher os modelos de consumo certos, as organizações geralmente precisam fazer concessões entre confiabilidade e custo. Embora a capacidade de processamento provisionada ofereça a maior confiabilidade, ela pode causar subutilização se o tráfego tiver picos. Da mesma forma, o PayGo pode oferecer a máxima flexibilidade, mas não pode garantir uma qualidade de serviço. A seção a seguir descreve como combinar esses mecanismos para alcançar o resultado ideal:
- Cubra o tráfego de referência com a capacidade de processamento provisionada. Isso melhora a utilização da capacidade reservada, tornando-a econômica e oferecendo confiabilidade garantida para o núcleo do seu tráfego. Para isso, faça o seguinte:
- Analise seus padrões de tráfego por minuto ou segundo.
- Determine a quantidade de tráfego a ser coberta pela capacidade de processamento provisionada. Ele precisa cobrir seu tráfego de maior prioridade.
- Gerenciar o tráfego excedente com o PayGo padrão ou prioritário: por padrão, o tráfego que excede o valor de referência do throughput provisionado (chamado de tráfego excedente) é processado pelo PayGo padrão. Se você notar uma variância maior no desempenho de solicitações acima do limite de TPM, poderá reduzir isso com a otimização. O PayGo prioritário oferece uma opção para alcançar performance confiável a um preço premium, sujeito ao limite de aceleração.
Cargas de trabalho assíncronas e de alto volume
Se você tiver um grande backlog de solicitações (por exemplo, milhões de documentos para resumir) e a latência imediata não for um problema, envie um job em lote formulando solicitações em um arquivo JSON ou uma planilha. Isso é útil para casos de uso como rotulagem de imagens, processamento de documentos em massa ou análise de sentimento em dados históricos.
Essa é a opção mais econômica para inferência de alto volume.
Cargas de trabalho tolerantes à latência e sensíveis a custos
Se você precisar processar solicitações (como anotação de dados ou criação de catálogos) em que o aplicativo pode esperar uma resposta, mas a redução de custos é uma prioridade, use o Flex PayGo. O Flex PayGo oferece preços reduzidos por token para solicitações que não exigem execução imediata. Essa opção é útil para casos de uso como análise off-line, anotação de dados, criação de catálogo de produtos ou tradução.
Estratégias de otimização
Depois de selecionar seu modelo de consumo, use as seguintes estratégias para otimizar ainda mais a latência, a disponibilidade e o custo.
Latência
Para otimizar a latência:
- Selecione o modelo certo para seu caso de uso: a Vertex AI oferece uma gama diversificada de modelos com capacidades e características de desempenho variadas. Avalie cuidadosamente seus requisitos em relação à velocidade e à qualidade da saída para escolher o modelo que melhor se alinha ao seu caso de uso. Para conferir uma lista de modelos disponíveis, consulte o Model Garden.
- Reduza o tamanho do comando: crie comandos claros e concisos que transmitam com eficiência sua intenção sem detalhes desnecessários ou redundância. Comandos mais curtos reduzem o tempo para o primeiro token.
- Limitar tokens de saída:
- Use as instruções do sistema para controlar o tamanho da resposta. Instrua o modelo a fornecer respostas concisas ou limitar a saída a um número específico de frases ou parágrafos. Essa estratégia pode reduzir o tempo até o último token.
- Restrinja a saída definindo um limite. Use o parâmetro
max_output_tokenspara definir um limite máximo para o comprimento da resposta gerada e evitar saídas muito longas. A latência é diretamente proporcional ao número de tokens gerados. Gerar menos tokens resulta em respostas mais rápidas. No entanto, tenha cuidado, porque isso pode cortar as respostas no meio da frase.
- Use a capacidade de processamento provisionada: para ter um desempenho mais consistente, use a capacidade de processamento provisionada. Isso elimina a variabilidade causada por "inicializações a frio" ou filas que podem ocorrer ocasionalmente em modelos PayGo durante tráfego intenso.
- Limite o orçamento de pensamento: se você estiver usando um modelo que oferece suporte ao pensamento, reduza a latência diminuindo o orçamento de pensamento. Ao limitar os tokens de raciocínio interno que o modelo gera antes de responder, você reduz o tempo geral de processamento. No entanto, é preciso garantir que o orçamento seja suficiente para a complexidade da tarefa e evitar a degradação da qualidade da resposta.
Disponibilidade
Para otimizar a disponibilidade:
- Implemente a lógica de repetição: implemente a espera exponencial para erros 429, principalmente ao usar o Standard PayGo.
- Use uma implementação híbrida: conforme detalhado nas seções anteriores, não dependa apenas do PayGo para apps de produção críticos. A combinação da capacidade de processamento provisionada e do pagamento por uso oferece a maior garantia contra o esgotamento de recursos (erros 429).
- Gerencie sua cota de capacidade de processamento provisionada: monitore regularmente o consumo de TPM e aumente as GSUs de PT antes de eventos de tráfego previstos, como lançamentos de produtos. É possível usar uma política de alertas para automatizar o monitoramento.
- Use o endpoint global: use o endpoint global para aproveitar o pool de capacidade global do Google e minimizar a limitação devido a restrições de capacidade regional.
- Suavize o tráfego para reduzir picos sempre que possível: uma taxa de tráfego (TPM) mais alta do PayGo tende a estar associada a taxas de limitação mais altas.
- Mude o tráfego para horários de menor movimento: o uso do modelo no agregado geralmente segue um padrão diurno. Mudar a carga de trabalho para horários fora de pico ou fins de semana pode melhorar significativamente a disponibilidade.
Custo
Para otimizar o custo:
- Use o dimensionamento adequado para a capacidade de processamento provisionada: geralmente, não é necessário provisionar a capacidade de processamento no pico, o que reduz a utilização geral e aumenta os custos totais. Defina uma meta de determinado percentil do tráfego, dependendo da sua tolerância a riscos, e deixe que o PayGo padrão e o PayGo prioritário cuidem do restante.
- Compre capacidade de processamento provisionada de longo prazo: a PT de um ano tem um desconto de 26% em relação à PT de um mês, o que gera uma economia significativa de custos. Você pode sempre trocar as GSUs de capacidade provisionada compradas entre diferentes modelos para aproveitar os recursos mais recentes.
- Use o Flex PayGo: identifique qualquer parte do pipeline que não seja sensível à latência (por exemplo, resumo em segundo plano, extração de dados) e mova para o Flex para reduzir os custos em cerca de 50%.
- Use o processamento em lote: para jobs assíncronos, como o processamento de grandes conjuntos de dados, o processamento em lote é significativamente mais barato (50%) do que o processamento de solicitações sequenciais usando o Standard PayGo.
- Use o armazenamento em cache de contexto: o armazenamento em cache de contexto ajuda a reduzir o custo e a latência de solicitações que contêm conteúdo repetido. Aumente a taxa de acertos do cache colocando conteúdos grandes e comuns no início do comando e enviando solicitações com um prefixo semelhante em um curto período.
- Selecione um modelo mais barato: se o caso de uso permitir, use um dos nossos modelos menores, como o Flash-Lite, que tem um preço por token menor do que nossos modelos robustos e completos.