Opções de consumo da Vertex AI

A Vertex AI oferece várias opções para receber e usar recursos de computação ao usar modelos generativos. Essas opções de consumo foram projetadas para atender às necessidades de qualquer carga de trabalho, desde a prototipagem inicial até as implantações de produção. Selecionar a opção certa é fundamental para equilibrar desempenho, confiabilidade e custo.

Este guia detalha as opções de consumo disponíveis, ajuda você a mapeá-las para os requisitos específicos da sua carga de trabalho e oferece estratégias para otimizar a latência, a disponibilidade e o custo.

Opções de consumo

A Vertex AI oferece cinco opções de consumo adaptadas a diferentes padrões de tráfego e necessidades comerciais:

Opção de consumo Descrição Ideal para Preços
Capacidade de processamento provisionada Oferece capacidade de processamento garantida por um período de fidelidade Cargas de trabalho críticas, de estado estável e sempre ativas em que um SLA é necessário Com base em fidelidade (disponível em planos de 1 semana, 1 mês, 3 meses e 1 ano)
PayGo Padrão Opção flexível de pagamento por uso sem compromisso inicial Opção padrão para casos de uso diários com flexibilidade para demanda de tráfego variável Por token (taxa premium)
Prioridade Oferece mais confiabilidade com o processamento prioritário, mantendo a flexibilidade do pagamento conforme o uso Cargas de trabalho importantes que exigem maior confiabilidade e limites do que o pagamento por uso padrão Por token (taxa padrão)
Flex Opção econômica para cargas de trabalho tolerantes à latência Tarefas que podem tolerar um tempo de resposta mais lento e maior limitação, oferecendo preços mais baixos Por token (preço com desconto)
Inferência em lote Custo otimizado para processamento assíncrono de alto volume Jobs em grande escala em que os resultados são necessários em um período mais longo Por token (preço com desconto)

Para informações sobre preços, consulte a página de preços.

Escolha a opção certa para sua carga de trabalho

Cargas de trabalho sensíveis à latência

Ao escolher os modelos de consumo certos, as organizações geralmente precisam fazer concessões entre confiabilidade e custo. Embora a capacidade de processamento provisionada ofereça a maior confiabilidade, ela pode causar subutilização se o tráfego tiver picos. Da mesma forma, o PayGo pode oferecer a máxima flexibilidade, mas não pode garantir uma qualidade de serviço. A seção a seguir descreve como combinar esses mecanismos para alcançar o resultado ideal:

  1. Cubra o tráfego de referência com a capacidade de processamento provisionada. Isso melhora a utilização da capacidade reservada, tornando-a econômica e oferecendo confiabilidade garantida para o núcleo do seu tráfego. Para isso, faça o seguinte:
    • Analise seus padrões de tráfego por minuto ou segundo.
    • Determine a quantidade de tráfego a ser coberta pela capacidade de processamento provisionada. Ele precisa cobrir seu tráfego de maior prioridade.
  2. Gerenciar o tráfego excedente com o PayGo padrão ou prioritário: por padrão, o tráfego que excede o valor de referência do throughput provisionado (chamado de tráfego excedente) é processado pelo PayGo padrão. Se você notar uma variância maior no desempenho de solicitações acima do limite de TPM, poderá reduzir isso com a otimização. O PayGo prioritário oferece uma opção para alcançar performance confiável a um preço premium, sujeito ao limite de aceleração.

Cargas de trabalho assíncronas e de alto volume

Se você tiver um grande backlog de solicitações (por exemplo, milhões de documentos para resumir) e a latência imediata não for um problema, envie um job em lote formulando solicitações em um arquivo JSON ou uma planilha. Isso é útil para casos de uso como rotulagem de imagens, processamento de documentos em massa ou análise de sentimento em dados históricos.

Essa é a opção mais econômica para inferência de alto volume.

Cargas de trabalho tolerantes à latência e sensíveis a custos

Se você precisar processar solicitações (como anotação de dados ou criação de catálogos) em que o aplicativo pode esperar uma resposta, mas a redução de custos é uma prioridade, use o Flex PayGo. O Flex PayGo oferece preços reduzidos por token para solicitações que não exigem execução imediata. Essa opção é útil para casos de uso como análise off-line, anotação de dados, criação de catálogo de produtos ou tradução.

Estratégias de otimização

Depois de selecionar seu modelo de consumo, use as seguintes estratégias para otimizar ainda mais a latência, a disponibilidade e o custo.

Latência

Para otimizar a latência:

  • Selecione o modelo certo para seu caso de uso: a Vertex AI oferece uma gama diversificada de modelos com capacidades e características de desempenho variadas. Avalie cuidadosamente seus requisitos em relação à velocidade e à qualidade da saída para escolher o modelo que melhor se alinha ao seu caso de uso. Para conferir uma lista de modelos disponíveis, consulte o Model Garden.
  • Reduza o tamanho do comando: crie comandos claros e concisos que transmitam com eficiência sua intenção sem detalhes desnecessários ou redundância. Comandos mais curtos reduzem o tempo para o primeiro token.
  • Limitar tokens de saída:
    • Use as instruções do sistema para controlar o tamanho da resposta. Instrua o modelo a fornecer respostas concisas ou limitar a saída a um número específico de frases ou parágrafos. Essa estratégia pode reduzir o tempo até o último token.
    • Restrinja a saída definindo um limite. Use o parâmetro max_output_tokens para definir um limite máximo para o comprimento da resposta gerada e evitar saídas muito longas. A latência é diretamente proporcional ao número de tokens gerados. Gerar menos tokens resulta em respostas mais rápidas. No entanto, tenha cuidado, porque isso pode cortar as respostas no meio da frase.
  • Use a capacidade de processamento provisionada: para ter um desempenho mais consistente, use a capacidade de processamento provisionada. Isso elimina a variabilidade causada por "inicializações a frio" ou filas que podem ocorrer ocasionalmente em modelos PayGo durante tráfego intenso.
  • Limite o orçamento de pensamento: se você estiver usando um modelo que oferece suporte ao pensamento, reduza a latência diminuindo o orçamento de pensamento. Ao limitar os tokens de raciocínio interno que o modelo gera antes de responder, você reduz o tempo geral de processamento. No entanto, é preciso garantir que o orçamento seja suficiente para a complexidade da tarefa e evitar a degradação da qualidade da resposta.

Disponibilidade

Para otimizar a disponibilidade:

  • Implemente a lógica de repetição: implemente a espera exponencial para erros 429, principalmente ao usar o Standard PayGo.
  • Use uma implementação híbrida: conforme detalhado nas seções anteriores, não dependa apenas do PayGo para apps de produção críticos. A combinação da capacidade de processamento provisionada e do pagamento por uso oferece a maior garantia contra o esgotamento de recursos (erros 429).
  • Gerencie sua cota de capacidade de processamento provisionada: monitore regularmente o consumo de TPM e aumente as GSUs de PT antes de eventos de tráfego previstos, como lançamentos de produtos. É possível usar uma política de alertas para automatizar o monitoramento.
  • Use o endpoint global: use o endpoint global para aproveitar o pool de capacidade global do Google e minimizar a limitação devido a restrições de capacidade regional.
  • Suavize o tráfego para reduzir picos sempre que possível: uma taxa de tráfego (TPM) mais alta do PayGo tende a estar associada a taxas de limitação mais altas.
  • Mude o tráfego para horários de menor movimento: o uso do modelo no agregado geralmente segue um padrão diurno. Mudar a carga de trabalho para horários fora de pico ou fins de semana pode melhorar significativamente a disponibilidade.

Custo

Para otimizar o custo:

  • Use o dimensionamento adequado para a capacidade de processamento provisionada: geralmente, não é necessário provisionar a capacidade de processamento no pico, o que reduz a utilização geral e aumenta os custos totais. Defina uma meta de determinado percentil do tráfego, dependendo da sua tolerância a riscos, e deixe que o PayGo padrão e o PayGo prioritário cuidem do restante.
  • Compre capacidade de processamento provisionada de longo prazo: a PT de um ano tem um desconto de 26% em relação à PT de um mês, o que gera uma economia significativa de custos. Você pode sempre trocar as GSUs de capacidade provisionada compradas entre diferentes modelos para aproveitar os recursos mais recentes.
  • Use o Flex PayGo: identifique qualquer parte do pipeline que não seja sensível à latência (por exemplo, resumo em segundo plano, extração de dados) e mova para o Flex para reduzir os custos em cerca de 50%.
  • Use o processamento em lote: para jobs assíncronos, como o processamento de grandes conjuntos de dados, o processamento em lote é significativamente mais barato (50%) do que o processamento de solicitações sequenciais usando o Standard PayGo.
  • Use o armazenamento em cache de contexto: o armazenamento em cache de contexto ajuda a reduzir o custo e a latência de solicitações que contêm conteúdo repetido. Aumente a taxa de acertos do cache colocando conteúdos grandes e comuns no início do comando e enviando solicitações com um prefixo semelhante em um curto período.
  • Selecione um modelo mais barato: se o caso de uso permitir, use um dos nossos modelos menores, como o Flash-Lite, que tem um preço por token menor do que nossos modelos robustos e completos.