Opções de consumo

A plataforma de agentes do Gemini Enterprise oferece várias opções para receber e usar recursos de computação ao usar modelos generativos. Essas opções de consumo são projetadas para atender às necessidades de qualquer carga de trabalho, desde a prototipagem inicial até as implantações de produção. Selecionar a opção certa é fundamental para equilibrar desempenho, confiabilidade e custo.

Este guia detalha as opções de consumo disponíveis, ajuda você a mapeá-las para os requisitos específicos da sua carga de trabalho e oferece estratégias para otimizar a latência, a disponibilidade e o custo.

Opções de consumo

A plataforma de agentes do Gemini Enterprise oferece cinco opções de consumo adaptadas a diferentes padrões de tráfego e necessidades comerciais:

Opção de consumo Descrição Ideal para Preços
Capacidade de processamento provisionada Oferece capacidade de processamento garantida por um período de fidelidade Cargas de trabalho críticas, de estado estável e sempre ativas em que um SLA é necessário Com base em compromisso (disponível em planos de 1 semana, 1 mês, 3 meses e 1 ano)
PayGo Padrão Opção flexível de pagamento por uso sem compromisso inicial Opção padrão para casos de uso diários com flexibilidade para demanda de tráfego variável Por token (taxa padrão)
Prioridade Oferece maior confiabilidade com o processamento prioritário, mantendo a flexibilidade do pagamento conforme o uso Cargas de trabalho importantes que exigem maior confiabilidade e limites do que o PayGo padrão Por token (taxa premium)
Flex Opção econômica para cargas de trabalho tolerantes à latência Tarefas que podem tolerar tempos de resposta mais lentos e limitação mais alta em troca de preços mais baixos Por token (preço com desconto)
Inferência em lote Custo otimizado para processamento assíncrono de alto volume Jobs em grande escala em que os resultados são necessários em um período mais longo Por token (preço com desconto)

Para informações sobre preços, consulte a página de preços.

Escolha a opção certa para sua carga de trabalho

As seções a seguir oferecem orientações sobre como selecionar a opção de consumo mais adequada com base nos requisitos e características específicos da sua carga de trabalho.

Cargas de trabalho sensíveis à latência

Ao escolher os modelos de consumo certos, as organizações geralmente precisam fazer concessões entre confiabilidade e custo. Embora a Capacidade de Processamento Provisionada ofereça a maior confiabilidade, ela pode causar subutilização se o tráfego tiver picos. Da mesma forma, o PayGo oferece a máxima flexibilidade, mas não garante a qualidade do serviço. A seção a seguir descreve como combinar melhor esses mecanismos para alcançar o resultado ideal:

  1. Cubra o tráfego de referência com a capacidade de processamento provisionada. Isso melhora a utilização da capacidade reservada, tornando-a econômica e oferecendo confiabilidade garantida para o núcleo do seu tráfego. Para isso, faça o seguinte:
    • Analise seus padrões de tráfego por minuto ou segundo.
    • Determine a quantidade de tráfego a ser coberta pela capacidade de processamento provisionada. Ele precisa abranger seu tráfego de maior prioridade.
  2. Gerenciar o tráfego excedente com o PayGo padrão ou prioritário: por padrão, o tráfego que excede o valor de referência do throughput provisionado (chamado de tráfego excedente) é processado pelo PayGo padrão. Se você observar uma variância maior no desempenho para solicitações acima do limite de TPM, poderá reduzir essa variância com a otimização. Com o PayGo prioritário, você tem a opção de alcançar uma performance confiável a um preço premium, sujeito ao limite de aceleração.

Cargas de trabalho assíncronas e de alto volume

Se você tiver um grande backlog de solicitações (por exemplo, milhões de documentos para resumir) e a latência imediata não for um problema, envie um job em lote formulando solicitações em um arquivo JSON ou uma planilha. Isso é útil para casos de uso como rotulagem de imagens, processamento em massa de documentos ou análise de sentimentos em dados históricos.

Essa é a opção mais econômica para inferência de alto volume.

Cargas de trabalho tolerantes à latência e sensíveis a custos

Se você precisar processar solicitações em que o aplicativo pode esperar uma resposta, mas a redução de custos é uma prioridade, use o Flex PayGo. Ele oferece preços reduzidos por token para solicitações que não exigem execução imediata. Essa opção é útil para casos de uso como análise off-line, anotação de dados, criação de catálogo de produtos ou tradução.

Estratégias de otimização

Depois de selecionar seu modelo de consumo, use as estratégias a seguir para otimizar ainda mais a latência, a disponibilidade e o custo.

Latência

Quando você cria aplicativos interativos, a latência desempenha um papel crucial na experiência do usuário. Latência é o tempo que um modelo leva para processar o comando de entrada e gerar uma resposta de saída correspondente. Ao examinar a latência com um modelo, considere o seguinte:

  • Tempo para o primeiro token (TTFT): o tempo que o modelo leva para produzir o primeiro token da resposta depois de receber o comando. O TTFT é particularmente relevante para aplicativos de streaming, em que o fornecimento de feedback imediato é crucial.
  • Tempo até o último token (TTLT): o tempo total que o modelo leva para processar o comando e gerar a resposta.

Para otimizar a latência:

  • Selecione o modelo certo para seu caso de uso: a Gemini Enterprise Agent Platform oferece uma variedade de modelos com diferentes recursos e características de desempenho. Avalie cuidadosamente seus requisitos em relação à velocidade e à qualidade da saída para escolher o modelo que melhor se alinha ao seu caso de uso. Para conferir uma lista de modelos disponíveis, consulte o Model Garden.
  • Reduza o tamanho do comando: crie comandos claros e concisos que transmitam com eficiência sua intenção sem detalhes desnecessários ou redundância. Comandos mais curtos reduzem o tempo para o primeiro token.
  • Limitar tokens de saída:
    • Use instruções do sistema para controlar o tamanho da resposta. Instrua o modelo a fornecer respostas concisas ou limitar a saída a um número específico de frases ou parágrafos. Essa estratégia pode reduzir seu tempo até o último token.
    • Restrinja a saída definindo um limite. Use o parâmetro max_output_tokens para definir um limite máximo para o comprimento da resposta gerada, evitando saídas muito longas. A latência é diretamente proporcional ao número de tokens gerados. Gerar menos tokens resulta em respostas mais rápidas. No entanto, tenha cuidado, porque isso pode cortar as respostas no meio da frase.
  • Use a capacidade de processamento provisionada: para ter um desempenho mais consistente, use a capacidade de processamento provisionada. Isso elimina a variabilidade causada por "inícios a frio" ou filas que podem ocorrer ocasionalmente em modelos PayGo durante tráfego intenso.
  • Limite o orçamento de pensamento: se você estiver usando um modelo que oferece suporte ao Pensamento, reduza a latência diminuindo o orçamento de pensamento. Ao limitar os tokens de raciocínio interno que o modelo gera antes de responder, você reduz o tempo total de processamento. No entanto, é preciso garantir que o orçamento seja suficiente para a complexidade da tarefa e evitar a degradação da qualidade da resposta.
  • Use streaming para suas respostas: o streaming melhora a capacidade de resposta percebida e cria uma experiência do usuário mais interativa. Com o streaming, o modelo começa a enviar a resposta antes de gerar a saída completa. Isso permite o processamento em tempo real da saída, para que você possa atualizar imediatamente sua interface do usuário e executar outras tarefas simultâneas.

Disponibilidade

Para otimizar a disponibilidade:

  • Implemente a lógica de repetição: implemente a espera exponencial para erros 429, principalmente ao usar o Standard PayGo.
  • Use uma implementação híbrida: conforme detalhado em Escolher a opção certa para sua carga de trabalho, não dependa apenas do PayGo para apps de produção críticos. A combinação de capacidade de processamento provisionada e PayGo oferece a maior garantia contra o esgotamento de recursos (erros 429).
  • Gerencie sua cota de capacidade de processamento provisionada: monitore regularmente o consumo de TPM e aumente as GSUs de PT antes de eventos de tráfego previstos, como lançamentos de produtos. É possível usar uma política de alertas para automatizar o monitoramento.
  • Use o endpoint global: use o endpoint global para utilizar o pool de capacidade global do Google e minimizar a limitação devido a restrições de capacidade regional.
  • Suavize o tráfego para reduzir picos sempre que possível: taxas de tráfego mais altas do PayGo (TPM) tendem a estar associadas a taxas de limitação mais altas.
  • Mude o tráfego para horários de menor movimento: o uso do modelo no geral segue um padrão diurno. Mudar a carga de trabalho para horários de menor movimento ou fins de semana pode melhorar significativamente a disponibilidade.

Custo

Para otimizar o custo:

  • Dimensionar corretamente a capacidade de processamento provisionada: geralmente, não é necessário provisionar a capacidade de processamento para cobrir o pico de demanda. O provisionamento para o pico de demanda reduz a utilização geral e aumenta os custos. Tente cobrir um percentil específico do seu tráfego, dependendo da sua tolerância ao risco, e deixe que o pagamento por uso padrão e o pagamento por uso prioritário cuidem do restante.
  • Compre uma capacidade de processamento provisionada de longo prazo: um compromisso de um ano tem um desconto de 26% em comparação com um mês, o que gera uma economia significativa de custos. Você pode mudar o modelo associado às GSUs de capacidade de processamento provisionada compradas para aproveitar os recursos mais recentes.
  • Use o Flex PayGo: identifique qualquer parte do seu pipeline que não seja sensível à latência (por exemplo, resumo em segundo plano, extração de dados) e mova para o Flex PayGo para reduzir os custos em cerca de 50%.
  • Use o processamento em lote: para jobs assíncronos, como o processamento de grandes conjuntos de dados, o processamento em lote é significativamente mais barato (50%) do que o processamento de solicitações sequenciais usando o Standard PayGo.
  • Use o armazenamento em cache de contexto: o armazenamento em cache de contexto ajuda a reduzir o custo e a latência de solicitações que contêm conteúdo repetido. Aumente as ocorrências em cache colocando conteúdo grande e comum no início do comando e enviando solicitações com um prefixo semelhante em um curto período de tempo.
  • Selecione um modelo mais barato: se o caso de uso permitir, use um dos nossos modelos menores, como o Flash Lite, que tem um preço por token menor do que nossos modelos robustos e completos.