A Gemini Enterprise Agent Platform oferece várias opções para receber e usar recursos de computação ao usar modelos generativos. Essas opções de consumo são projetadas para atender às necessidades de qualquer carga de trabalho, desde a prototipagem inicial até as implantações de produção. Selecionar a opção certa é fundamental para equilibrar desempenho, confiabilidade e custo.
Este guia detalha as opções de consumo disponíveis, ajuda você a mapeá-las para os requisitos específicos da sua carga de trabalho e oferece estratégias para otimizar a latência, a disponibilidade e o custo.
Opções de consumo
A plataforma de agentes do Gemini Enterprise oferece cinco opções de consumo personalizadas para diferentes padrões de tráfego e necessidades de negócios:
| Opção de consumo | Descrição | Ideal para | Preços | |
|---|---|---|---|---|
| Capacidade de processamento provisionada | Oferece capacidade de processamento garantida para um período de fidelidade | Cargas de trabalho críticas, de estado estável e sempre ativas em que um SLA é necessário | Com base em compromisso (disponível em planos de 1 semana, 1 mês, 3 meses e 1 ano) | |
| PayGo | Padrão | Opção flexível de pagamento por uso sem compromisso inicial | Opção padrão para casos de uso diários com flexibilidade para demanda de tráfego variável | Por token (taxa padrão) |
| Prioridade | Oferece maior confiabilidade por meio do processamento prioritário, mantendo a flexibilidade do PayGo | Cargas de trabalho importantes que exigem maior confiabilidade e limites do que o PayGo padrão | Por token (taxa premium) | |
| Flexível | Opção econômica para cargas de trabalho tolerantes à latência | Tarefas que podem tolerar tempos de resposta mais lentos e maior limitação em troca de preços mais baixos | Por token (preço com desconto) | |
| Inferência em lote | Otimizado para custos para processamento assíncrono de alto volume | Jobs em grande escala em que os resultados são necessários em um período mais longo | Por token (preço com desconto) | |
Para informações sobre preços, consulte a página de preços.
Escolher a opção certa para sua carga de trabalho
As seções a seguir oferecem orientações sobre como selecionar a opção de consumo mais adequada com base nos requisitos e características específicos da sua carga de trabalho.
Cargas de trabalho sensíveis à latência
As organizações geralmente precisam fazer concessões entre confiabilidade e custo ao escolher os modelos de consumo certos. Embora a Capacidade de Processamento Provisionada ofereça a maior confiabilidade, ela pode causar subutilização se o tráfego tiver picos. Da mesma forma, o PayGo pode oferecer a máxima flexibilidade, mas não pode garantir uma qualidade de serviço. A seção a seguir descreve como combinar esses mecanismos da melhor maneira para alcançar o resultado ideal:
- Cobertura do tráfego de linha de base com capacidade de processamento provisionada. Isso melhora a utilização da capacidade reservada, tornando-a econômica e oferecendo confiabilidade garantida para o núcleo do tráfego. Para fazer isso, siga estas etapas:
- Analise seus padrões de tráfego no nível de minutos ou segundos.
- Determine a quantidade de tráfego a ser coberta pela capacidade de processamento provisionada. Ela precisa cobrir o tráfego de maior prioridade.
- Gerenciar o tráfego de transbordamento com o PayGo padrão ou prioritário: por padrão, o tráfego que excede a linha de base da capacidade de processamento provisionada (chamado tráfego de transbordamento) é processado pelo PayGo padrão. Se você observar uma variação maior no desempenho de solicitações acima do limite de TPM, poderá atenuar essa variação por meio da otimização. O PayGo prioritário oferece a opção de alcançar um desempenho confiável a um preço premium, sujeito ao limite de aumento.
Cargas de trabalho assíncronas de alto volume
Se você tiver um grande backlog de solicitações (por exemplo, se tiver milhões de documentos para resumir) e a latência imediata não for uma preocupação, você deve enviar um job em lote formulando solicitações em um arquivo JSON ou planilha. Isso é útil para casos de uso como rotulagem de imagens, processamento de documentos em massa ou análise de sentimentos em dados históricos.
Essa é a opção mais econômica para inferência de alto volume.
Cargas de trabalho tolerantes à latência e sensíveis a custos
Se você precisar processar solicitações em que o aplicativo possa aguardar uma resposta mas a redução de custos seja uma prioridade, use o PayGo flexível. O PayGo flexível oferece preços reduzidos por token para solicitações que não exigem execução imediata. Essa opção é útil para casos de uso como análise off-line, anotação de dados, criação de catálogos de produtos ou tradução.
Estratégias de otimização
Depois de selecionar o modelo de consumo, use as estratégias a seguir para otimizar ainda mais a latência, a disponibilidade e o custo.
Latência
Ao criar aplicativos interativos, a latência desempenha um papel crucial na experiência do usuário. Latência é o tempo que um modelo leva para processar o comando de entrada e gerar uma resposta de saída correspondente. Ao examinar a latência com um modelo, considere o seguinte:
- Tempo para o primeiro token (TTFT): o tempo que o modelo leva para produzir o primeiro token da resposta depois de receber a solicitação. O TTFT é particularmente relevante para aplicativos de streaming, em que o fornecimento de feedback imediato é crucial.
- _Tempo até o último token (TTLT)_: o tempo total que o modelo leva para processar o comando e gerar a resposta.
Para otimizar a latência:
- Selecione o modelo certo para seu caso de uso: a Gemini Enterprise Agent Platform oferece uma variedade de modelos com diferentes recursos e características de desempenho. Avalie cuidadosamente seus requisitos de velocidade e qualidade de saída para escolher o modelo que melhor se alinha ao seu caso de uso. Para uma lista de modelos disponíveis, consulte o Model Garden.
- Reduza o tamanho do comando: crie comandos claros e concisos que transmitam com eficiência sua intenção sem detalhes desnecessários ou redundância. Comandos mais curtos reduzem o tempo para o primeiro token.
- Limite os tokens de saída:
- Use as instruções do sistema para controlar o tamanho da resposta. Instrua o modelo a fornecer respostas concisas ou limitar a saída a um número específico de sentenças ou parágrafos. Essa estratégia pode reduzir o tempo até o último token.
- Restrinja a saída definindo um limite. Use o parâmetro
max_output_tokenspara definir um limite máximo para o comprimento da resposta gerada, evitando saídas muito longas. A latência é diretamente proporcional ao número de tokens gerados. A geração de menos tokens resulta em respostas mais rápidas. No entanto, tenha cuidado, porque isso pode cortar as respostas no meio da frase.
- Use a capacidade de processamento provisionada: para um desempenho mais consistente, use a capacidade de processamento provisionada. Isso elimina a variabilidade causada por "inícios a frio" ou filas que podem ocorrer ocasionalmente em modelos PayGo durante tráfego intenso.
- Limite o orçamento de pensamento: se você estiver usando um modelo que oferece suporte ao pensamento, poderá reduzir a latência diminuindo o orçamento de pensamento. Ao limitar os tokens de raciocínio interno que o modelo gera antes de responder, você reduz o tempo total de processamento. No entanto, é necessário garantir que o orçamento permaneça suficiente para a complexidade da tarefa para evitar a degradação da qualidade da resposta.
- Use o streaming para suas respostas: O streaming melhora a capacidade de resposta percebida e cria uma experiência do usuário mais interativa. Com o streaming, o modelo começa a enviar a resposta antes de gerar a saída completa. Isso permite o processamento em tempo real da saída, para que você possa atualizar imediatamente sua interface do usuário e executar outras tarefas simultâneas.
Disponibilidade
Para otimizar a disponibilidade:
- Implemente a lógica de repetição: implemente a espera exponencial para erros 429, principalmente ao usar o PayGo padrão.
- Use uma implementação híbrida: conforme detalhado em Escolher a opção certa para sua carga de trabalho, não dependa apenas do PayGo para aplicativos de produção críticos. A combinação de capacidade de processamento provisionada e PayGo oferece a maior garantia contra o esgotamento de recursos (erros 429).
- Gerencie sua cota de capacidade de processamento provisionada: monitore regularmente o consumo de TPM e aumente as GSUs de capacidade de processamento provisionada antes de eventos de tráfego previstos (como lançamentos de produtos). É possível usar uma política de alertas para automatizar o monitoramento.
- Use o endpoint global: use o endpoint global para utilizar o pool de capacidade global do Google para minimizar a limitação devido a restrições de capacidade regionais.
- Suavize o tráfego para reduzir picos sempre que possível: taxas de tráfego PayGo mais altas (TPM) tendem a estar associadas a taxas de limitação mais altas.
- Mude o tráfego para horários de pico: o uso do modelo no agregado geralmente segue um padrão diurno. Mudar a carga de trabalho para horários de pico ou fins de semana pode melhorar significativamente a disponibilidade.
Custo
Para otimizar o custo:
- Ajuste a capacidade de processamento provisionada: geralmente, não é necessário provisionar a capacidade de processamento provisionada para cobrir a demanda de pico. O provisionamento para demanda de pico reduz a utilização geral e aumenta os custos. Procure cobrir um percentil específico do tráfego, dependendo da sua tolerância a riscos, e deixe o PayGo padrão e o PayGo prioritário cuidarem do restante.
- Compre capacidade de processamento provisionada de longo prazo: um compromisso de capacidade de processamento provisionada de 1 ano tem um desconto de 26% em comparação com a capacidade de processamento provisionada de 1 mês, o que leva a economias significativas de custos. Você sempre pode mudar o modelo associado às GSUs de capacidade de processamento provisionada compradas para aproveitar os recursos mais recentes do modelo.
- Use o PayGo flexível: identifique qualquer parte do pipeline que não seja sensível à latência (por exemplo, resumo em segundo plano, extração de dados) e mova-a para o PayGo flexível para reduzir os custos em cerca de 50%.
- Use o processamento em lote: para jobs assíncronos, como o processamento de conjuntos de dados grandes , o processamento em lote é significativamente mais barato (50%) do que o processamento de solicitações sequencialmente usando o PayGo padrão.
- Use o armazenamento em cache de contexto: O armazenamento em cache de contexto ajuda a reduzir o custo e a latência de solicitações que contêm conteúdo repetido. Aumente as taxas de ocorrência em cache colocando conteúdo grande e comum no início do comando e enviando solicitações com um prefixo semelhante em um curto período.
- Selecione um modelo de preço mais baixo: se o caso de uso permitir, use um dos nossos modelos menores, como o Flash-Lite, que tem um preço por token mais baixo do que nossos modelos robustos e completos.