Escolha um padrão de design para seu sistema de IA agêntica

Este documento fornece orientações para ajudar você a escolher um padrão de design para seu sistema de IA agêntica. Os padrões de design de agentes são abordagens arquitetônicas comuns para criar aplicativos agênticos. Um padrão de projeto de agente oferece uma estrutura distinta para organizar os componentes de um sistema, integrar o modelo e orquestrar um ou vários agentes para realizar um fluxo de trabalho.

Os agentes de IA são eficazes para aplicativos que resolvem problemas abertos, o que pode exigir tomada de decisões autônomas e gerenciamento complexo de fluxos de trabalho de várias etapas. Os agentes são excelentes para resolver problemas em tempo real usando dados externos e para automatizar tarefas que exigem muito conhecimento. Os agentes de IA são adequados quando você precisa que a IA conclua tarefas focadas em metas com algum grau de autonomia. Para outros casos de uso, você pode usar aplicativos de IA generativa e assistiva. Para saber mais sobre as diferenças entre agentes de IA e aplicativos de IA não agentes, consulte Qual é a diferença entre agentes de IA, assistentes de IA e bots?

Neste guia, presumimos que você tenha conhecimento básico de sistemas de IA com agentes e como a arquitetura deles difere da de sistemas sem agentes, como aqueles que usam o raciocínio direto do modelo ou a geração aumentada de recuperação (RAG).

Para um resumo das orientações sobre o padrão de agente, consulte a seção Comparar padrões de design mais adiante neste documento.

Informações gerais do processo de design

Confira abaixo as etapas gerais para escolher um padrão de design para seu sistema de IA agêntica. Essas etapas são descritas em detalhes mais adiante neste documento.

  1. Defina seus requisitos: avalie as características da sua carga de trabalho, incluindo complexidade da tarefa, expectativas de latência e desempenho, orçamento de custo e necessidade de envolvimento humano.
  2. Revise os padrões comuns de design de agentes: conheça os padrões comuns de design neste guia, que incluem sistemas de agente único e multiagente.
  3. Selecione um padrão: Escolha o padrão de design adequado com base nas características da sua carga de trabalho.

Esse processo não é uma decisão única. Revise essas etapas periodicamente para refinar sua arquitetura à medida que as características da carga de trabalho mudam, os requisitos evoluem ou novos recursos do Google Cloud ficam disponíveis.

Definir seus requisitos

As perguntas a seguir não são listas de verificação completas para o planejamento. Use estas perguntas como ponto de partida para identificar a meta principal do seu sistema agêntico e selecionar o melhor padrão de design.

  • Características da tarefa: ela pode ser concluída em etapas de fluxo de trabalho predefinidas ou é aberta? Sua tarefa precisa usar um modelo de IA para orquestrar o fluxo de trabalho?
  • Latência e performance: você precisa priorizar respostas rápidas ou interativas em detrimento da precisão ou da qualidade? Ou seu aplicativo pode tolerar um atraso para alcançar um resultado mais preciso ou completo?
  • Custo: qual é seu orçamento para custos de inferência? Você pode aceitar padrões que exigem várias chamadas ao modelo para uma única solicitação?
  • Envolvimento humano: sua tarefa envolve decisões de alto risco, operações críticas para a segurança ou aprovações subjetivas que exigem julgamento humano?

Se sua carga de trabalho for previsível ou altamente estruturada, ou se puder ser executada com uma única chamada para um modelo de IA, pode ser mais econômico explorar soluções não baseadas em agentes para sua tarefa. Por exemplo, talvez você não precise de um fluxo de trabalho de agente para tarefas como resumir um documento, traduzir texto ou classificar o feedback dos clientes. Para informações sobre como escolher componentes de arquitetura para aplicativos de IA generativa que não exigem uma infraestrutura de agente, consulte Escolher modelos e infraestrutura para seu aplicativo de IA generativa.

As seções a seguir descrevem padrões de design de agentes comuns para criar um sistema de IA autônomo confiável e eficaz.

Sistema de agente único

Um sistema de agente único usa um modelo de IA, um conjunto definido de ferramentas e um comando do sistema abrangente para processar de forma autônoma uma solicitação do usuário ou concluir uma tarefa específica. Nesse padrão fundamental, o agente depende das capacidades de raciocínio do modelo para interpretar a solicitação de um usuário, planejar uma sequência de etapas e decidir quais ferramentas usar de um conjunto definido. O comando do sistema molda o comportamento do agente definindo a tarefa principal, o perfil e as operações dele, além das condições específicas para usar cada ferramenta.

O diagrama a seguir mostra uma visão geral de um padrão de agente único:

Arquitetura do padrão de projeto de agente único.

Um sistema de agente único é ideal para tarefas que exigem várias etapas e acesso a dados externos. Por exemplo, um agente de suporte ao cliente precisa consultar um banco de dados para encontrar o status de um pedido, ou um assistente de pesquisa precisa chamar APIs para resumir notícias recentes. Um sistema não autônomo não pode realizar essas tarefas porque não consegue usar ferramentas ou executar um plano de várias etapas para sintetizar uma resposta final.

Se você estiver no início do desenvolvimento do agente, recomendamos começar com um único agente. Ao começar o desenvolvimento de agentes com um sistema de agente único, você pode se concentrar em refinar a lógica principal, o comando e as definições de ferramentas do agente antes de adicionar componentes arquitetônicos mais complexos.

A performance de um único agente pode ser menos eficaz quando ele usa mais ferramentas e quando as tarefas aumentam em complexidade. Isso pode ser observado como aumento da latência, seleção ou uso incorreto de ferramentas ou falha na conclusão da tarefa. É possível mitigar esses problemas refinando o processo de raciocínio do agente com técnicas como o padrão de raciocínio e ação (ReAct). No entanto, se o fluxo de trabalho exigir que um agente gerencie várias responsabilidades distintas, essas técnicas podem não ser suficientes. Nesses casos, considere um sistema multiagente, que pode melhorar a resiliência e o desempenho ao delegar habilidades específicas a agentes especializados.

Sistemas multiagente

Um sistema multiagente coordena vários agentes especializados para resolver um problema complexo que um único agente não consegue gerenciar com facilidade. O princípio fundamental é decompor um objetivo grande em subtarefas menores e atribuir cada uma delas a um agente dedicado com uma habilidade específica. Em seguida, esses agentes interagem por fluxos de trabalho colaborativos ou hierárquicos para alcançar a meta final. Os padrões multiagentes oferecem um design modular que pode melhorar a escalonabilidade, a confiabilidade e a capacidade de manutenção do sistema geral em comparação com um único agente com um comando monolítico.

Em um sistema multiagente, cada agente precisa de um contexto específico para realizar a tarefa de maneira eficaz. O contexto pode incluir documentação, preferências históricas, links relevantes, histórico de conversas ou restrições operacionais. O processo de gerenciar esse fluxo de informações é chamado de engenharia de contexto. A engenharia de contexto inclui estratégias como isolar o contexto para um agente específico, manter informações em várias etapas ou compactar grandes quantidades de dados para melhorar a eficiência.

A criação de um sistema multiagente exige mais avaliação, segurança, confiabilidade e considerações de custo em comparação com um sistema de agente único. Por exemplo, os sistemas multiagentes precisam implementar controles de acesso precisos para cada agente especializado, projetar um sistema de orquestração robusto para garantir uma comunicação confiável entre agentes e gerenciar o aumento dos custos operacionais devido à sobrecarga computacional da execução de vários agentes. Para ver um exemplo de arquitetura de referência para criar um sistema multiagente, consulte Sistemas de IA multiagentes em Google Cloud.

Padrão sequencial

O padrão sequencial multiagente executa uma série de agentes especializados em uma ordem linear predefinida em que a saída de um agente serve como entrada direta para o próximo. Esse padrão usa um agente de fluxo de trabalho sequencial que opera com base em uma lógica predefinida sem precisar consultar um modelo de IA para a orquestração dos subagentes.

O diagrama a seguir mostra uma visão geral de um padrão sequencial multiagente:

Arquitetura do padrão de projeto sequencial multiagente.

Use o padrão sequencial para processos altamente estruturados e repetíveis em que a sequência de operações não muda. Por exemplo, um pipeline de processamento de dados pode usar esse padrão para que um agente de extração de dados primeiro extraia dados brutos e depois os transmita a um agente de limpeza de dados para formatação, que por sua vez transmite os dados limpos a um agente de carregamento de dados para salvá-los em um banco de dados.

O padrão sequencial pode reduzir a latência e os custos operacionais em comparação com um padrão que usa um modelo de IA para orquestrar o fluxo de trabalho de tarefas. No entanto, essa eficiência tem um custo: a flexibilidade. A estrutura rígida e predefinida do pipeline dificulta a adaptação a condições dinâmicas ou a ignorar etapas desnecessárias, o que pode causar um processamento ineficiente ou levar a uma latência cumulativa maior se uma etapa desnecessária for lenta.

Padrão paralelo

No padrão paralelo multiagente, também conhecido como padrão simultâneo, vários subagentes especializados realizam uma tarefa ou subtarefas de forma independente ao mesmo tempo. As saídas dos subagentes são sintetizadas para produzir a resposta final consolidada. Semelhante a um padrão sequencial, o padrão paralelo usa um agente de fluxo de trabalho paralelo para gerenciar como e quando os outros agentes são executados sem precisar consultar um modelo de IA para orquestrar os subagentes.

O diagrama a seguir mostra uma visão geral de um padrão paralelo multiagente:

Arquitetura do padrão de projeto paralelo multiagente.

Use o padrão paralelo quando as subtarefas puderem ser executadas simultaneamente para reduzir a latência ou reunir diversas perspectivas, como coletar dados de fontes diferentes ou avaliar várias opções de uma só vez. Por exemplo, para analisar o feedback dos clientes, um agente paralelo pode ramificar uma única entrada de feedback para quatro agentes especializados ao mesmo tempo: um agente de análise de sentimento, um agente de extração de palavras-chave, um agente de categorização e um agente de detecção de urgência. Um agente final reúne essas quatro saídas em uma análise única e abrangente do feedback.

O padrão paralelo pode reduzir a latência geral em comparação com uma abordagem sequencial, porque pode coletar informações diversas de várias fontes ao mesmo tempo. No entanto, essa abordagem apresenta compensações em custo e complexidade. Executar vários agentes em paralelo pode aumentar a utilização imediata de recursos e o consumo de tokens, o que leva a custos operacionais mais altos. Além disso, a etapa de coleta exige uma lógica complexa para sintetizar resultados potencialmente conflitantes, o que aumenta a sobrecarga de desenvolvimento e manutenção do sistema.

Padrão de repetição

O padrão de agente de loop multiagente executa repetidamente uma sequência de subagentes especializados até que uma condição de encerramento específica seja atendida. Esse padrão usa um agente de fluxo de trabalho de loop que, como outros agentes de fluxo de trabalho, opera com base em uma lógica predefinida sem consultar um modelo de IA para orquestração. Depois que todos os subagentes concluem as tarefas, o agente de loop avalia se uma condição de saída foi atendida. A condição pode ser um número máximo de iterações ou um estado personalizado. Se a condição de saída não for atendida, o agente de loop vai iniciar a sequência de subagentes novamente. Você pode implementar um padrão de loop em que a condição de saída é avaliada em qualquer ponto do fluxo. Use o padrão de loop para tarefas que exigem refinamento iterativo ou autocorreção, como gerar conteúdo e fazer com que um agente crítico o revise até que ele atenda a um padrão de qualidade.

O diagrama a seguir mostra uma visão geral de um padrão de loop multiagente:

Arquitetura do padrão de projeto de loop de vários agentes.

O padrão de agente de loop oferece uma maneira de criar fluxos de trabalho complexos e iterativos. Ele permite que os agentes refinem o próprio trabalho e continuem processando até que uma qualidade ou um estado específico seja alcançado. No entanto, a principal compensação desse padrão é o risco de um loop infinito. Se a condição de encerramento não for definida corretamente ou se os subagentes não produzirem o estado necessário para interromper, o loop poderá ser executado indefinidamente. Isso pode gerar custos operacionais excessivos, alto consumo de recursos e possíveis travamentos do sistema.

Padrão de revisão e crítica

O padrão de revisão e crítica multiagente, também conhecido como padrão de gerador e crítico, melhora a qualidade e a confiabilidade do conteúdo gerado usando dois agentes especializados, geralmente em um fluxo de trabalho sequencial. O padrão de revisão e crítica é uma implementação do padrão de agente de loop.

No padrão de revisão e crítica, um agente gerador cria uma saída inicial, como um bloco de código ou um resumo de um documento. Em seguida, um agente crítico avalia essa saída de acordo com um conjunto predefinido de critérios, como precisão factual, adesão a regras de formatação ou diretrizes de segurança. Com base na avaliação, o crítico pode aprovar ou rejeitar o conteúdo ou devolvê-lo ao gerador com feedback para revisão.

O diagrama a seguir mostra uma visão geral de um padrão de revisão e crítica multiagente:

Arquitetura do padrão de design de revisão e crítica com vários agentes.

Esse padrão é adequado para tarefas em que as saídas precisam ser altamente precisas ou obedecer a restrições rigorosas antes de serem apresentadas a um usuário ou usadas em um processo downstream. Por exemplo, em um fluxo de trabalho de geração de código, um agente gerador pode escrever uma função para atender à solicitação de um usuário. Esse código gerado é transmitido a um agente crítico que atua como auditor de segurança. O trabalho do agente crítico é verificar o código em relação a um conjunto de restrições, como a verificação de vulnerabilidades de segurança ou a verificação de que ele passa em todos os testes de unidade, antes de ser aprovado para uso.

O padrão de revisão e crítica pode melhorar a qualidade, a precisão e a confiabilidade da saída porque adiciona uma etapa de verificação dedicada. No entanto, essa garantia de qualidade tem o custo direto de aumento da latência e das despesas operacionais. O fluxo de trabalho exige pelo menos uma chamada de modelo adicional para a avaliação do crítico. Se o processo incluir loops de revisão em que o conteúdo é enviado de volta para refinamento, a latência e os custos vão se acumulando a cada iteração.

Padrão de refinamento iterativo

O padrão de refinamento iterativo usa um mecanismo de loop para melhorar progressivamente uma saída em vários ciclos. O padrão de refinamento iterativo é uma implementação do padrão de agente de loop.

Nesse padrão, um ou mais agentes trabalham em um loop para modificar um resultado armazenado no estado da sessão durante cada iteração. O processo continua até que a saída atenda a um limite de qualidade predefinido ou atinja um número máximo de iterações, o que evita loops infinitos.

O diagrama a seguir mostra uma visão geral de um padrão de refinamento iterativo multiagente:

Arquitetura do padrão de projeto de refinamento iterativo de vários agentes.

Esse padrão é adequado para tarefas de geração complexas em que a saída é difícil de alcançar em uma única etapa. Exemplos dessas tarefas incluem escrever e depurar um trecho de código, desenvolver um plano detalhado de várias partes ou criar e revisar um documento longo. Por exemplo, em um fluxo de trabalho de escrita criativa, um agente pode gerar um rascunho de uma postagem de blog, criticar o rascunho quanto ao fluxo e ao tom e, em seguida, reescrever o rascunho com base nessa crítica. Esse processo se repete em um loop até que o trabalho do agente atenda a um padrão de qualidade predefinido ou até que a repetição atinja um número máximo de iterações.

O padrão de refinamento iterativo pode produzir saídas altamente complexas ou refinadas que seriam difíceis de alcançar em uma única etapa. No entanto, o mecanismo de loop aumenta diretamente a latência e os custos operacionais a cada ciclo. Esse padrão também adiciona complexidade arquitetônica, porque exige condições de saída cuidadosamente projetadas, como uma avaliação de qualidade ou um limite máximo de iteração, para evitar custos excessivos ou execução descontrolada.

Padrão de coordenador

O padrão de coordenador multiagente usa um agente central, o coordenador, para direcionar um fluxo de trabalho. O coordenador analisa e decompõe a solicitação de um usuário em subtarefas e envia cada uma delas a um agente especializado para execução. Cada agente especializado é especialista em uma função específica, como consultar um banco de dados ou chamar uma API.

Uma distinção do padrão de coordenador é o uso de um modelo de IA para orquestrar e encaminhar tarefas de forma dinâmica. Por outro lado, o padrão paralelo depende de um fluxo de trabalho codificado para despachar tarefas para execução simultânea sem a necessidade de orquestração do modelo de IA.

O diagrama a seguir mostra uma visão geral de um padrão de coordenador multiagente:

Arquitetura do padrão de projeto de coordenador de vários agentes.

Use o padrão de coordenador para automatizar processos de negócios estruturados que exigem roteamento adaptativo. Por exemplo, um agente de serviço ao cliente pode atuar como coordenador. O agente coordenador analisa a solicitação para determinar se é um pedido de status do pedido, devolução de produto ou reembolso. Com base no tipo de solicitação, o coordenador encaminha a tarefa ao agente especializado adequado.

O padrão de coordenador oferece flexibilidade em comparação com fluxos de trabalho mais rígidos e predefinidos. Ao usar um modelo para encaminhar tarefas, o coordenador pode processar uma variedade maior de entradas e adaptar o fluxo de trabalho durante a execução. No entanto, essa abordagem também tem desvantagens. Como o coordenador e cada agente especializado dependem de um modelo para raciocínio, esse padrão resulta em mais chamadas de modelo do que um sistema de agente único. Embora o padrão de coordenador possa levar a um raciocínio de maior qualidade, ele também aumenta a capacidade de processamento de tokens, os custos operacionais e a latência geral em comparação com um sistema de agente único.

Padrão de decomposição hierárquica de tarefas

O padrão de decomposição hierárquica de tarefas multiagente organiza os agentes em uma hierarquia multinível para resolver problemas complexos que exigem planejamento extenso. O padrão de decomposição hierárquica de tarefas é uma implementação do padrão de coordenador. Um agente pai de nível superior, ou raiz, recebe uma tarefa complexa e é responsável por decompor a tarefa em várias subtarefas menores e gerenciáveis. O agente raiz delega cada subtarefa a um subagente especializado em um nível mais baixo. Esse processo pode se repetir em várias camadas, com agentes que decompõem progressivamente as tarefas atribuídas até que elas sejam simples o suficiente para um agente de trabalho no nível mais baixo executar diretamente.

O diagrama a seguir mostra uma visão geral de um padrão de decomposição de tarefas hierárquica multiagente:

Arquitetura do padrão de projeto de decomposição hierárquica de tarefas multiagente.

Use o padrão de decomposição hierárquica de tarefas para problemas ambíguos e abertos que exigem raciocínio em várias etapas, como tarefas que envolvem pesquisa, planejamento e síntese. Por exemplo, para concluir um projeto de pesquisa complexo, um agente coordenador divide a meta de alto nível em várias tarefas, como coleta de informações, análise das descobertas e síntese do relatório final. Em seguida, o agente coordenador delega essas tarefas a subagentes especializados, como um agente para coleta de dados, um agente de análise e um agente que escreve relatórios, para executar ou decompor ainda mais.

O padrão de decomposição hierárquica de tarefas é ideal para resolver problemas altamente complexos e ambíguos porque os decompõe sistematicamente em subtarefas gerenciáveis. Esse padrão pode resultar em resultados mais abrangentes e de maior qualidade do que padrões mais simples. No entanto, esse recurso avançado apresenta compensações significativas. A estrutura multinível adiciona uma complexidade arquitetônica considerável, o que torna o sistema mais difícil de projetar, depurar e manter. As várias camadas de delegação e raciocínio também resultam em um grande número de chamadas de modelo, o que aumenta significativamente a latência geral e os custos operacionais em comparação com outros padrões.

Padrão de enxame

O padrão de enxame multiagente usa uma abordagem de comunicação colaborativa e de todos para todos. Nesse padrão, vários agentes especializados trabalham juntos para refinar iterativamente uma solução para um problema complexo.

O diagrama a seguir mostra uma visão geral de um padrão de enxame multiagente:

Arquitetura do padrão de projeto de enxame multiagente.

O padrão de enxame usa um agente de dispatcher para rotear uma solicitação do usuário para um grupo colaborativo de agentes especializados. O agente de encaminhamento interpreta a solicitação e determina qual agente no enxame é mais adequado para iniciar a tarefa. Nesse padrão, cada agente pode se comunicar com todos os outros, o que permite compartilhar descobertas, criticar propostas e desenvolver o trabalho uns dos outros para refinar uma solução de forma iterativa. Qualquer agente no enxame pode transferir a tarefa para outro que ele determine ser mais adequado para lidar com a próxima etapa ou pode comunicar a resposta final ao usuário pelo agente coordenador.

Normalmente, um enxame não tem um supervisor central ou um agente coordenador para manter o processo no caminho certo. O agente de encaminhamento não orquestra o fluxo de trabalho de agente, ao contrário do padrão de coordenador. Em vez disso, o agente de encaminhamento facilita a comunicação entre os subagentes do enxame e o usuário. Para garantir que o enxame pare e retorne um resultado, defina uma condição de saída explícita. Essa condição geralmente é um número máximo de iterações, um limite de tempo ou a conquista de uma meta específica, como chegar a um consenso.

Use o padrão de enxame para problemas ambíguos ou altamente complexos que se beneficiam de debate e refinamento iterativo. Por exemplo, a criação de um novo produto pode envolver um agente de pesquisa de mercado, um agente de engenharia e um agente de modelagem financeira. Os agentes compartilhariam ideias iniciais, debateriam as compensações entre recursos e custos e chegariam a uma especificação de design final que equilibrasse todos os requisitos conflitantes.

O padrão de enxame simula uma equipe colaborativa de especialistas e, portanto, pode produzir soluções criativas e de alta qualidade. No entanto, ele representa o padrão multiagente mais complexo e caro de implementar. A falta de um agente que usa um modelo de IA para orquestrar pode introduzir o risco de loops improdutivos ou a falha em convergir para uma solução. Portanto, é preciso criar uma lógica sofisticada para gerenciar a comunicação complexa entre agentes, controlar o fluxo de trabalho iterativo e lidar com os custos operacionais e a latência significativos associados à execução de uma conversa dinâmica e de várias rodadas entre vários agentes.

Padrão de raciocínio e ação (ReAct)

O padrão ReAct é uma abordagem que usa o modelo de IA para enquadrar os processos de pensamento e as ações como uma sequência de interações em linguagem natural. Nesse padrão, o agente opera em um loop iterativo de pensamento, ação e observação até que uma condição de saída seja atendida.

  • Pensamento: o modelo raciocina sobre a tarefa e decide o que fazer em seguida. O modelo avalia todas as informações coletadas para determinar se a solicitação do usuário foi totalmente atendida.
  • Ação: com base no processo de pensamento, o modelo realiza uma destas duas ações:
    • Se a tarefa não estiver concluída, ele vai selecionar uma ferramenta e criar uma consulta para coletar mais informações.
    • Se a tarefa estiver concluída, ele vai formular a resposta final para enviar ao usuário, o que encerra o loop.
  • Observação: o modelo recebe a saída da ferramenta e salva informações relevantes na memória. Como o modelo salva a saída relevante, ele pode se basear em observações anteriores, o que ajuda a evitar que ele se repita ou perca o contexto.

O loop iterativo termina quando o agente encontra uma resposta conclusiva, atinge um número máximo predefinido de iterações ou encontra um erro que o impede de continuar. Esse loop iterativo permite que o agente crie um plano dinamicamente, reúna evidências e ajuste a abordagem enquanto trabalha para chegar a uma resposta final.

O diagrama a seguir mostra uma visão geral do padrão ReAct:

Arquitetura do padrão de design ReAct.

Use o padrão ReAct para tarefas complexas e dinâmicas que exigem planejamento e adaptação contínuos. Por exemplo, considere um agente de robótica que precisa gerar um caminho para fazer a transição de um estado inicial para um estado de meta:

  • Pensamento: o modelo considera o caminho ideal para fazer a transição do estado atual para o estado desejado. Durante o processo de pensamento, o modelo otimiza métricas como tempo ou energia.
  • Ação: o modelo executa a próxima etapa do plano movendo-se ao longo de um segmento de caminho calculado.
  • Observação: o modelo observa e salva o novo estado do ambiente. O modelo salva a nova posição e as mudanças no ambiente que ele percebe.

Esse loop permite que o agente siga restrições dinâmicas, como evitar novos obstáculos ou seguir as regulamentações de trânsito, atualizando constantemente o plano com base em novas observações. O agente continua o loop iterativo até atingir a meta ou encontrar um erro.

Um único agente ReAct pode ser mais simples e econômico de implementar e manter do que um sistema multiagente complexo. O pensamento de modelo fornece uma transcrição do raciocínio do modelo, o que ajuda na depuração. No entanto, essa flexibilidade introduz compensações. A natureza iterativa e de várias etapas do loop pode levar a uma latência de ponta a ponta maior em comparação com uma única consulta. Além disso, a eficácia do agente depende muito da qualidade do raciocínio do modelo de IA. Portanto, um erro ou um resultado enganoso de uma ferramenta em uma etapa de observação pode se propagar e fazer com que a resposta final esteja incorreta.

Padrão human-in-the-loop

O padrão human-in-the-loop integra pontos de intervenção humana diretamente no fluxo de trabalho de um agente. Em um ponto de verificação predefinido, o agente pausa a execução e chama um sistema externo para aguardar que uma pessoa revise o trabalho. Com esse padrão, uma pessoa pode aprovar uma decisão, corrigir um erro ou fornecer a entrada necessária antes que o agente possa continuar.

O diagrama a seguir mostra uma visão geral de um padrão de humano no loop:

Arquitetura do padrão de design human-in-the-loop multiagente.

Use o padrão human-in-the-loop para tarefas que exigem supervisão humana, julgamento subjetivo ou aprovação final para ações críticas. Essas ações incluem aprovar uma transação financeira grande, validar o resumo de um documento sensível ou fornecer feedback subjetivo sobre o conteúdo criativo gerado. Por exemplo, um agente pode ser encarregado de anonimizar um conjunto de dados de pacientes para pesquisa. O agente identificaria e redigiria automaticamente todas as informações de saúde protegidas, mas faria uma pausa em um checkpoint final. Em seguida, ele aguardaria um agente de conformidade humano validar manualmente o conjunto de dados e aprovar a divulgação, o que ajuda a garantir que nenhum dado sensível seja exposto.

O padrão human-in-the-loop melhora a segurança e a confiabilidade ao inserir o julgamento humano em pontos de decisão críticos no fluxo de trabalho. Esse padrão pode adicionar uma complexidade arquitetônica significativa porque exige que você crie e mantenha o sistema externo para interação do usuário.

Padrão de lógica personalizada

O padrão de lógica personalizada oferece a máxima flexibilidade no design do fluxo de trabalho. Essa abordagem permite implementar uma lógica de orquestração específica que usa código, como instruções condicionais, para criar fluxos de trabalho complexos com vários caminhos de ramificação.

O diagrama a seguir ilustra um exemplo de uso de um padrão de lógica personalizada para capturar um processo de reembolso:

Arquitetura do padrão de design personalizado de vários agentes.

No diagrama anterior, o fluxo de trabalho de agente para o exemplo de agente de reembolso ao cliente é o seguinte:

  1. O usuário envia uma consulta ao agente de reembolso ao cliente, que atua como um agente coordenador.
  2. Primeiro, a lógica personalizada do coordenador invoca um agente verificador paralelo, que envia simultaneamente dois subagentes: o agente verificador do comprador e o agente de qualificação para reembolso.
  3. Depois que os resultados são coletados, o agente coordenador executa uma ferramenta para verificar se a solicitação está qualificada para um reembolso.
    1. Se o usuário se qualificar, o coordenador vai encaminhar a tarefa para um agente de processamento de reembolsos, que vai chamar a ferramenta process_refund.
    2. Se o usuário não se qualificar, o coordenador vai encaminhar a tarefa para um fluxo sequencial separado, começando com o agente de crédito da loja e o agente de decisão de crédito do processo.
  4. O resultado de qualquer caminho tomado é enviado ao agente de resposta final para formular a resposta ao usuário.

O exemplo de agente de reembolso ao cliente exige uma solução exclusiva para a orquestração no nível da lógica, que vai além das abordagens estruturadas oferecidas por outros padrões. Esse fluxo de trabalho mistura padrões porque executa uma verificação paralela e, em seguida, executa uma ramificação condicional personalizada que encaminha para dois processos downstream totalmente diferentes. Esse tipo de fluxo de trabalho complexo e de padrão misto é o caso de uso ideal para o padrão de lógica personalizada.

Use o padrão de lógica personalizada quando precisar de controle refinado sobre a execução do agente ou quando seu fluxo de trabalho não se encaixar em um dos outros padrões descritos neste documento. No entanto, essa abordagem aumenta a complexidade de desenvolvimento e manutenção. Você é responsável por projetar, implementar e depurar todo o fluxo de orquestração, o que exige mais esforço de desenvolvimento e pode ser mais propenso a erros do que usar um padrão predefinido compatível com uma ferramenta de desenvolvimento de agente, como o Kit de Desenvolvimento de Agente (ADK).

Para informações sobre agentes personalizados e como implementar lógica personalizada usando o ADK, consulte Agentes personalizados.

Comparar padrões de design

Escolher um padrão de agente é uma decisão arquitetônica fundamental. Cada padrão oferece diferentes compensações em flexibilidade, complexidade e desempenho. Para determinar o padrão adequado para sua carga de trabalho, considere os padrões de design nas seções a seguir.

Workflows deterministas

Os fluxos de trabalho determinísticos incluem tarefas previsíveis e sequenciais, com um caminho claramente definido do início ao fim. As etapas das tarefas são conhecidas com antecedência, e o processo não muda muito de uma execução para outra. A seguir, apresentamos padrões de design de agente para fluxos de trabalho determinísticos:

Características da carga de trabalho Padrão de design do agente
  • Tarefas de várias etapas que seguem um fluxo de trabalho predefinido e rígido.
  • Não requer orquestração de modelos.
  • Sequência fixa de operações. A saída de um agente é a entrada direta do próximo agente na sequência.
Padrão sequencial multiagente
  • Tarefas independentes que podem ser executadas ao mesmo tempo.
  • Não requer orquestração de modelos.
  • Reduz a latência geral executando subtarefas simultaneamente.
Padrão paralelo multiagente
  • Tarefas de geração complexas ou abertas que são difíceis de concluir em uma única tentativa.
  • Exige que o agente melhore progressivamente a saída em vários ciclos.
  • Não requer orquestração de modelos.
  • Prioriza a qualidade da saída em vez da latência.
Padrão de refinamento iterativo multiagente

Workflows que exigem orquestração dinâmica

Workflows que exigem orquestração dinâmica incluem problemas complexos em que os agentes precisam determinar a melhor maneira de prosseguir. O sistema de IA autônoma precisa planejar, delegar e coordenar tarefas de forma dinâmica sem um script predefinido. A seguir, apresentamos padrões de design de agentes para fluxos de trabalho que exigem orquestração autônoma e dinâmica:

Características da carga de trabalho Padrão de design do agente
  • Tarefas estruturadas e de várias etapas que exigem o uso de ferramentas externas.
  • Exige desenvolvimento rápido para um protótipo de uma solução como prova de conceito.
Padrão de agente único
  • Requer roteamento dinâmico para um subagente especializado adequado para tarefas estruturadas com entradas variadas.
  • Alta latência devido a várias chamadas ao modelo de IA coordenador para que ele possa direcionar tarefas ao subagente apropriado.
  • Pode gerar custos altos devido a várias chamadas ao agente coordenador.
Padrão de coordenador multiagente
  • Exige orquestração de modelos multinível para tarefas complexas, ambíguas e sem restrições.
  • Exige resultados abrangentes e de alta qualidade em que a decomposição da ambiguidade é o principal desafio.
  • Alta latência devido à decomposição aninhada e multinível que leva a várias chamadas ao modelo de IA para raciocínio.
Padrão de decomposição hierárquica de tarefas multiagente
  • Exige debate colaborativo e refinamento iterativo de vários agentes especializados para tarefas altamente complexas, abertas ou ambíguas.
  • Prioriza a síntese de várias perspectivas para criar uma solução abrangente ou criativa.
  • Latência alta e custos operacionais devido à comunicação dinâmica e completa entre agentes.
Padrão de enxame multiagente

Workflows que envolvem iteração

Workflows que envolvem iteração incluem tarefas em que o resultado final é alcançado por ciclos de refinamento, feedback e melhoria. A seguir, apresentamos padrões de design de agentes para fluxos de trabalho que envolvem iteração:

Características da carga de trabalho Padrão de design do agente
  • Exige que um agente raciocine, aja e observe de forma iterativa para criar ou adaptar um plano para tarefas complexas, abertas e dinâmicas.
  • Prioriza um resultado mais preciso e completo em vez da latência.
Padrão ReAct
  • Exige tarefas de monitoramento ou sondagem que repetem uma ação predefinida, como verificações automatizadas, até que o agente atenda a uma condição de saída.
  • Latência imprevisível ou de longa duração ao aguardar o atendimento de uma condição de saída.
Padrão de loop multiagente
  • As tarefas exigem uma etapa de validação distinta antes da conclusão.
Padrão de revisão e crítica multiagente
  • Tarefas de geração complexas ou abertas que são difíceis de concluir em uma única tentativa.
  • Exige que o agente melhore progressivamente a saída em vários ciclos.
  • Não requer orquestração de modelos.
  • Prioriza a qualidade da saída em vez da latência.
Padrão de refinamento iterativo multiagente

Workflows com requisitos especiais

Workflows com requisitos especiais incluem tarefas que não seguem os padrões comuns de agentes. Suas tarefas podem incluir lógica de negócios exclusiva ou exigir julgamento e intervenção humana em pontos críticos. Seu sistema de IA com agentes é uma máquina personalizada projetada para uma finalidade única e específica. Confira a seguir padrões de design de agentes para fluxos de trabalho com requisitos especiais:

Características da carga de trabalho Padrão de design do agente
  • Exige supervisão humana devido a tarefas subjetivas ou de alto risco que podem incluir requisitos de segurança, confiabilidade e conformidade.
Padrão human-in-the-loop
  • Lógica complexa e ramificada que vai além de uma sequência linear direta.
  • Exige controle máximo para combinar regras predefinidas com o raciocínio do modelo.
  • Exige controle refinado de processos para um fluxo de trabalho que não se encaixa em um modelo padrão.
Padrão de lógica personalizada

A seguir

Colaboradores

Autora: Samantha He | Redatora técnica

Outros colaboradores: