Automação de navegador e SO no Cloud Run

Crie ferramentas de automação ou execute um sistema operacional (SO) de computador completo no seu contêiner do Cloud Run para permitir que agentes de IA naveguem e extraiam informações da Web e automatizem ações com cliques do mouse e entradas de teclado.

Criar ferramentas de navegador no Cloud Run

Para criar uma ferramenta de navegador no Cloud Run, use uma das seguintes abordagens:

Para permitir que seu agente de IA navegue na Web, instale o Chromium no contêiner do Cloud Run e conceda as permissões necessárias para que o agente acesse o Chromium. O Cloud Run oferece suporte integrado ao streaming para transmitir dados do navegador de volta ao agente ou ao usuário final.

Chrome sem interface gráfica

Automatize tarefas comuns do navegador de forma programática com o Chrome sem interface gráfica. Você pode usar o Chrome sem interface gráfica nos seguintes casos de uso:

  • Raspagem da Web e extração de dados em grande escala
  • Envios de formulário
  • Como testar a interface
  • Criar PDFs ou capturas de tela de páginas da Web

Implemente o Chrome headless usando as seguintes bibliotecas:

  • Bibliotecas de API de alto nível, como Puppeteer ou Playwright: use essas bibliotecas para controlar um navegador, fornecer instruções para acessar um site, extrair conteúdo e transmitir para um modelo de IA para resumo ou extração de dados estruturados.

  • Protocolo do Chrome DevTools: oferece uma API estável usada pelo Chrome DevTools. Essa API expõe todos os recursos do navegador de maneira programática. O agente controla ações como cliques do mouse e recupera os resultados como texto ou dados de pixel na forma de uma captura de tela.

SO de computador com transmissão de computação de rede virtual (VNC)

Implemente um SO de computador completo no contêiner do Cloud Run para processos complexos, como:

  • Automatizar uploads ou downloads de arquivos
  • Interagir com extensões do navegador ou outros aplicativos para computador
  • Teste jornadas complexas do usuário que envolvem arrastar e soltar e outros movimentos intrincados do mouse

Essa abordagem permite executar um SO de computador completo no Cloud Run e transmitir os resultados de volta por Websockets.

Quando você instala o navegador Chromium padrão nesse computador, o agente interage com o SO como um humano e recupera a configuração de pixel do computador.