Crie ferramentas de automatização ou execute um sistema operativo (SO) de computador completo no seu contentor do Cloud Run para permitir que os agentes de IA naveguem e extraiam informações da Web, e automatizem ações através de cliques do rato e entradas de teclado.
Crie ferramentas de navegador no Cloud Run
Para criar uma ferramenta de navegador no Cloud Run, use uma das seguintes abordagens:
- Um navegador sem interface gráfica para tarefas eficientes e em grande escala
- Um SO de computador completo para cenários complexos que requerem interação humano-computador
Para permitir que o seu agente de IA navegue na Web, instale o Chromium no seu contentor do Cloud Run e conceda as autorizações necessárias para que o agente aceda ao Chromium. O Cloud Run oferece suporte de streaming integrado para transmitir dados do navegador de volta para o agente ou o utilizador final.
Chrome sem interface
Automatize tarefas comuns do navegador de forma programática com o Chrome sem interface. Pode usar o Chrome sem interface para os seguintes exemplos de utilização:
- Extração de dados e scraping da Web em grande escala
- Envios de formulários
- Testes da IU
- Crie PDFs ou capturas de ecrã de páginas Web
Implemente o Chrome sem interface com as seguintes bibliotecas:
Bibliotecas de APIs de nível superior, como o Puppeteer ou o Playwright: use estas bibliotecas para controlar um navegador, fornecer instruções ao navegador para visitar um Website, extrair conteúdo e transmiti-lo a um modelo de IA para resumo ou extração de dados estruturados.
Protocolo das Chrome DevTools: fornece uma API estável usada pelas Chrome DevTools. Esta API expõe todas as funcionalidades do navegador de forma programática. O agente controla ações como cliques do rato e obtém os resultados como texto ou dados de píxeis sob a forma de uma captura de ecrã.
SO de computador com streaming de computação de rede virtual (VNC)
Implemente um SO de computador completo no seu contentor do Cloud Run para processos complexos, como os seguintes:
- Automatize carregamentos ou transferências de ficheiros
- Interagir com extensões do navegador ou outras aplicações para computador
- Teste percursos do utilizador complexos que envolvem arrastar e largar, e outros movimentos complexos do rato
Esta abordagem permite-lhe executar um SO de computador completo no Cloud Run e transmitir os resultados através de Websockets.
Quando instala o navegador Chromium padrão neste computador, o agente interage com o SO como um humano e, em seguida, obtém a configuração de píxeis do computador.