Automazione di browser e sistema operativo in Cloud Run

Crea strumenti di automazione o esegui un sistema operativo desktop completo nel tuo container Cloud Run per consentire agli agenti AI di navigare ed estrarre informazioni dal web e automatizzare le azioni tramite clic del mouse e input da tastiera.

Crea strumenti del browser su Cloud Run

Per creare uno strumento del browser su Cloud Run, utilizza uno dei seguenti approcci:

Per consentire all'agente AI di navigare sul web, installa Chromium nel container Cloud Run e concedi le autorizzazioni necessarie per l'agente per accedere a Chromium. Cloud Run fornisce il supporto integrato per lo streaming per lo streaming dei dati del browser all'agente o all'utente finale.

Chrome headless

Automatizza le attività comuni del browser in modo programmatico con Chrome senza interfaccia grafica. Puoi utilizzare Chrome senza interfaccia grafica per i seguenti casi d'uso:

  • Scraping e estrazione di dati su larga scala dal web
  • Invii di moduli
  • Test dell'interfaccia utente
  • Creare PDF o screenshot di pagine web

Implementa Headless Chrome utilizzando le seguenti librerie:

  • Librerie API di alto livello come Puppeteer o Playwright: utilizza queste librerie per controllare un browser, fornire istruzioni al browser per visitare un sito web, estrarre contenuti e passarli a un modello di AI per il riepilogo o l'estrazione di dati strutturati.

  • Protocollo Chrome DevTools: fornisce un'API stabile utilizzata da Chrome DevTools. Questa API espone tutte le funzionalità del browser in modo programmatico. L'agente controlla azioni come i clic del mouse e recupera i risultati come testo o dati dei pixel sotto forma di screenshot.

Sistema operativo desktop con streaming VNC (Virtual Network Computing)

Implementa un sistema operativo desktop completo nel container Cloud Run per processi complessi, ad esempio:

  • Automatizzare i caricamenti o i download di file
  • Interagire con le estensioni del browser o altre applicazioni desktop
  • Testa percorsi utente complessi che prevedono il trascinamento e altri movimenti del mouse complessi

Questo approccio ti consente di eseguire un sistema operativo desktop completo su Cloud Run e trasmettere in streaming i risultati tramite Websocket.

Quando installi il browser Chromium standard su questo computer, l'agente interagisce con il sistema operativo come farebbe una persona e recupera la configurazione dei pixel del computer.