Uso del computer

Le sandbox di utilizzo del computer di Agent Platform forniscono un ambiente browser sicuro e isolato con cui gli agenti possono interagire. Queste sandbox consentono agli agenti di automatizzare le attività che imitano le interazioni umane (come fare clic, navigare sui siti e scattare screenshot).

Come funziona

Quando crei un sandbox di utilizzo del computer, Gemini Enterprise Agent Platform provisiona un ambiente in container che esegue un agente del browser web. Puoi controllare il browser in due modi:

  • Richieste API: invia comandi alla sandbox per eseguire azioni come navigare a un URL, fare clic sugli elementi o digitare testo.
  • Controllo del browser: connettiti al browser utilizzando una connessione standard Chrome DevTools Protocol (CDP), che ti consente di utilizzare strumenti di automazione del browser (come Playwright) per automatizzare il browser.

Considerazioni

Durante l'anteprima, la latenza della sandbox di utilizzo del computer della piattaforma dell'agente è ottimizzata per volumi di traffico ridotti. Volumi di traffico più elevati potrebbero temporaneamente riscontrare una latenza maggiore.

Controllare il browser utilizzando l'API

Puoi inviare richieste API alla sandbox per eseguire azioni comuni del browser. La sandbox gestisce l'esecuzione di queste azioni all'interno del suo ambiente isolato.

Le azioni supportate includono:

  • Navigazione a un URL.
  • Fare clic su coordinate specifiche.
  • Digitazione del testo nei campi.
  • Acquisizione di screenshot.

Per un esempio di come inviare comandi, consulta la guida rapida Utilizzo del computer.

Controllare il browser utilizzando una connessione CDP

Per un'automazione più avanzata, puoi connetterti al browser sandbox tramite una connessione Chrome DevTools Protocol (CDP). Questo metodo ti consente di utilizzare strumenti di automazione del browser standard, come Playwright, per interagire con la pagina web.

Per connettere Playwright alla sandbox:

  1. Genera l'URL WebSocket e le intestazioni richieste per la sandbox utilizzando il metodo generate_browser_ws_headers dell'SDK Python.
service_account_email = "SERVICE_ACCOUNT_EMAIL"
ws_url, ws_headers = client.agent_engines.sandboxes.generate_browser_ws_headers(
    sandbox_environment=sandbox,
    service_account_email=service_account_email,
)
  1. Utilizza il metodo connect_over_cdp di Playwright per stabilire una connessione.

Utilizza l'URL e le intestazioni WebSocket generati per connetterti tramite CDP utilizzando Playwright:

import asyncio
from playwright.async_api import async_playwright
import nest_asyncio
nest_asyncio.apply()

async def connect_over_cdp(ws_url, ws_headers):
    async with async_playwright() as p:
        try:
            browser = await p.chromium.connect_over_cdp(
                endpoint_url=ws_url,
                headers=ws_headers
            )
            print("Successfully connected to browser over CDP.")

            # You can now interact with the browser
            page = browser.contexts[0].pages[0]
            await page.goto("https://www.example.com")
            print(f"Page title: {await page.title()}")

            await browser.close()
            print("Browser connection closed.")
        except Exception as e:
            print(f"An error occurred: {e}")

# Run CDP connection
asyncio.run(connect_over_cdp(ws_url, ws_headers))

Visualizzazione live streaming

Le sandbox per l'utilizzo del computer supportano una visualizzazione di live streaming (VNC), che ti consente di monitorare visivamente le azioni dell'agente in tempo reale. Puoi eseguire il debug e osservare il comportamento dell'agente.

Passaggi successivi