Le sandbox di utilizzo del computer di Agent Platform forniscono un ambiente browser sicuro e isolato con cui gli agenti possono interagire. Queste sandbox consentono agli agenti di automatizzare le attività che imitano le interazioni umane (come fare clic, navigare sui siti e scattare screenshot).
Come funziona
Quando crei un sandbox di utilizzo del computer, Gemini Enterprise Agent Platform provisiona un ambiente in container che esegue un agente del browser web. Puoi controllare il browser in due modi:
- Richieste API: invia comandi alla sandbox per eseguire azioni come navigare a un URL, fare clic sugli elementi o digitare testo.
- Controllo del browser: connettiti al browser utilizzando una connessione standard Chrome DevTools Protocol (CDP), che ti consente di utilizzare strumenti di automazione del browser (come Playwright) per automatizzare il browser.
Considerazioni
Durante l'anteprima, la latenza della sandbox di utilizzo del computer della piattaforma dell'agente è ottimizzata per volumi di traffico ridotti. Volumi di traffico più elevati potrebbero temporaneamente riscontrare una latenza maggiore.
Controllare il browser utilizzando l'API
Puoi inviare richieste API alla sandbox per eseguire azioni comuni del browser. La sandbox gestisce l'esecuzione di queste azioni all'interno del suo ambiente isolato.
Le azioni supportate includono:
- Navigazione a un URL.
- Fare clic su coordinate specifiche.
- Digitazione del testo nei campi.
- Acquisizione di screenshot.
Per un esempio di come inviare comandi, consulta la guida rapida Utilizzo del computer.
Controllare il browser utilizzando una connessione CDP
Per un'automazione più avanzata, puoi connetterti al browser sandbox tramite una connessione Chrome DevTools Protocol (CDP). Questo metodo ti consente di utilizzare strumenti di automazione del browser standard, come Playwright, per interagire con la pagina web.
Per connettere Playwright alla sandbox:
- Genera l'URL WebSocket e le intestazioni richieste per la sandbox utilizzando
il metodo
generate_browser_ws_headersdell'SDK Python.
service_account_email = "SERVICE_ACCOUNT_EMAIL"
ws_url, ws_headers = client.agent_engines.sandboxes.generate_browser_ws_headers(
sandbox_environment=sandbox,
service_account_email=service_account_email,
)
- Utilizza il metodo
connect_over_cdpdi Playwright per stabilire una connessione.
Utilizza l'URL e le intestazioni WebSocket generati per connetterti tramite CDP utilizzando Playwright:
import asyncio
from playwright.async_api import async_playwright
import nest_asyncio
nest_asyncio.apply()
async def connect_over_cdp(ws_url, ws_headers):
async with async_playwright() as p:
try:
browser = await p.chromium.connect_over_cdp(
endpoint_url=ws_url,
headers=ws_headers
)
print("Successfully connected to browser over CDP.")
# You can now interact with the browser
page = browser.contexts[0].pages[0]
await page.goto("https://www.example.com")
print(f"Page title: {await page.title()}")
await browser.close()
print("Browser connection closed.")
except Exception as e:
print(f"An error occurred: {e}")
# Run CDP connection
asyncio.run(connect_over_cdp(ws_url, ws_headers))
Visualizzazione live streaming
Le sandbox per l'utilizzo del computer supportano una visualizzazione di live streaming (VNC), che ti consente di monitorare visivamente le azioni dell'agente in tempo reale. Puoi eseguire il debug e osservare il comportamento dell'agente.
Passaggi successivi
- Guida rapida all'utilizzo del computer
- Esplora gli snapshot per la gestione del ciclo di vita della sandbox.