Les bacs à sable d'utilisation de l'ordinateur Agent Platform fournissent un environnement de navigateur sécurisé et isolé avec lequel vos agents peuvent interagir. Ces bacs à sable permettent aux agents d'automatiser des tâches qui imitent les interactions humaines (comme les clics, la navigation sur les sites et les captures d'écran).
Fonctionnement
Lorsque vous créez un bac à sable "Utilisation de l'ordinateur", Gemini Enterprise Agent Platform provisionne un environnement conteneurisé qui exécute un agent de navigateur Web. Vous pouvez contrôler le navigateur de deux manières :
- Requêtes API : envoyez des commandes au bac à sable pour effectuer des actions telles que naviguer vers une URL, cliquer sur des éléments ou saisir du texte.
- Contrôle du navigateur : connectez-vous au navigateur à l'aide d'une connexion CDP (Chrome DevTools Protocol) standard, ce qui vous permet d'utiliser des outils d'automatisation du navigateur (tels que Playwright) pour automatiser le navigateur.
Remarques
Pendant la période Preview, la latence du bac à sable d'utilisation du calcul de l'Agent Platform est optimisée pour les faibles volumes de trafic. Les volumes de trafic plus élevés peuvent temporairement entraîner une latence accrue.
Contrôler le navigateur à l'aide de l'API
Vous pouvez envoyer des requêtes d'API au bac à sable pour effectuer des actions courantes dans le navigateur. Le bac à sable gère l'exécution de ces actions dans son environnement isolé.
Voici quelques exemples d'actions acceptées :
- Accéder à une URL.
- Cliquer à des coordonnées spécifiques.
- Saisir du texte dans des champs
- Effectuer des captures d'écran
Pour obtenir un exemple d'envoi de commandes, consultez le guide de démarrage rapide sur l'utilisation de l'ordinateur.
Contrôler le navigateur à l'aide d'une connexion CDP
Pour une automatisation plus avancée, vous pouvez vous connecter au navigateur du bac à sable via une connexion Chrome DevTools Protocol (CDP). Cette méthode vous permet d'utiliser des outils d'automatisation de navigateur standards, tels que Playwright, pour interagir avec la page Web.
Pour connecter Playwright au bac à sable :
- Générez l'URL WebSocket et les en-têtes requis pour votre bac à sable à l'aide de la méthode
generate_browser_ws_headersdu SDK Python.
service_account_email = "SERVICE_ACCOUNT_EMAIL"
ws_url, ws_headers = client.agent_engines.sandboxes.generate_browser_ws_headers(
sandbox_environment=sandbox,
service_account_email=service_account_email,
)
- Utilisez la méthode
connect_over_cdpde Playwright pour établir une connexion.
Utilisez l'URL et les en-têtes WebSocket générés pour vous connecter via CDP à l'aide de Playwright :
import asyncio
from playwright.async_api import async_playwright
import nest_asyncio
nest_asyncio.apply()
async def connect_over_cdp(ws_url, ws_headers):
async with async_playwright() as p:
try:
browser = await p.chromium.connect_over_cdp(
endpoint_url=ws_url,
headers=ws_headers
)
print("Successfully connected to browser over CDP.")
# You can now interact with the browser
page = browser.contexts[0].pages[0]
await page.goto("https://www.example.com")
print(f"Page title: {await page.title()}")
await browser.close()
print("Browser connection closed.")
except Exception as e:
print(f"An error occurred: {e}")
# Run CDP connection
asyncio.run(connect_over_cdp(ws_url, ws_headers))
Vue de la diffusion en direct
Les bacs à sable d'utilisation de l'ordinateur sont compatibles avec une vue de streaming en direct (VNC), ce qui vous permet de surveiller visuellement les actions de l'agent en temps réel. Vous pouvez déboguer et observer le comportement de l'agent.
Étapes suivantes
- Démarrage rapide de l'utilisation de l'ordinateur
- Découvrez les instantanés pour la gestion du cycle de vie du bac à sable.