Die Computer Use-Sandboxes der Agent Platform bieten eine sichere, isolierte Browserumgebung, mit der Ihre Agenten interagieren können. In diesen Sandboxes können Agenten Aufgaben automatisieren, die menschliche Interaktionen nachahmen, z. B. Klicken, Navigieren auf Websites und Erstellen von Screenshots.
Funktionsweise
Wenn Sie eine Sandbox für die Computernutzung erstellen, stellt die Gemini Enterprise Agent Platform eine containerisierte Umgebung bereit, in der ein Webbrowser-Agent ausgeführt wird. Sie haben zwei Möglichkeiten, den Browser zu steuern:
- API-Anfragen: Senden Sie Befehle an die Sandbox, um Aktionen wie das Aufrufen einer URL, das Klicken auf Elemente oder das Eingeben von Text auszuführen.
- Browsersteuerung: Stellen Sie eine Verbindung zum Browser über eine standardmäßige Chrome DevTools Protocol-Verbindung (CDP) her, damit Sie Browserautomatisierungstools wie Playwright verwenden können, um den Browser zu automatisieren.
Hinweise
Während der Vorschauphase ist die Latenz der Agent Platform Computer Use Sandbox für geringe Traffic-Volumen optimiert. Bei höherem Traffic-Volumen kann es vorübergehend zu einer erhöhten Latenz kommen.
Browser mit API steuern
Sie können API-Anfragen an die Sandbox senden, um gängige Browseraktionen auszuführen. Die Sandbox übernimmt die Ausführung dieser Aktionen in ihrer isolierten Umgebung.
Zu den unterstützten Aktionen gehören:
- Eine URL aufrufen.
- Klicken auf bestimmte Koordinaten
- Text in Felder eingeben
- Screenshots erstellen
Ein Beispiel für das Senden von Befehlen finden Sie in der Kurzanleitung zur Computerverwendung.
Browser über eine CDP-Verbindung steuern
Für eine erweiterte Automatisierung können Sie über eine Chrome DevTools Protocol-Verbindung (CDP) eine Verbindung zum Sandbox-Browser herstellen. Mit dieser Methode können Sie Standardtools zur Browserautomatisierung wie Playwright verwenden, um mit der Webseite zu interagieren.
So verbinden Sie Playwright mit der Sandbox:
- Generieren Sie die WebSocket-URL und die erforderlichen Header für Ihre Sandbox mit der
generate_browser_ws_headers-Methode des Python SDK.
service_account_email = "SERVICE_ACCOUNT_EMAIL"
ws_url, ws_headers = client.agent_engines.sandboxes.generate_browser_ws_headers(
sandbox_environment=sandbox,
service_account_email=service_account_email,
)
- Verwenden Sie die
connect_over_cdp-Methode von Playwright, um eine Verbindung herzustellen.
Verwenden Sie die generierte WebSocket-URL und die Header, um über CDP mit Playwright eine Verbindung herzustellen:
import asyncio
from playwright.async_api import async_playwright
import nest_asyncio
nest_asyncio.apply()
async def connect_over_cdp(ws_url, ws_headers):
async with async_playwright() as p:
try:
browser = await p.chromium.connect_over_cdp(
endpoint_url=ws_url,
headers=ws_headers
)
print("Successfully connected to browser over CDP.")
# You can now interact with the browser
page = browser.contexts[0].pages[0]
await page.goto("https://www.example.com")
print(f"Page title: {await page.title()}")
await browser.close()
print("Browser connection closed.")
except Exception as e:
print(f"An error occurred: {e}")
# Run CDP connection
asyncio.run(connect_over_cdp(ws_url, ws_headers))
Livestream-Ansicht
Computer Use-Sandboxes unterstützen eine Live-Streaming-Ansicht (VNC), mit der Sie die Aktionen des Agents in Echtzeit visuell überwachen können. Sie können das Verhalten des KI-Agenten debuggen und beobachten.
Nächste Schritte
- Kurzanleitung zur Computerverwendung
- Snapshots für die Verwaltung des Sandbox-Lebenszyklus