Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

Computernutzung

Vorschau

Diese Funktion unterliegt den „Nutzungsbedingungen für Pre-GA-Angebote“ im Abschnitt „Allgemeine Dienstbedingungen“ der dienstspezifischen Nutzungsbedingungen. Diese Funktion bietet eine Sandbox-Umgebung für KI-Agents. Daher gelten die dienstspezifischen Nutzungsbedingungen für „agentische KI-Dienste“. Wenn Sie diese Funktion nutzen möchten, müssen Sie den vollständigen Netzwerkzugriff für Ihren KI-Agenten aktivieren. Berücksichtigen Sie daher die entsprechenden Sicherheitsvorkehrungen (einschließlich der menschlichen Aufsicht) und die Richtlinien Ihrer Organisation, bevor Sie dies tun. Für integrierte Sicherheitsvorkehrungen für die Computernutzung können Sie das Tool zur Computernutzung der Agent Platform verwenden.

Pre-GA‑Funktionen stehen in der vorliegenden Form zur Verfügung und bieten möglicherweise nur eingeschränkten Support. Weitere Informationen finden Sie in den Beschreibungen der Produkteinführungsphasen.

Die Computer Use-Sandboxes der Agent Platform bieten eine sichere, isolierte Browserumgebung, mit der Ihre Agents interagieren können. In diesen Sandboxes können KI-Agenten Aufgaben automatisieren, die menschliche Interaktionen nachahmen, z. B. Klicken, Navigieren auf Websites und Erstellen von Screenshots.

Funktionsweise

Wenn Sie eine Sandbox für die Computernutzung erstellen, stellt die Gemini Enterprise Agent Platform eine containerisierte Umgebung bereit, in der ein Webbrowser-Agent ausgeführt wird. Sie haben zwei Möglichkeiten, den Browser zu steuern:

API-Anfragen: Senden Sie Befehle an die Sandbox, um Aktionen wie das Aufrufen einer URL, das Klicken auf Elemente oder das Eingeben von Text auszuführen.
Browsersteuerung: Sie können eine Verbindung zum Browser über eine standardmäßige Chrome DevTools Protocol-Verbindung (CDP) herstellen und so Browserautomatisierungstools wie Playwright verwenden, um den Browser zu automatisieren.

Hinweise

Während der Vorschauphase ist die Latenz der Agent Platform Computer Use Sandbox für geringe Traffic-Volumen optimiert. Bei höherem Traffic-Volumen kann es vorübergehend zu einer erhöhten Latenz kommen.

Browser mit API steuern

Sie können API-Anfragen an die Sandbox senden, um gängige Browseraktionen auszuführen. Die Sandbox übernimmt die Ausführung dieser Aktionen in ihrer isolierten Umgebung.

Zu den unterstützten Aktionen gehören:

Eine URL aufrufen.
Klicken auf bestimmte Koordinaten
Text in Felder eingeben
Screenshots erstellen

Ein Beispiel für das Senden von Befehlen finden Sie in der Kurzanleitung zur Computerverwendung.

Browser über eine CDP-Verbindung steuern

Für eine erweiterte Automatisierung können Sie über eine Chrome DevTools Protocol-Verbindung (CDP) eine Verbindung zum Sandbox-Browser herstellen. Mit dieser Methode können Sie Standardtools zur Browserautomatisierung wie Playwright verwenden, um mit der Webseite zu interagieren.

So verbinden Sie Playwright mit der Sandbox:

Generieren Sie die WebSocket-URL und die erforderlichen Header für Ihre Sandbox mit der generate_browser_ws_headers-Methode des Python SDK.

  service_account_email = "SERVICE_ACCOUNT_EMAIL"
  ws_url, ws_headers = client.agent_engines.sandboxes.generate_browser_ws_headers(
      sandbox_environment=sandbox,
      service_account_email=service_account_email,
  )

Verwenden Sie die connect_over_cdp-Methode von Playwright, um eine Verbindung herzustellen.

Verwenden Sie die generierte WebSocket-URL und die Header, um über CDP mit Playwright eine Verbindung herzustellen:

  import asyncio
  from playwright.async_api import async_playwright
  import nest_asyncio
  nest_asyncio.apply()

  async def connect_over_cdp(ws_url, ws_headers):
      async with async_playwright() as p:
          try:
              browser = await p.chromium.connect_over_cdp(
                  endpoint_url=ws_url,
                  headers=ws_headers
              )
              print("Successfully connected to browser over CDP.")

              # You can now interact with the browser
              page = browser.contexts[0].pages[0]
              await page.goto("https://www.example.com")
              print(f"Page title: {await page.title()}")

              await browser.close()
              print("Browser connection closed.")
          except Exception as e:
              print(f"An error occurred: {e}")

  # Run CDP connection
  asyncio.run(connect_over_cdp(ws_url, ws_headers))

Livestream-Ansicht

Computer Use-Sandboxes unterstützen eine Live-Streaming-Ansicht (VNC), mit der Sie die Aktionen des Agents in Echtzeit visuell überwachen können. Sie können das Verhalten des KI-Agenten debuggen und beobachten.

Sie können beispielsweise noVNC verwenden, um über WebSocket eine Verbindung zur Sandbox herzustellen.

Nächste Schritte

Kurzanleitung zur Computerverwendung
Snapshots für die Verwaltung des Sandbox-Lebenszyklus

Computernutzung Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.