Cloud Run 中的浏览器和操作系统自动化

在 Cloud Run 容器中构建自动化工具或运行完整的桌面操作系统 (OS),使 AI 代理能够浏览网页并从中提取信息,并通过鼠标点击和键盘输入自动执行操作。

在 Cloud Run 上构建浏览器工具

如需在 Cloud Run 上构建浏览器工具,请使用以下方法之一:

如需让 AI 智能体浏览网页,请在 Cloud Run 容器中安装 Chromium,并授予该智能体访问 Chromium 所需的权限。Cloud Run 为将流式浏览器数据返回到代理或最终用户提供了内置的流式传输支持。

无头 Chrome

使用无头 Chrome 以编程方式自动执行常见的浏览器任务。您可以将无头 Chrome 用于以下使用情形:

  • 大规模网页抓取和数据提取
  • 表单提交
  • 界面测试
  • 创建网页的 PDF 或屏幕截图

使用以下库实现无头 Chrome:

  • 高级别 API 库,例如 PuppeteerPlaywright:使用这些库来控制浏览器,向浏览器提供访问网站的指令,提取内容,并将其传递给 AI 模型以进行总结或结构化数据提取。

  • Chrome DevTool 协议:提供 Chrome 开发者工具使用的稳定 API。此 API 以程序化方式公开所有浏览器功能。代理控制鼠标点击等操作,并以屏幕截图的形式检索文本或像素数据的结果。

具有虚拟网络计算 (VNC) 流式传输功能的桌面操作系统

在 Cloud Run 容器中实现完整的桌面操作系统,以处理复杂的流程,例如:

  • 自动上传或下载文件
  • 与浏览器扩展程序或其他桌面应用互动
  • 测试涉及拖放和其他复杂鼠标移动操作的复杂用户行为历程

借助此方法,您可以在 Cloud Run 上运行完整的桌面操作系统,并通过 WebSocket 将结果流式传输回来。

当您在此桌面设备上安装标准 Chromium 浏览器时,代理会像人一样与操作系统互动,然后检索桌面设备的像素配置。