在 Cloud Run 容器中建構自動化工具或執行完整的桌面作業系統 (OS),讓 AI 代理程式瀏覽網路並擷取資訊,以及透過滑鼠點擊和鍵盤輸入自動執行動作。
在 Cloud Run 上建構瀏覽器工具
如要在 Cloud Run 上建構瀏覽器工具,請使用下列其中一種方法:
如要讓 AI 代理瀏覽網頁,請在 Cloud Run 容器中安裝 Chromium,並授予代理存取 Chromium 的必要權限。Cloud Run 提供內建串流支援,可將串流瀏覽器資料傳回給代理程式或使用者。
無頭 Chrome
使用無頭 Chrome 以程式輔助方式自動執行常見的瀏覽器工作。您可以在下列用途中使用無頭 Chrome:
- 大規模網頁資料擷取
- 表單提交
- UI 測試
- 建立網頁的 PDF 或螢幕截圖
使用下列程式庫實作無頭 Chrome:
Puppeteer 或 Playwright 等高階 API 程式庫:使用這些程式庫控制瀏覽器,向瀏覽器提供造訪網站的指令、擷取內容,並將內容傳遞至 AI 模型,以進行摘要或擷取結構化資料。
Chrome 開發人員工具通訊協定:提供 Chrome 開發人員工具使用的穩定版 API。這個 API 會以程式輔助方式公開所有瀏覽器功能。代理程式會控制滑鼠點擊等動作,並以螢幕截圖的形式,以文字或像素資料擷取結果。
透過虛擬網路運算 (VNC) 串流技術傳輸的桌面作業系統
在 Cloud Run 容器中實作完整的桌面作業系統,以執行複雜程序,例如:
- 自動上傳或下載檔案
- 與瀏覽器擴充功能或其他電腦應用程式互動
- 測試涉及拖曳和其他複雜滑鼠動作的複雜使用者歷程
這種方法可讓您在 Cloud Run 上執行完整的桌面作業系統,並透過 Websocket 回傳結果。
在桌上型電腦上安裝標準 Chromium 瀏覽器時,代理程式會像人類一樣與作業系統互動,然後擷取桌上型電腦的像素設定。