Cloud Run 컨테이너에서 자동화 도구를 빌드하거나 전체 데스크톱 운영체제 (OS)를 실행하여 AI 에이전트가 웹을 탐색하고 정보를 추출하며 마우스 클릭과 키보드 입력을 통해 작업을 자동화할 수 있도록 합니다.
Cloud Run에서 브라우저 도구 빌드
Cloud Run에서 브라우저 도구를 빌드하려면 다음 방법 중 하나를 사용하세요.
- 효율적인 대규모 작업을 위한 헤드리스 브라우저
- 인간-컴퓨터 상호작용이 필요한 복잡한 시나리오를 위한 전체 데스크톱 OS
AI 에이전트가 웹을 탐색하도록 하려면 Cloud Run 컨테이너에 Chromium을 설치하고 에이전트가 Chromium에 액세스할 수 있도록 필요한 권한을 부여하세요. Cloud Run은 브라우저 데이터를 에이전트 또는 최종 사용자에게 다시 스트리밍하기 위한 내장 스트리밍 지원을 제공합니다.
헤드리스 Chrome
헤드리스 Chrome을 사용하여 일반적인 브라우저 작업을 프로그래매틱 방식으로 자동화하세요. 다음 사용 사례에 헤드리스 Chrome을 사용할 수 있습니다.
- 대규모 웹 스크래핑 및 데이터 추출
- 양식 제출
- UI 테스트
- 웹페이지의 PDF 또는 스크린샷 만들기
다음 라이브러리를 사용하여 헤드리스 Chrome을 구현합니다.
Puppeteer 또는 Playwright와 같은 고급 API 라이브러리: 이러한 라이브러리를 사용하여 브라우저를 제어하고, 웹사이트를 방문하고, 콘텐츠를 추출하고, 요약 또는 구조화된 데이터 추출을 위해 AI 모델에 전달하도록 브라우저에 지시합니다.
Chrome DevTool 프로토콜: Chrome DevTools에서 사용하는 안정적인 API를 제공합니다. 이 API는 모든 브라우저 기능을 프로그래매틱 방식으로 노출합니다. 에이전트는 마우스 클릭과 같은 작업을 제어하고 결과를 스크린샷 형태의 텍스트 또는 픽셀 데이터로 가져옵니다.
가상 네트워크 컴퓨팅 (VNC) 스트리밍이 포함된 데스크톱 OS
다음과 같은 복잡한 프로세스를 위해 Cloud Run 컨테이너에 전체 데스크톱 OS를 구현합니다.
- 파일 업로드 또는 다운로드 자동화
- 브라우저 확장 프로그램 또는 기타 데스크톱 애플리케이션과 상호작용
- 드래그 앤 드롭 및 기타 복잡한 마우스 움직임이 포함된 복잡한 사용자 여정 테스트
이 접근 방식을 사용하면 Cloud Run에서 전체 데스크톱 OS를 실행하고 Websocket을 통해 결과를 다시 스트리밍할 수 있습니다.
이 데스크톱에 표준 Chromium 브라우저를 설치하면 에이전트가 사람이 하는 것처럼 OS와 상호작용하고 데스크톱의 픽셀 구성을 가져옵니다.