URLScan IO 로그 수집

다음에서 지원:

Google secops SIEM

이 문서에서는 Google Cloud Storage를 사용하여 URLScan IO 로그를 Google Security Operations에 수집하는 방법을 설명합니다. URLScan IO는 웹사이트를 분석하고 웹사이트의 동작, 보안, 성능에 관한 자세한 정보를 제공하는 서비스입니다. URL을 검사하고 스크린샷, HTTP 트랜잭션, DNS 레코드, 위협 인텔리전스 데이터를 포함한 포괄적인 보고서를 생성합니다.

시작하기 전에

다음 기본 요건이 충족되었는지 확인합니다.

Google SecOps 인스턴스
Cloud Storage API가 사용 설정된 GCP 프로젝트
GCS 버킷을 만들고 관리할 수 있는 권한
GCS 버킷의 IAM 정책을 관리할 수 있는 권한
Cloud Run 서비스, Pub/Sub 주제, Cloud Scheduler 작업을 만들 수 있는 권한
URLScan IO 테넌트에 대한 액세스 권한

URLScan IO 기본 요건 가져오기

URLScan IO에 로그인합니다.
프로필 아이콘을 클릭합니다.
메뉴에서 API 키를 선택합니다.
아직 API 키가 없는 경우 다음 단계를 따르세요.
1. API 키 만들기 버튼을 클릭합니다.
2. API 키에 대한 설명을 입력합니다 (예: Google SecOps Integration).
3. API 키 생성을 클릭합니다.
다음 세부정보를 복사하여 안전한 위치에 저장합니다.
- API_KEY: 생성된 API 키 문자열 (형식: xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)
- API 기준 URL: https://urlscan.io/api/v1 (모든 사용자에게 동일)
API 할당량 한도를 확인합니다.
- 무료 계정과 Pro 계정에는 작업별로 다른 분당, 시간당, 일일 한도가 적용됩니다. 정확한 한도는 개인 할당량 또는 API 비율 제한 헤더를 확인하세요.
- 자세한 내용은 URLScan IO API 비율 제한 문서를 참고하세요.
조직의 스캔으로만 검색을 제한해야 하는 경우 다음을 기록해 두세요.
- 사용자 식별자: 사용자 이름 또는 이메일 (user: 검색 필터와 함께 사용)
- 팀 식별자: 팀 기능을 사용하는 경우 (team: 검색 필터와 함께 사용)
참고: user:, team:와 같은 검색 필터는 URLScan IO의 문서화된 검색 구문의 일부이며 로그인했거나 Pro 기능이 있어야 사용할 수 있습니다. 고급 쿼리 구성은 URLScan IO 검색 API 문서를 참고하세요.

API 액세스 확인

통합을 진행하기 전에 API 키를 테스트하세요.

# Replace with your actual API key
API_KEY="your-api-key-here"

# Test API access
curl -v -H "API-Key: ${API_KEY}" "https://urlscan.io/api/v1/search/?q=date:>now-1h&size=1"

예상 응답: 검색 결과가 포함된 JSON과 함께 HTTP 200

HTTP 401 또는 403이 수신되면 API 키가 올바르고 만료되지 않았는지 확인하세요.

Google Cloud Storage 버킷 만들기

Google Cloud Console로 이동합니다.
프로젝트를 선택하거나 새 프로젝트를 만듭니다.
탐색 메뉴에서 Cloud Storage> 버킷으로 이동합니다.
버킷 만들기를 클릭합니다.

다음 구성 세부정보를 제공합니다.

설정	값
버킷 이름 지정	전역적으로 고유한 이름 (예: `urlscan-logs-bucket`)을 입력합니다.
위치 유형	필요에 따라 선택 (리전, 이중 리전, 멀티 리전)
위치	위치를 선택합니다 (예: `us-central1`).
스토리지 클래스	Standard (자주 액세스하는 로그에 권장)
액세스 제어	균일 (권장)
보호 도구	선택사항: 객체 버전 관리 또는 보관 정책 사용 설정

만들기를 클릭합니다.

Cloud Run 함수의 서비스 계정 만들기

Cloud Run 함수에는 GCS 버킷에 쓸 수 있고 Pub/Sub에서 호출할 수 있는 권한이 있는 서비스 계정이 필요합니다.

서비스 계정 만들기

GCP 콘솔에서 IAM 및 관리자 > 서비스 계정으로 이동합니다.
서비스 계정 만들기를 클릭합니다.
다음 구성 세부정보를 제공합니다.
- 서비스 계정 이름: urlscan-collector-sa을 입력합니다.
- 서비스 계정 설명: Service account for Cloud Run function to collect URLScan IO logs을 입력합니다.
만들고 계속하기를 클릭합니다.
이 서비스 계정에 프로젝트에 대한 액세스 권한 부여 섹션에서 다음 역할을 추가합니다.
1. 역할 선택을 클릭합니다.
2. 스토리지 객체 관리자를 검색하여 선택합니다.
3. + 다른 역할 추가를 클릭합니다.
4. Cloud Run 호출자를 검색하여 선택합니다.
5. + 다른 역할 추가를 클릭합니다.
6. Cloud Functions 호출자를 검색하여 선택합니다.
계속을 클릭합니다.
완료를 클릭합니다.

이러한 역할은 다음 작업에 필요합니다.

스토리지 객체 관리자: GCS 버킷에 로그를 쓰고 상태 파일을 관리합니다.
Cloud Run 호출자: Pub/Sub가 함수를 호출하도록 허용
Cloud Functions 호출자: 함수 호출 허용

GCS 버킷에 대한 IAM 권한 부여

GCS 버킷에 대한 쓰기 권한을 서비스 계정에 부여합니다.

Cloud Storage> 버킷으로 이동합니다.
버킷 이름을 클릭합니다.
권한 탭으로 이동합니다.
액세스 권한 부여를 클릭합니다.
다음 구성 세부정보를 제공합니다.
- 주 구성원 추가: 서비스 계정 이메일 (예: urlscan-collector-sa@PROJECT_ID.iam.gserviceaccount.com)을 입력합니다.
- 역할 할당: 스토리지 객체 관리자를 선택합니다.
저장을 클릭합니다.

게시/구독 주제 만들기

Cloud Scheduler가 게시하고 Cloud Run 함수가 구독할 Pub/Sub 주제를 만듭니다.

GCP Console에서 Pub/Sub > 주제로 이동합니다.
주제 만들기를 클릭합니다.
다음 구성 세부정보를 제공합니다.
- 주제 ID: urlscan-logs-trigger를 입력합니다.
- 다른 설정은 기본값으로 둡니다.
만들기를 클릭합니다.

로그를 수집하는 Cloud Run 함수 만들기

Cloud Run 함수는 Cloud Scheduler의 Pub/Sub 메시지에 의해 트리거되어 URLScan IO API에서 로그를 가져오고 이를 GCS에 씁니다.

GCP 콘솔에서 Cloud Run으로 이동합니다.
서비스 만들기를 클릭합니다.
함수를 선택합니다 (인라인 편집기를 사용하여 함수 만들기).
구성 섹션에서 다음 구성 세부정보를 제공합니다.

설정 값

서비스 이름 urlscan-collector

리전 GCS 버킷과 일치하는 리전을 선택합니다 (예: us-central1).

런타임 Python 3.12 이상 선택
트리거 (선택사항) 섹션에서 다음을 수행합니다.
1. + 트리거 추가를 클릭합니다.
2. Cloud Pub/Sub를 선택합니다.
3. Cloud Pub/Sub 주제 선택에서 Pub/Sub 주제 (urlscan-logs-trigger)를 선택합니다.
4. 저장을 클릭합니다.
인증 섹션에서 다음을 구성합니다.
1. 인증 필요를 선택합니다.
2. ID 및 액세스 관리 (IAM)를 확인합니다.
참고: 함수를 호출할 때 Pub/Sub에서 자동으로 인증을 처리합니다.
아래로 스크롤하고 컨테이너, 네트워킹, 보안을 펼칩니다.
보안 탭으로 이동합니다.
- 서비스 계정: 서비스 계정 (urlscan-collector-sa)을 선택합니다.

설정	값
서비스 이름	`urlscan-collector`
리전	GCS 버킷과 일치하는 리전을 선택합니다 (예: `us-central1`).
런타임	Python 3.12 이상 선택

컨테이너 탭으로 이동합니다.

변수 및 보안 비밀을 클릭합니다.
각 환경 변수에 대해 + 변수 추가를 클릭합니다.

변수 이름	예시 값	설명
`GCS_BUCKET`	`urlscan-logs-bucket`	GCS 버킷 이름
`GCS_PREFIX`	`urlscan/`	로그 파일의 접두사
`STATE_KEY`	`urlscan/state.json`	상태 파일 경로
`API_KEY`	`your-urlscan-api-key`	URLScan IO API 키
`API_BASE`	`https://urlscan.io/api/v1`	API 기본 URL
`SEARCH_QUERY`	`date:>now-1h`	검색어 필터
`PAGE_SIZE`	`100`	페이지당 레코드 수
`MAX_PAGES`	`10`	가져올 최대 페이지 수

변수 및 보안 비밀 섹션에서 요청까지 아래로 스크롤합니다.
- 요청 제한 시간: 600초 (10분)를 입력합니다.
설정 탭으로 이동합니다.
- 리소스 섹션에서 다음을 수행합니다.
  - 메모리: 512MiB 이상을 선택합니다.
  - CPU: 1을 선택합니다.
버전 확장 섹션에서 다음을 수행합니다.
- 최소 인스턴스 수: 0를 입력합니다.
- 최대 인스턴스 수: 100을 입력합니다 (또는 예상 부하에 따라 조정).
만들기를 클릭합니다.
서비스가 생성될 때까지 기다립니다 (1~2분).
서비스가 생성되면 인라인 코드 편집기가 자동으로 열립니다.

함수 코드 추가

함수 진입점에 main을 입력합니다.

인라인 코드 편집기에서 다음 두 파일을 만듭니다.

첫 번째 파일: main.py:

import functions_framework
from google.cloud import storage
import json
import os
import urllib3
from datetime import datetime, timedelta, timezone
import time

# Initialize HTTP client with timeouts
http = urllib3.PoolManager(
    timeout=urllib3.Timeout(connect=5.0, read=30.0),
    retries=False,
)

# Initialize Storage client
storage_client = storage.Client()

# Environment variables
GCS_BUCKET = os.environ.get('GCS_BUCKET')
GCS_PREFIX = os.environ.get('GCS_PREFIX', 'urlscan/')
STATE_KEY = os.environ.get('STATE_KEY', 'urlscan/state.json')
API_KEY = os.environ.get('API_KEY')
API_BASE = os.environ.get('API_BASE', 'https://urlscan.io/api/v1')
SEARCH_QUERY = os.environ.get('SEARCH_QUERY', 'date:>now-1h')
PAGE_SIZE = int(os.environ.get('PAGE_SIZE', '100'))
MAX_PAGES = int(os.environ.get('MAX_PAGES', '10'))

def parse_datetime(value: str) -> datetime:
    """Parse ISO datetime string to datetime object."""
    if value.endswith("Z"):
        value = value[:-1] + "+00:00"
    return datetime.fromisoformat(value)

@functions_framework.cloud_event
def main(cloud_event):
    """
    Cloud Run function triggered by Pub/Sub to fetch URLScan IO results and write to GCS.

    Args:
        cloud_event: CloudEvent object containing Pub/Sub message
    """

    if not all([GCS_BUCKET, API_KEY]):
        print('Error: Missing required environment variables')
        return

    try:
        # Get GCS bucket
        bucket = storage_client.bucket(GCS_BUCKET)

        # Load state
        state = load_state(bucket, STATE_KEY)
        last_run = state.get('last_run')

        # Adjust search query based on last run
        search_query = SEARCH_QUERY
        if last_run:
            try:
                search_time = parse_datetime(last_run)
                time_diff = datetime.now(timezone.utc) - search_time
                hours = int(time_diff.total_seconds() / 3600) + 1
                search_query = f'date:>now-{hours}h'
            except Exception as e:
                print(f'Warning: Could not parse last_run: {e}')

        print(f'Searching with query: {search_query}')

        # Fetch logs
        records, newest_event_time = fetch_logs(
            api_base=API_BASE,
            api_key=API_KEY,
            search_query=search_query,
            page_size=PAGE_SIZE,
            max_pages=MAX_PAGES,
        )

        if not records:
            print("No new log records found.")
            now = datetime.now(timezone.utc)
            save_state(bucket, STATE_KEY, now.isoformat())
            return

        # Write to GCS as NDJSON
        now = datetime.now(timezone.utc)
        file_key = f"{GCS_PREFIX}year={now.year}/month={now.month:02d}/day={now.day:02d}/hour={now.hour:02d}/urlscan_{now.strftime('%Y%m%d_%H%M%S')}.json"

        ndjson_content = '\n'.join([json.dumps(r, separators=(',', ':')) for r in records])

        blob = bucket.blob(file_key)
        blob.upload_from_string(
            ndjson_content,
            content_type='application/x-ndjson'
        )

        print(f"Uploaded {len(records)} results to gs://{GCS_BUCKET}/{file_key}")

        # Update state with newest event time
        if newest_event_time:
            save_state(bucket, STATE_KEY, newest_event_time)
        else:
            save_state(bucket, STATE_KEY, now.isoformat())

        print(f'Successfully processed {len(records)} scan results')

    except Exception as e:
        print(f'Error processing logs: {str(e)}')
        raise

def load_state(bucket, key):
    """Load state from GCS."""
    try:
        blob = bucket.blob(key)
        if blob.exists():
            state_data = blob.download_as_text()
            return json.loads(state_data)
    except Exception as e:
        print(f'Warning: Could not load state: {str(e)}')
    return {}

def save_state(bucket, key, last_event_time_iso: str):
    """Save the last event timestamp to GCS state file."""
    try:
        state = {'last_run': last_event_time_iso}
        blob = bucket.blob(key)
        blob.upload_from_string(
            json.dumps(state, indent=2),
            content_type='application/json'
        )
        print(f"Saved state: last_run={last_event_time_iso}")
    except Exception as e:
        print(f'Warning: Could not save state: {str(e)}')

def fetch_logs(api_base: str, api_key: str, search_query: str, page_size: int, max_pages: int):
    """
    Fetch logs from URLScan IO API with pagination and rate limiting.

    Args:
        api_base: API base URL
        api_key: URLScan IO API key
        search_query: Search query string
        page_size: Number of records per page
        max_pages: Maximum total pages to fetch

    Returns:
        Tuple of (records list, newest_event_time ISO string)
    """

    headers = {
        'API-Key': api_key,
        'Accept': 'application/json',
        'User-Agent': 'GoogleSecOps-URLScanCollector/1.0'
    }

    all_results = []
    newest_time = None
    page_num = 0
    backoff = 1.0
    offset = 0

    while page_num < max_pages:
        page_num += 1

        # Build search URL with pagination
        search_url = f"{api_base}/search/"
        params = [
            f"q={search_query}",
            f"size={page_size}",
            f"offset={offset}"
        ]
        url = f"{search_url}?{'&'.join(params)}"

        try:
            response = http.request('GET', url, headers=headers)

            # Handle rate limiting with exponential backoff
            if response.status == 429:
                retry_after = int(response.headers.get('Retry-After', str(int(backoff))))
                print(f"Rate limited (429). Retrying after {retry_after}s...")
                time.sleep(retry_after)
                backoff = min(backoff * 2, 30.0)
                continue

            backoff = 1.0

            if response.status != 200:
                print(f"Search failed: {response.status}")
                response_text = response.data.decode('utf-8')
                print(f"Response body: {response_text}")
                break

            search_data = json.loads(response.data.decode('utf-8'))
            results = search_data.get('results', [])

            if not results:
                print(f"No more results (empty page)")
                break

            print(f"Page {page_num}: Retrieved {len(results)} scan results")

            # Fetch full result for each scan
            for result in results:
                task = result.get('task', {})
                uuid = task.get('uuid')
                if uuid:
                    result_url = f"{api_base}/result/{uuid}/"

                    try:
                        result_response = http.request('GET', result_url, headers=headers)

                        # Handle rate limiting
                        if result_response.status == 429:
                            retry_after = int(result_response.headers.get('Retry-After', '5'))
                            print(f"Rate limited on result fetch. Retrying after {retry_after}s...")
                            time.sleep(retry_after)
                            result_response = http.request('GET', result_url, headers=headers)

                        if result_response.status == 200:
                            full_result = json.loads(result_response.data.decode('utf-8'))
                            all_results.append(full_result)

                            # Track newest event time
                            try:
                                event_time = task.get('time')
                                if event_time:
                                    if newest_time is None or parse_datetime(event_time) > parse_datetime(newest_time):
                                        newest_time = event_time
                            except Exception as e:
                                print(f"Warning: Could not parse event time: {e}")
                        else:
                            print(f"Failed to fetch result for {uuid}: {result_response.status}")
                    except Exception as e:
                        print(f"Error fetching result for {uuid}: {e}")

            # Check if we have more pages
            total = search_data.get('total', 0)
            if offset + len(results) >= total or len(results) < page_size:
                print(f"Reached last page (offset={offset}, results={len(results)}, total={total})")
                break

            offset += len(results)

        except Exception as e:
            print(f"Error fetching logs: {e}")
            return [], None

    print(f"Retrieved {len(all_results)} total records from {page_num} pages")
    return all_results, newest_time

두 번째 파일: requirements.txt:

functions-framework==3.*
google-cloud-storage==2.*
urllib3>=2.0.0

배포를 클릭하여 함수를 저장하고 배포합니다.
배포가 완료될 때까지 기다립니다 (2~3분).

참고: Pub/Sub 트리거 구성은 필요한 구독과 권한을 자동으로 만듭니다.

Cloud Scheduler 작업 만들기

Cloud Scheduler는 일정 간격으로 Pub/Sub 주제에 메시지를 게시하여 Cloud Run 함수를 트리거합니다.

GCP Console에서 Cloud Scheduler로 이동합니다.
작업 만들기를 클릭합니다.

다음 구성 세부정보를 제공합니다.

설정	값
이름	`urlscan-collector-hourly`
리전	Cloud Run 함수와 동일한 리전 선택
주파수	`0 * * * *` (매시간 정각)
시간대	시간대 선택 (UTC 권장)
타겟 유형	Pub/Sub
주제	Pub/Sub 주제 (`urlscan-logs-trigger`)를 선택합니다.
메일 본문	`{}` (빈 JSON 객체)

만들기를 클릭합니다.

일정 빈도 옵션

로그 볼륨 및 지연 시간 요구사항에 따라 빈도를 선택합니다.

빈도	크론 표현식	사용 사례
5분마다	`/5 * * *`	대용량, 저지연
15분마다	`/15 * * *`	검색량 보통
1시간마다	`0 * * * *`	일반(권장)
6시간마다	`0 /6 * *`	양이 적은 일괄 처리
매일	`0 0 * * *`	이전 데이터 수집

통합 테스트

Cloud Scheduler 콘솔에서 작업을 찾습니다 (urlscan-collector-hourly).
강제 실행을 클릭하여 작업을 수동으로 트리거합니다.
몇 초 동안 기다립니다.
Cloud Run > 서비스로 이동합니다.
함수 이름 (urlscan-collector)을 클릭합니다.
로그 탭을 클릭합니다.

함수가 성공적으로 실행되었는지 확인합니다. 다음을 확인하세요.

Searching with query: date:>now-1h
Page 1: Retrieved X scan results
Uploaded X results to gs://bucket-name/urlscan/year=YYYY/month=MM/day=DD/hour=HH/urlscan_YYYYMMDD_HHMMSS.json
Successfully processed X scan results

Cloud Storage> 버킷으로 이동합니다.
버킷 이름을 클릭합니다.
접두사 폴더 (urlscan/)로 이동합니다.
현재 타임스탬프를 사용하여 새 .json 파일이 생성되었는지 확인합니다.

로그에 오류가 표시되면 다음 단계를 따르세요.

HTTP 401: 환경 변수에서 API 키 확인
HTTP 403: API 키가 만료되지 않았는지 확인
HTTP 429: 비율 제한 - 함수가 백오프를 사용하여 자동으로 재시도됩니다.
환경 변수 누락: 필수 변수가 모두 설정되었는지 확인
검색 실패: 검색어 구문이 올바른지 확인

Google SecOps 서비스 계정 가져오기

Google SecOps는 고유한 서비스 계정을 사용하여 GCS 버킷에서 데이터를 읽습니다. 이 서비스 계정에 버킷에 대한 액세스 권한을 부여해야 합니다.

서비스 계정 이메일 가져오기

SIEM 설정> 피드로 이동합니다.
새 피드 추가를 클릭합니다.
단일 피드 구성을 클릭합니다.
피드 이름 필드에 피드 이름을 입력합니다(예: URLScan IO logs).
소스 유형으로 Google Cloud Storage V2를 선택합니다.
로그 유형으로 URLScan IO를 선택합니다.
서비스 계정 가져오기를 클릭합니다. 고유한 서비스 계정 이메일이 표시됩니다. 예를 들면 다음과 같습니다.
```
chronicle-12345678@chronicle-gcp-prod.iam.gserviceaccount.com
```
다음 단계에서 사용할 수 있도록 이 이메일 주소를 복사합니다.

참고: 각 Google SecOps 인스턴스에는 고유한 서비스 계정이 있습니다. 다른 문서나 예시의 서비스 계정을 사용하지 마세요.

Google SecOps 서비스 계정에 IAM 권한 부여

Google SecOps 서비스 계정에는 GCS 버킷에 대한 스토리지 객체 뷰어 역할이 필요합니다.

Cloud Storage> 버킷으로 이동합니다.
버킷 이름을 클릭합니다.
권한 탭으로 이동합니다.
액세스 권한 부여를 클릭합니다.
다음 구성 세부정보를 제공합니다.
- 주 구성원 추가: Google SecOps 서비스 계정 이메일을 붙여넣습니다.
- 역할 할당: 스토리지 객체 뷰어를 선택합니다.
저장을 클릭합니다.

참고: '전송된 파일 삭제' 또는 '전송된 파일 및 빈 디렉터리 삭제' 삭제 옵션을 사용하려면 스토리지 객체 뷰어 대신 스토리지 객체 관리자 역할을 부여하세요.

URLScan IO 로그를 수집하도록 Google SecOps에서 피드 구성

SIEM 설정> 피드로 이동합니다.
새 피드 추가를 클릭합니다.
단일 피드 구성을 클릭합니다.
피드 이름 필드에 피드 이름을 입력합니다(예: URLScan IO logs).
소스 유형으로 Google Cloud Storage V2를 선택합니다.
로그 유형으로 URLScan IO를 선택합니다.
다음을 클릭합니다.
다음 입력 매개변수의 값을 지정합니다.
- 스토리지 버킷 URL: 다음 접두사 경로를 사용하여 GCS 버킷 URI를 입력합니다.
```
gs://urlscan-logs-bucket/urlscan/
```
  - 다음과 같이 바꿉니다.
    - urlscan-logs-bucket: GCS 버킷 이름입니다.
    - urlscan/: 로그가 저장되는 선택적 접두사/폴더 경로입니다 (루트의 경우 비워 둠).
      
      예:
      - 루트 버킷: gs://urlscan-logs-bucket/
      - 접두사 사용: gs://urlscan-logs-bucket/urlscan/
  참고: 항상 URI 끝에 후행 슬래시 (/)를 포함하세요.
- 소스 삭제 옵션: 환경설정에 따라 삭제 옵션을 선택합니다.
  - 삭제 안함: 전송 후 파일을 삭제하지 않습니다 (테스트에 권장).
  - 전송된 파일 삭제: 전송이 완료되면 파일을 삭제합니다.
  - 전송된 파일 및 빈 디렉터리 삭제: 전송이 완료되면 파일과 빈 디렉터리를 삭제합니다.
    
    참고: 삭제 옵션을 선택하는 경우 서비스 계정에는 스토리지 객체 뷰어 대신 스토리지 객체 관리자 역할이 있어야 합니다. 이에 따라 IAM 권한을 업데이트합니다.
- 최대 파일 기간: 지난 일수 동안 수정된 파일을 포함합니다. 기본값은 180일입니다.
- 애셋 네임스페이스: 애셋 네임스페이스입니다.
- 수집 라벨: 이 피드의 이벤트에 적용할 라벨입니다.
다음을 클릭합니다.
확정 화면에서 새 피드 구성을 검토한 다음 제출을 클릭합니다.

도움이 더 필요한가요? 커뮤니티 회원 및 Google SecOps 전문가에게 문의하여 답변을 받으세요.