Mengumpulkan log URLScan IO

Didukung di:

Google SecOps SIEM

Dokumen ini menjelaskan cara menyerap log URLScan IO ke Google Security Operations menggunakan Google Cloud Storage. URLScan IO adalah layanan yang menganalisis situs dan memberikan informasi mendetail tentang perilaku, keamanan, dan performanya. Alat ini memindai URL dan membuat laporan komprehensif yang mencakup screenshot, transaksi HTTP, data DNS, dan data intelijen ancaman.

Sebelum memulai

Pastikan Anda memiliki prasyarat berikut:

Instance Google SecOps
Project GCP dengan Cloud Storage API diaktifkan
Izin untuk membuat dan mengelola bucket GCS
Izin untuk mengelola kebijakan IAM di bucket GCS
Izin untuk membuat layanan Cloud Run, topik Pub/Sub, dan tugas Cloud Scheduler
Akses istimewa ke tenant URLScan IO

Mendapatkan prasyarat URLScan IO

Login ke URLScan IO.
Klik ikon profil Anda.
Pilih API Key dari menu.
Jika Anda belum memiliki kunci API:
1. Klik tombol Create API Key.
2. Masukkan deskripsi untuk kunci API (misalnya, Google SecOps Integration).
3. Klik Generate API Key.
Salin dan simpan detail berikut di lokasi yang aman:
- API_KEY: String kunci API yang dibuat (format: xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)
- URL Dasar API: https://urlscan.io/api/v1 (ini konstan untuk semua pengguna)
Catat batas kuota API Anda:
- Akun Gratis dan Pro tunduk pada batas per menit, per jam, dan per hari yang bervariasi per tindakan. Periksa kuota pribadi atau header batas kapasitas API untuk mengetahui batas persis Anda.
- Untuk mengetahui detailnya, lihat dokumentasi Batas Kecepatan API URLScan IO.
Jika Anda perlu membatasi penelusuran hanya ke pemindaian organisasi Anda, catat:
- ID pengguna: Nama pengguna atau email Anda (untuk digunakan dengan filter penelusuran user:)
- ID tim: Jika menggunakan fitur tim (untuk digunakan dengan filter penelusuran team:)
Catatan: Filter penelusuran seperti user: dan team: adalah bagian dari sintaksis penelusuran yang didokumentasikan URLScan IO dan mungkin bergantung pada login atau memiliki fitur Pro. Lihat dokumentasi URLScan IO Search API untuk mengetahui pembuatan kueri lanjutan.

Memverifikasi akses API

Uji kunci API Anda sebelum melanjutkan integrasi:

# Replace with your actual API key
API_KEY="your-api-key-here"

# Test API access
curl -v -H "API-Key: ${API_KEY}" "https://urlscan.io/api/v1/search/?q=date:>now-1h&size=1"

Respons yang diharapkan: HTTP 200 dengan JSON yang berisi hasil penelusuran.

Jika Anda menerima HTTP 401 atau 403, pastikan kunci API Anda sudah benar dan belum habis masa berlakunya.

Membuat bucket Google Cloud Storage

Buka Google Cloud Console.
Pilih project Anda atau buat project baru.
Di menu navigasi, buka Cloud Storage > Buckets.
Klik Create bucket.

Berikan detail konfigurasi berikut:

Setelan	Nilai
Beri nama bucket Anda	Masukkan nama yang unik secara global (misalnya, `urlscan-logs-bucket`)
Location type	Pilih berdasarkan kebutuhan Anda (Region, Dual-region, Multi-region)
Lokasi	Pilih lokasi (misalnya, `us-central1`)
Kelas penyimpanan	Standar (direkomendasikan untuk log yang sering diakses)
Access control	Seragam (direkomendasikan)
Alat perlindungan	Opsional: Aktifkan pembuatan versi objek atau kebijakan retensi

Klik Buat.

Buat akun layanan untuk Cloud Run Function

Fungsi Cloud Run memerlukan akun layanan dengan izin untuk menulis ke bucket GCS dan dipanggil oleh Pub/Sub.

Membuat akun layanan

Di GCP Console, buka IAM & Admin > Service Accounts.
Klik Create Service Account.
Berikan detail konfigurasi berikut:
- Nama akun layanan: Masukkan urlscan-collector-sa.
- Deskripsi akun layanan: Masukkan Service account for Cloud Run function to collect URLScan IO logs.
Klik Create and Continue.
Di bagian Berikan akun layanan ini akses ke project, tambahkan peran berikut:
1. Klik Pilih peran.
2. Telusuri dan pilih Storage Object Admin.
3. Klik + Add another role.
4. Telusuri dan pilih Cloud Run Invoker.
5. Klik + Add another role.
6. Telusuri dan pilih Cloud Functions Invoker.
Klik Lanjutkan.
Klik Selesai.

Peran ini diperlukan untuk:

Storage Object Admin: Menulis log ke bucket GCS dan mengelola file status
Cloud Run Invoker: Mengizinkan Pub/Sub memanggil fungsi
Cloud Functions Invoker: Mengizinkan pemanggilan fungsi

Memberikan izin IAM pada bucket GCS

Beri akun layanan izin tulis di bucket GCS:

Buka Cloud Storage > Buckets.
Klik nama bucket Anda.
Buka tab Izin.
Klik Grant access.
Berikan detail konfigurasi berikut:
- Tambahkan prinsipal: Masukkan email akun layanan (misalnya, urlscan-collector-sa@PROJECT_ID.iam.gserviceaccount.com).
- Tetapkan peran: Pilih Storage Object Admin.
Klik Simpan.

Membuat topik Pub/Sub

Buat topik Pub/Sub yang akan dipublikasikan oleh Cloud Scheduler dan akan dilanggan oleh fungsi Cloud Run.

Di GCP Console, buka Pub/Sub > Topics.
Klik Create topic.
Berikan detail konfigurasi berikut:
- ID Topik: Masukkan urlscan-logs-trigger.
- Biarkan setelan lainnya tetap default.
Klik Buat.

Membuat fungsi Cloud Run untuk mengumpulkan log

Fungsi Cloud Run dipicu oleh pesan Pub/Sub dari Cloud Scheduler untuk mengambil log dari URLScan IO API dan menuliskannya ke GCS.

Di GCP Console, buka Cloud Run.
Klik Create service.
Pilih Function (gunakan editor inline untuk membuat fungsi).
Di bagian Konfigurasi, berikan detail konfigurasi berikut:

Setelan Nilai

Nama layanan urlscan-collector

Wilayah Pilih region yang cocok dengan bucket GCS Anda (misalnya, us-central1)

Runtime Pilih Python 3.12 atau yang lebih baru
Di bagian Pemicu (opsional):
1. Klik + Tambahkan pemicu.
2. Pilih Cloud Pub/Sub.
3. Di Select a Cloud Pub/Sub topic, pilih topik Pub/Sub (urlscan-logs-trigger).
4. Klik Simpan.
Di bagian Authentication:
1. Pilih Wajibkan autentikasi.
2. Periksa Identity and Access Management (IAM).
Catatan: Pub/Sub secara otomatis menangani autentikasi saat memanggil fungsi.
Scroll ke bawah dan luaskan Containers, Networking, Security.
Buka tab Security:
- Akun layanan: Pilih akun layanan (urlscan-collector-sa).

Setelan	Nilai
Nama layanan	`urlscan-collector`
Wilayah	Pilih region yang cocok dengan bucket GCS Anda (misalnya, `us-central1`)
Runtime	Pilih Python 3.12 atau yang lebih baru

Buka tab Containers:

Klik Variables & Secrets.
Klik + Tambahkan variabel untuk setiap variabel lingkungan:

Nama Variabel	Nilai Contoh	Deskripsi
`GCS_BUCKET`	`urlscan-logs-bucket`	Nama bucket GCS
`GCS_PREFIX`	`urlscan/`	Awalan untuk file log
`STATE_KEY`	`urlscan/state.json`	Jalur file status
`API_KEY`	`your-urlscan-api-key`	Kunci API URLScan IO
`API_BASE`	`https://urlscan.io/api/v1`	URL dasar API
`SEARCH_QUERY`	`date:>now-1h`	Filter kueri penelusuran
`PAGE_SIZE`	`100`	Data per halaman
`MAX_PAGES`	`10`	Jumlah maksimum halaman yang akan diambil

Di bagian Variables & Secrets, scroll ke bawah ke Requests:
- Waktu tunggu permintaan: Masukkan 600 detik (10 menit).
Buka tab Setelan:
- Di bagian Materi:
  - Memori: Pilih 512 MiB atau yang lebih tinggi.
  - CPU: Pilih 1.
Di bagian Penskalaan revisi:
- Jumlah minimum instance: Masukkan 0.
- Jumlah maksimum instance: Masukkan 100 (atau sesuaikan berdasarkan perkiraan beban).
Klik Buat.
Tunggu hingga layanan dibuat (1-2 menit).
Setelah layanan dibuat, editor kode inline akan terbuka secara otomatis.

Menambahkan kode fungsi

Masukkan main di Function entry point

Di editor kode inline, buat dua file:

File pertama: main.py:

import functions_framework
from google.cloud import storage
import json
import os
import urllib3
from datetime import datetime, timedelta, timezone
import time

# Initialize HTTP client with timeouts
http = urllib3.PoolManager(
    timeout=urllib3.Timeout(connect=5.0, read=30.0),
    retries=False,
)

# Initialize Storage client
storage_client = storage.Client()

# Environment variables
GCS_BUCKET = os.environ.get('GCS_BUCKET')
GCS_PREFIX = os.environ.get('GCS_PREFIX', 'urlscan/')
STATE_KEY = os.environ.get('STATE_KEY', 'urlscan/state.json')
API_KEY = os.environ.get('API_KEY')
API_BASE = os.environ.get('API_BASE', 'https://urlscan.io/api/v1')
SEARCH_QUERY = os.environ.get('SEARCH_QUERY', 'date:>now-1h')
PAGE_SIZE = int(os.environ.get('PAGE_SIZE', '100'))
MAX_PAGES = int(os.environ.get('MAX_PAGES', '10'))

def parse_datetime(value: str) -> datetime:
    """Parse ISO datetime string to datetime object."""
    if value.endswith("Z"):
        value = value[:-1] + "+00:00"
    return datetime.fromisoformat(value)

@functions_framework.cloud_event
def main(cloud_event):
    """
    Cloud Run function triggered by Pub/Sub to fetch URLScan IO results and write to GCS.

    Args:
        cloud_event: CloudEvent object containing Pub/Sub message
    """

    if not all([GCS_BUCKET, API_KEY]):
        print('Error: Missing required environment variables')
        return

    try:
        # Get GCS bucket
        bucket = storage_client.bucket(GCS_BUCKET)

        # Load state
        state = load_state(bucket, STATE_KEY)
        last_run = state.get('last_run')

        # Adjust search query based on last run
        search_query = SEARCH_QUERY
        if last_run:
            try:
                search_time = parse_datetime(last_run)
                time_diff = datetime.now(timezone.utc) - search_time
                hours = int(time_diff.total_seconds() / 3600) + 1
                search_query = f'date:>now-{hours}h'
            except Exception as e:
                print(f'Warning: Could not parse last_run: {e}')

        print(f'Searching with query: {search_query}')

        # Fetch logs
        records, newest_event_time = fetch_logs(
            api_base=API_BASE,
            api_key=API_KEY,
            search_query=search_query,
            page_size=PAGE_SIZE,
            max_pages=MAX_PAGES,
        )

        if not records:
            print("No new log records found.")
            now = datetime.now(timezone.utc)
            save_state(bucket, STATE_KEY, now.isoformat())
            return

        # Write to GCS as NDJSON
        now = datetime.now(timezone.utc)
        file_key = f"{GCS_PREFIX}year={now.year}/month={now.month:02d}/day={now.day:02d}/hour={now.hour:02d}/urlscan_{now.strftime('%Y%m%d_%H%M%S')}.json"

        ndjson_content = '\n'.join([json.dumps(r, separators=(',', ':')) for r in records])

        blob = bucket.blob(file_key)
        blob.upload_from_string(
            ndjson_content,
            content_type='application/x-ndjson'
        )

        print(f"Uploaded {len(records)} results to gs://{GCS_BUCKET}/{file_key}")

        # Update state with newest event time
        if newest_event_time:
            save_state(bucket, STATE_KEY, newest_event_time)
        else:
            save_state(bucket, STATE_KEY, now.isoformat())

        print(f'Successfully processed {len(records)} scan results')

    except Exception as e:
        print(f'Error processing logs: {str(e)}')
        raise

def load_state(bucket, key):
    """Load state from GCS."""
    try:
        blob = bucket.blob(key)
        if blob.exists():
            state_data = blob.download_as_text()
            return json.loads(state_data)
    except Exception as e:
        print(f'Warning: Could not load state: {str(e)}')
    return {}

def save_state(bucket, key, last_event_time_iso: str):
    """Save the last event timestamp to GCS state file."""
    try:
        state = {'last_run': last_event_time_iso}
        blob = bucket.blob(key)
        blob.upload_from_string(
            json.dumps(state, indent=2),
            content_type='application/json'
        )
        print(f"Saved state: last_run={last_event_time_iso}")
    except Exception as e:
        print(f'Warning: Could not save state: {str(e)}')

def fetch_logs(api_base: str, api_key: str, search_query: str, page_size: int, max_pages: int):
    """
    Fetch logs from URLScan IO API with pagination and rate limiting.

    Args:
        api_base: API base URL
        api_key: URLScan IO API key
        search_query: Search query string
        page_size: Number of records per page
        max_pages: Maximum total pages to fetch

    Returns:
        Tuple of (records list, newest_event_time ISO string)
    """

    headers = {
        'API-Key': api_key,
        'Accept': 'application/json',
        'User-Agent': 'GoogleSecOps-URLScanCollector/1.0'
    }

    all_results = []
    newest_time = None
    page_num = 0
    backoff = 1.0
    offset = 0

    while page_num < max_pages:
        page_num += 1

        # Build search URL with pagination
        search_url = f"{api_base}/search/"
        params = [
            f"q={search_query}",
            f"size={page_size}",
            f"offset={offset}"
        ]
        url = f"{search_url}?{'&'.join(params)}"

        try:
            response = http.request('GET', url, headers=headers)

            # Handle rate limiting with exponential backoff
            if response.status == 429:
                retry_after = int(response.headers.get('Retry-After', str(int(backoff))))
                print(f"Rate limited (429). Retrying after {retry_after}s...")
                time.sleep(retry_after)
                backoff = min(backoff * 2, 30.0)
                continue

            backoff = 1.0

            if response.status != 200:
                print(f"Search failed: {response.status}")
                response_text = response.data.decode('utf-8')
                print(f"Response body: {response_text}")
                break

            search_data = json.loads(response.data.decode('utf-8'))
            results = search_data.get('results', [])

            if not results:
                print(f"No more results (empty page)")
                break

            print(f"Page {page_num}: Retrieved {len(results)} scan results")

            # Fetch full result for each scan
            for result in results:
                task = result.get('task', {})
                uuid = task.get('uuid')
                if uuid:
                    result_url = f"{api_base}/result/{uuid}/"

                    try:
                        result_response = http.request('GET', result_url, headers=headers)

                        # Handle rate limiting
                        if result_response.status == 429:
                            retry_after = int(result_response.headers.get('Retry-After', '5'))
                            print(f"Rate limited on result fetch. Retrying after {retry_after}s...")
                            time.sleep(retry_after)
                            result_response = http.request('GET', result_url, headers=headers)

                        if result_response.status == 200:
                            full_result = json.loads(result_response.data.decode('utf-8'))
                            all_results.append(full_result)

                            # Track newest event time
                            try:
                                event_time = task.get('time')
                                if event_time:
                                    if newest_time is None or parse_datetime(event_time) > parse_datetime(newest_time):
                                        newest_time = event_time
                            except Exception as e:
                                print(f"Warning: Could not parse event time: {e}")
                        else:
                            print(f"Failed to fetch result for {uuid}: {result_response.status}")
                    except Exception as e:
                        print(f"Error fetching result for {uuid}: {e}")

            # Check if we have more pages
            total = search_data.get('total', 0)
            if offset + len(results) >= total or len(results) < page_size:
                print(f"Reached last page (offset={offset}, results={len(results)}, total={total})")
                break

            offset += len(results)

        except Exception as e:
            print(f"Error fetching logs: {e}")
            return [], None

    print(f"Retrieved {len(all_results)} total records from {page_num} pages")
    return all_results, newest_time

File kedua: requirements.txt:

functions-framework==3.*
google-cloud-storage==2.*
urllib3>=2.0.0

Klik Deploy untuk menyimpan dan men-deploy fungsi.
Tunggu hingga deployment selesai (2-3 menit).

Catatan: Konfigurasi pemicu Pub/Sub akan otomatis membuat langganan dan izin yang diperlukan.

Buat tugas Cloud Scheduler

Cloud Scheduler memublikasikan pesan ke topik Pub/Sub secara berkala, sehingga memicu fungsi Cloud Run.

Di GCP Console, buka Cloud Scheduler.
Klik Create Job.

Berikan detail konfigurasi berikut:

Setelan	Nilai
Nama	`urlscan-collector-hourly`
Wilayah	Pilih region yang sama dengan fungsi Cloud Run
Frekuensi	`0 * * * *` (setiap jam, tepat pada waktunya)
Zona waktu	Pilih zona waktu (UTC direkomendasikan)
Jenis target	Pub/Sub
Topik	Pilih topik Pub/Sub (`urlscan-logs-trigger`)
Isi pesan	`{}` (objek JSON kosong)

Klik Buat.

Opsi frekuensi jadwal

Pilih frekuensi berdasarkan volume log dan persyaratan latensi:

Frekuensi	Ekspresi Cron	Kasus Penggunaan
Setiap 5 menit	`/5 * * *`	Volume tinggi, latensi rendah
Setiap 15 menit	`/15 * * *`	Volume sedang
Setiap jam	`0 * * * *`	Standar (direkomendasikan)
Setiap 6 jam	`0 /6 * *`	Volume rendah, pemrosesan batch
Harian	`0 0 * * *`	Pengumpulan data historis

Menguji integrasi

Di konsol Cloud Scheduler, temukan tugas Anda (urlscan-collector-hourly).
Klik Force run untuk memicu tugas secara manual.
Tunggu beberapa detik.
Buka Cloud Run > Services.
Klik nama fungsi (urlscan-collector).
Klik tab Logs.

Pastikan fungsi berhasil dieksekusi. Cari hal berikut:

Searching with query: date:>now-1h
Page 1: Retrieved X scan results
Uploaded X results to gs://bucket-name/urlscan/year=YYYY/month=MM/day=DD/hour=HH/urlscan_YYYYMMDD_HHMMSS.json
Successfully processed X scan results

Buka Cloud Storage > Buckets.
Klik nama bucket Anda.
Buka folder awalan (urlscan/).
Pastikan file .json baru dibuat dengan stempel waktu saat ini.

Jika Anda melihat error dalam log:

HTTP 401: Periksa kunci API di variabel lingkungan
HTTP 403: Pastikan kunci API belum habis masa berlakunya
HTTP 429: Pembatasan kecepatan - fungsi akan otomatis mencoba lagi dengan penundaan
Variabel lingkungan tidak ada: Periksa apakah semua variabel yang diperlukan telah ditetapkan
Penelusuran gagal: Pastikan sintaksis kueri penelusuran sudah benar

Mengambil akun layanan Google SecOps

Google SecOps menggunakan akun layanan unik untuk membaca data dari bucket GCS Anda. Anda harus memberi akun layanan ini akses ke bucket Anda.

Dapatkan email akun layanan

Buka Setelan SIEM > Feed.
Klik Tambahkan Feed Baru.
Klik Konfigurasi satu feed.
Di kolom Nama feed, masukkan nama untuk feed (misalnya, URLScan IO logs).
Pilih Google Cloud Storage V2 sebagai Source type.
Pilih URLScan IO sebagai Jenis log.
Klik Get Service Account. Email akun layanan yang unik akan ditampilkan, misalnya:
```
chronicle-12345678@chronicle-gcp-prod.iam.gserviceaccount.com
```
Salin alamat email ini untuk digunakan di langkah berikutnya.

Catatan: Setiap instance Google SecOps memiliki akun layanan yang unik. Jangan gunakan akun layanan dari dokumentasi atau contoh lain.

Memberikan izin IAM ke akun layanan Google SecOps

Akun layanan Google SecOps memerlukan peran Storage Object Viewer di bucket GCS Anda.

Buka Cloud Storage > Buckets.
Klik nama bucket Anda.
Buka tab Izin.
Klik Grant access.
Berikan detail konfigurasi berikut:
- Add principals: Tempel email akun layanan Google SecOps.
- Tetapkan peran: Pilih Storage Object Viewer.
Klik Simpan.

Catatan: Jika Anda berencana menggunakan opsi penghapusan "Hapus file yang ditransfer" atau "Hapus file yang ditransfer dan direktori kosong", berikan peran Storage Object Admin, bukan Storage Object Viewer.

Mengonfigurasi feed di Google SecOps untuk memproses log URLScan IO

Buka Setelan SIEM > Feed.
Klik Tambahkan Feed Baru.
Klik Konfigurasi satu feed.
Di kolom Nama feed, masukkan nama untuk feed (misalnya, URLScan IO logs).
Pilih Google Cloud Storage V2 sebagai Source type.
Pilih URLScan IO sebagai Jenis log.
Klik Berikutnya.
Tentukan nilai untuk parameter input berikut:
- URL bucket penyimpanan: Masukkan URI bucket GCS dengan jalur awalan:
```
gs://urlscan-logs-bucket/urlscan/
```
  - Ganti:
    - urlscan-logs-bucket: Nama bucket GCS Anda.
    - urlscan/: Awalan/jalur folder opsional tempat log disimpan (biarkan kosong untuk root).
      
      Contoh:
      - Bucket root: gs://urlscan-logs-bucket/
      - Dengan awalan: gs://urlscan-logs-bucket/urlscan/
  Catatan: Selalu sertakan garis miring (/) di akhir URI.
- Opsi penghapusan sumber: Pilih opsi penghapusan sesuai preferensi Anda:
  - Jangan pernah: Tidak pernah menghapus file apa pun setelah transfer (direkomendasikan untuk pengujian).
  - Hapus file yang ditransfer: Menghapus file setelah transfer berhasil.
  - Hapus file yang ditransfer dan direktori kosong: Menghapus file dan direktori kosong setelah transfer berhasil.
    
    Catatan: Jika Anda memilih opsi penghapusan, akun layanan harus memiliki peran Storage Object Admin, bukan Storage Object Viewer. Perbarui izin IAM yang sesuai.
- Usia File Maksimum: Menyertakan file yang diubah dalam beberapa hari terakhir. Defaultnya adalah 180 hari.
- Namespace aset: Namespace aset.
- Label penyerapan: Label yang akan diterapkan ke peristiwa dari feed ini.
Klik Berikutnya.
Tinjau konfigurasi feed baru Anda di layar Selesaikan, lalu klik Kirim.

Perlu bantuan lebih lanjut? Dapatkan jawaban dari anggota Komunitas dan profesional Google SecOps.