Recopila registros de URLScan IO

Se admite en los siguientes sistemas operativos:

Google SecOps SIEM

En este documento, se explica cómo transferir registros de URLScan IO a Google Security Operations con Google Cloud Storage. URLScan IO es un servicio que analiza sitios web y proporciona información detallada sobre su comportamiento, seguridad y rendimiento. Analiza URLs y genera informes integrales que incluyen capturas de pantalla, transacciones HTTP, registros DNS y datos de inteligencia sobre amenazas.

Antes de comenzar

Asegúrate de cumplir con los siguientes requisitos previos:

Una instancia de Google SecOps
Un proyecto de GCP con la API de Cloud Storage habilitada
Permisos para crear y administrar buckets de GCS
Permisos para administrar políticas de IAM en buckets de GCS
Permisos para crear servicios de Cloud Run, temas de Pub/Sub y trabajos de Cloud Scheduler
Acceso con privilegios al arrendatario de URLScan IO

Obtén los requisitos previos de URLScan IO

Accede a URLScan IO.
Haz clic en el ícono de tu perfil.
Selecciona Clave de API en el menú.
Si aún no tienes una clave de API, sigue estos pasos:
1. Haz clic en el botón Crear clave de API.
2. Ingresa una descripción para la clave de API (por ejemplo, Google SecOps Integration).
3. Haz clic en Generar clave de API.
Copia y guarda en una ubicación segura los siguientes detalles:
- API_KEY: Es la cadena de la clave de API generada (formato: xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx).
- URL base de la API: https://urlscan.io/api/v1 (es constante para todos los usuarios)
Ten en cuenta los límites de cuota de la API:
- Las cuentas gratuitas y Pro están sujetas a límites por minuto, por hora y por día que varían según la acción. Consulta tus cuotas personales o los encabezados de límite de frecuencia de la API para conocer tus límites exactos.
- Para obtener más información, consulta la documentación sobre los límites de frecuencia de la API de URLScan IO.
Si necesitas restringir las búsquedas solo a los análisis de tu organización, anota lo siguiente:
- Identificador del usuario: Tu nombre de usuario o correo electrónico (para usar con el filtro de búsqueda user:)
- Identificador del equipo: Si se usa la función de equipos (para usar con el filtro de búsqueda team:)
Nota: Los filtros de búsqueda, como user: y team:, forman parte de la sintaxis de búsqueda documentada de URLScan IO y pueden depender de que hayas accedido o de que tengas funciones Pro. Consulta la documentación de la API de URLScan IO Search para obtener información sobre la creación de consultas avanzadas.

Verifica el acceso a la API

Prueba tu clave de API antes de continuar con la integración:

# Replace with your actual API key
API_KEY="your-api-key-here"

# Test API access
curl -v -H "API-Key: ${API_KEY}" "https://urlscan.io/api/v1/search/?q=date:>now-1h&size=1"

Respuesta esperada: HTTP 200 con JSON que contiene los resultados de la búsqueda.

Si recibes los códigos de estado HTTP 401 o 403, verifica que tu clave de API sea correcta y no haya vencido.

Crea un bucket de Google Cloud Storage

Ve a Google Cloud Console.
Selecciona tu proyecto o crea uno nuevo.
En el menú de navegación, ve a Cloud Storage > Buckets.
Haz clic en Crear bucket.

Proporciona los siguientes detalles de configuración:

Configuración	Valor
Asigna un nombre a tu bucket	Ingresa un nombre global único (por ejemplo, `urlscan-logs-bucket`).
Tipo de ubicación	Elige según tus necesidades (región, birregional, multirregional)
Ubicación	Selecciona la ubicación (por ejemplo, `us-central1`).
Clase de almacenamiento	Estándar (recomendado para los registros a los que se accede con frecuencia)
Control de acceso	Uniforme (recomendado)
Herramientas de protección	Opcional: Habilita el control de versiones de objetos o la política de retención

Haz clic en Crear.

Crea una cuenta de servicio para la Cloud Run Function

La Cloud Run Function necesita una cuenta de servicio con permisos para escribir en el bucket de GCS y ser invocada por Pub/Sub.

Crear cuenta de servicio

En GCP Console, ve a IAM y administración > Cuentas de servicio.
Haz clic en Crear cuenta de servicio.
Proporciona los siguientes detalles de configuración:
- Nombre de la cuenta de servicio: Ingresa urlscan-collector-sa.
- Descripción de la cuenta de servicio: Ingresa Service account for Cloud Run function to collect URLScan IO logs.
Haz clic en Crear y continuar.
En la sección Otorga a esta cuenta de servicio acceso al proyecto, agrega los siguientes roles:
1. Haz clic en Selecciona un rol.
2. Busca y selecciona Administrador de objetos de almacenamiento.
3. Haz clic en + Agregar otra función.
4. Busca y selecciona Invocador de Cloud Run.
5. Haz clic en + Agregar otra función.
6. Busca y selecciona Cloud Functions Invoker.
Haz clic en Continuar.
Haz clic en Listo.

Estos roles son necesarios para las siguientes acciones:

Administrador de objetos de almacenamiento: Escribe registros en el bucket de GCS y administra archivos de estado
Invocador de Cloud Run: Permite que Pub/Sub invoque la función
Cloud Functions Invoker: Permite la invocación de funciones

Otorga permisos de IAM en el bucket de GCS

Otorga permisos de escritura a la cuenta de servicio en el bucket de GCS:

Ve a Cloud Storage > Buckets.
Haz clic en el nombre de tu bucket.
Ve a la pestaña Permisos.
Haz clic en Otorgar acceso.
Proporciona los siguientes detalles de configuración:
- Agregar principales: Ingresa el correo electrónico de la cuenta de servicio (por ejemplo, urlscan-collector-sa@PROJECT_ID.iam.gserviceaccount.com).
- Asignar roles: Selecciona Administrador de objetos de Storage.
Haz clic en Guardar.

Crear tema de Pub/Sub

Crea un tema de Pub/Sub en el que Cloud Scheduler publicará y al que se suscribirá la función de Cloud Run.

En GCP Console, ve a Pub/Sub > Temas.
Haz clic en Crear un tema.
Proporciona los siguientes detalles de configuración:
- ID del tema: Ingresa urlscan-logs-trigger.
- Deja el resto de la configuración con sus valores predeterminados.
Haz clic en Crear.

Crea una función de Cloud Run para recopilar registros

La función de Cloud Run se activa con mensajes de Pub/Sub de Cloud Scheduler para recuperar registros de la API de URLScan IO y escribirlos en GCS.

En GCP Console, ve a Cloud Run.
Haz clic en Crear servicio.
Selecciona Función (usa un editor intercalado para crear una función).

En la sección Configurar, proporciona los siguientes detalles de configuración:

Configuración	Valor
Nombre del servicio	`urlscan-collector`
Región	Selecciona la región que coincida con tu bucket de GCS (por ejemplo, `us-central1`).
Tiempo de ejecución	Selecciona Python 3.12 o una versión posterior.

En la sección Activador (opcional), haz lo siguiente:
1. Haz clic en + Agregar activador.
2. Selecciona Cloud Pub/Sub.
3. En Selecciona un tema de Cloud Pub/Sub, elige el tema de Pub/Sub (urlscan-logs-trigger).
4. Haz clic en Guardar.
En la sección Autenticación, haz lo siguiente:
1. Selecciona Solicitar autenticación.
2. Verifica Identity and Access Management (IAM).
Nota: Pub/Sub controla automáticamente la autenticación cuando invoca la función.
Desplázate hacia abajo y expande Contenedores, redes y seguridad.
Ve a la pestaña Seguridad:
- Cuenta de servicio: Selecciona la cuenta de servicio (urlscan-collector-sa).

Ve a la pestaña Contenedores:

Haz clic en Variables y secretos.
Haz clic en + Agregar variable para cada variable de entorno:

Nombre de la variable	Valor de ejemplo	Descripción
`GCS_BUCKET`	`urlscan-logs-bucket`	Nombre del bucket de GCS
`GCS_PREFIX`	`urlscan/`	Prefijo para los archivos de registro
`STATE_KEY`	`urlscan/state.json`	Ruta de acceso al archivo de estado
`API_KEY`	`your-urlscan-api-key`	Clave de API de URLScan IO
`API_BASE`	`https://urlscan.io/api/v1`	URL base de la API
`SEARCH_QUERY`	`date:>now-1h`	Filtro de búsqueda
`PAGE_SIZE`	`100`	Registros por página
`MAX_PAGES`	`10`	Cantidad máxima de páginas para recuperar

En la sección Variables y Secrets, desplázate hacia abajo hasta Solicitudes:
- Tiempo de espera de la solicitud: Ingresa 600 segundos (10 minutos).
Ve a la pestaña Configuración:
- En la sección Recursos, haz lo siguiente:
  - Memoria: Selecciona 512 MiB o más.
  - CPU: Selecciona 1.
En la sección Ajuste de escala de revisión, haz lo siguiente:
- Cantidad mínima de instancias: Ingresa 0.
- Cantidad máxima de instancias: Ingresa 100 (o ajusta según la carga esperada).
Haz clic en Crear.
Espera a que se cree el servicio (de 1 a 2 minutos).
Después de crear el servicio, se abrirá automáticamente el editor de código intercalado.

Agregar el código de función

Ingresa main en Punto de entrada de la función.

En el editor de código intercalado, crea dos archivos:

Primer archivo: main.py:

import functions_framework
from google.cloud import storage
import json
import os
import urllib3
from datetime import datetime, timedelta, timezone
import time

# Initialize HTTP client with timeouts
http = urllib3.PoolManager(
    timeout=urllib3.Timeout(connect=5.0, read=30.0),
    retries=False,
)

# Initialize Storage client
storage_client = storage.Client()

# Environment variables
GCS_BUCKET = os.environ.get('GCS_BUCKET')
GCS_PREFIX = os.environ.get('GCS_PREFIX', 'urlscan/')
STATE_KEY = os.environ.get('STATE_KEY', 'urlscan/state.json')
API_KEY = os.environ.get('API_KEY')
API_BASE = os.environ.get('API_BASE', 'https://urlscan.io/api/v1')
SEARCH_QUERY = os.environ.get('SEARCH_QUERY', 'date:>now-1h')
PAGE_SIZE = int(os.environ.get('PAGE_SIZE', '100'))
MAX_PAGES = int(os.environ.get('MAX_PAGES', '10'))

def parse_datetime(value: str) -> datetime:
    """Parse ISO datetime string to datetime object."""
    if value.endswith("Z"):
        value = value[:-1] + "+00:00"
    return datetime.fromisoformat(value)

@functions_framework.cloud_event
def main(cloud_event):
    """
    Cloud Run function triggered by Pub/Sub to fetch URLScan IO results and write to GCS.

    Args:
        cloud_event: CloudEvent object containing Pub/Sub message
    """

    if not all([GCS_BUCKET, API_KEY]):
        print('Error: Missing required environment variables')
        return

    try:
        # Get GCS bucket
        bucket = storage_client.bucket(GCS_BUCKET)

        # Load state
        state = load_state(bucket, STATE_KEY)
        last_run = state.get('last_run')

        # Adjust search query based on last run
        search_query = SEARCH_QUERY
        if last_run:
            try:
                search_time = parse_datetime(last_run)
                time_diff = datetime.now(timezone.utc) - search_time
                hours = int(time_diff.total_seconds() / 3600) + 1
                search_query = f'date:>now-{hours}h'
            except Exception as e:
                print(f'Warning: Could not parse last_run: {e}')

        print(f'Searching with query: {search_query}')

        # Fetch logs
        records, newest_event_time = fetch_logs(
            api_base=API_BASE,
            api_key=API_KEY,
            search_query=search_query,
            page_size=PAGE_SIZE,
            max_pages=MAX_PAGES,
        )

        if not records:
            print("No new log records found.")
            now = datetime.now(timezone.utc)
            save_state(bucket, STATE_KEY, now.isoformat())
            return

        # Write to GCS as NDJSON
        now = datetime.now(timezone.utc)
        file_key = f"{GCS_PREFIX}year={now.year}/month={now.month:02d}/day={now.day:02d}/hour={now.hour:02d}/urlscan_{now.strftime('%Y%m%d_%H%M%S')}.json"

        ndjson_content = '\n'.join([json.dumps(r, separators=(',', ':')) for r in records])

        blob = bucket.blob(file_key)
        blob.upload_from_string(
            ndjson_content,
            content_type='application/x-ndjson'
        )

        print(f"Uploaded {len(records)} results to gs://{GCS_BUCKET}/{file_key}")

        # Update state with newest event time
        if newest_event_time:
            save_state(bucket, STATE_KEY, newest_event_time)
        else:
            save_state(bucket, STATE_KEY, now.isoformat())

        print(f'Successfully processed {len(records)} scan results')

    except Exception as e:
        print(f'Error processing logs: {str(e)}')
        raise

def load_state(bucket, key):
    """Load state from GCS."""
    try:
        blob = bucket.blob(key)
        if blob.exists():
            state_data = blob.download_as_text()
            return json.loads(state_data)
    except Exception as e:
        print(f'Warning: Could not load state: {str(e)}')
    return {}

def save_state(bucket, key, last_event_time_iso: str):
    """Save the last event timestamp to GCS state file."""
    try:
        state = {'last_run': last_event_time_iso}
        blob = bucket.blob(key)
        blob.upload_from_string(
            json.dumps(state, indent=2),
            content_type='application/json'
        )
        print(f"Saved state: last_run={last_event_time_iso}")
    except Exception as e:
        print(f'Warning: Could not save state: {str(e)}')

def fetch_logs(api_base: str, api_key: str, search_query: str, page_size: int, max_pages: int):
    """
    Fetch logs from URLScan IO API with pagination and rate limiting.

    Args:
        api_base: API base URL
        api_key: URLScan IO API key
        search_query: Search query string
        page_size: Number of records per page
        max_pages: Maximum total pages to fetch

    Returns:
        Tuple of (records list, newest_event_time ISO string)
    """

    headers = {
        'API-Key': api_key,
        'Accept': 'application/json',
        'User-Agent': 'GoogleSecOps-URLScanCollector/1.0'
    }

    all_results = []
    newest_time = None
    page_num = 0
    backoff = 1.0
    offset = 0

    while page_num < max_pages:
        page_num += 1

        # Build search URL with pagination
        search_url = f"{api_base}/search/"
        params = [
            f"q={search_query}",
            f"size={page_size}",
            f"offset={offset}"
        ]
        url = f"{search_url}?{'&'.join(params)}"

        try:
            response = http.request('GET', url, headers=headers)

            # Handle rate limiting with exponential backoff
            if response.status == 429:
                retry_after = int(response.headers.get('Retry-After', str(int(backoff))))
                print(f"Rate limited (429). Retrying after {retry_after}s...")
                time.sleep(retry_after)
                backoff = min(backoff * 2, 30.0)
                continue

            backoff = 1.0

            if response.status != 200:
                print(f"Search failed: {response.status}")
                response_text = response.data.decode('utf-8')
                print(f"Response body: {response_text}")
                break

            search_data = json.loads(response.data.decode('utf-8'))
            results = search_data.get('results', [])

            if not results:
                print(f"No more results (empty page)")
                break

            print(f"Page {page_num}: Retrieved {len(results)} scan results")

            # Fetch full result for each scan
            for result in results:
                task = result.get('task', {})
                uuid = task.get('uuid')
                if uuid:
                    result_url = f"{api_base}/result/{uuid}/"

                    try:
                        result_response = http.request('GET', result_url, headers=headers)

                        # Handle rate limiting
                        if result_response.status == 429:
                            retry_after = int(result_response.headers.get('Retry-After', '5'))
                            print(f"Rate limited on result fetch. Retrying after {retry_after}s...")
                            time.sleep(retry_after)
                            result_response = http.request('GET', result_url, headers=headers)

                        if result_response.status == 200:
                            full_result = json.loads(result_response.data.decode('utf-8'))
                            all_results.append(full_result)

                            # Track newest event time
                            try:
                                event_time = task.get('time')
                                if event_time:
                                    if newest_time is None or parse_datetime(event_time) > parse_datetime(newest_time):
                                        newest_time = event_time
                            except Exception as e:
                                print(f"Warning: Could not parse event time: {e}")
                        else:
                            print(f"Failed to fetch result for {uuid}: {result_response.status}")
                    except Exception as e:
                        print(f"Error fetching result for {uuid}: {e}")

            # Check if we have more pages
            total = search_data.get('total', 0)
            if offset + len(results) >= total or len(results) < page_size:
                print(f"Reached last page (offset={offset}, results={len(results)}, total={total})")
                break

            offset += len(results)

        except Exception as e:
            print(f"Error fetching logs: {e}")
            return [], None

    print(f"Retrieved {len(all_results)} total records from {page_num} pages")
    return all_results, newest_time

Segundo archivo: requirements.txt:

functions-framework==3.*
google-cloud-storage==2.*
urllib3>=2.0.0

Haz clic en Implementar para guardar y, luego, implementar la función.
Espera a que se complete la implementación (de 2 a 3 minutos).

Nota: La configuración del activador de Pub/Sub crea automáticamente las suscripciones y los permisos necesarios.

Crea un trabajo de Cloud Scheduler

Cloud Scheduler publica mensajes en el tema de Pub/Sub a intervalos regulares, lo que activa la función de Cloud Run.

En GCP Console, ve a Cloud Scheduler.
Haz clic en Crear trabajo.

Proporciona los siguientes detalles de configuración:

Configuración	Valor
Nombre	`urlscan-collector-hourly`
Región	Selecciona la misma región que la función de Cloud Run
Frecuencia	`0 * * * *` (cada hora, en punto)
Zona horaria	Selecciona la zona horaria (se recomienda UTC)
Tipo de orientación	Pub/Sub
Tema	Selecciona el tema de Pub/Sub (`urlscan-logs-trigger`).
Cuerpo del mensaje	`{}` (objeto JSON vacío)

Haz clic en Crear.

Opciones de frecuencia de programación

Elige la frecuencia según los requisitos de latencia y volumen de registros:

Frecuencia	Expresión cron	Caso de uso
Cada 5 minutos	`/5 * * *`	Alto volumen y baja latencia
Cada 15 minutos	`/15 * * *`	Volumen medio
Cada 1 hora	`0 * * * *`	Estándar (opción recomendada)
Cada 6 horas	`0 /6 * *`	Procesamiento por lotes y volumen bajo
Diario	`0 0 * * *`	Recopilación de datos históricos

Prueba la integración

En la consola de Cloud Scheduler, busca tu trabajo (urlscan-collector-hourly).
Haz clic en Forzar ejecución para activar el trabajo de forma manual.
Espera unos segundos.
Ve a Cloud Run > Servicios.
Haz clic en el nombre de la función (urlscan-collector).
Haz clic en la pestaña Registros.

Verifica que la función se haya ejecutado correctamente. Busca lo siguiente:

Searching with query: date:>now-1h
Page 1: Retrieved X scan results
Uploaded X results to gs://bucket-name/urlscan/year=YYYY/month=MM/day=DD/hour=HH/urlscan_YYYYMMDD_HHMMSS.json
Successfully processed X scan results

Ve a Cloud Storage > Buckets.
Haz clic en el nombre de tu bucket.
Navega a la carpeta del prefijo (urlscan/).
Verifica que se haya creado un archivo .json nuevo con la marca de tiempo actual.

Si ves errores en los registros, haz lo siguiente:

HTTP 401: Verifica la clave de API en las variables de entorno
HTTP 403: Verifica que la clave de API no haya vencido
HTTP 429: Limitación de frecuencia. La función volverá a intentarlo automáticamente con una espera exponencial.
Faltan variables de entorno: Verifica que estén configuradas todas las variables requeridas.
No se pudo realizar la búsqueda: Verifica que la sintaxis de la búsqueda sea correcta

Recupera la cuenta de servicio de Google SecOps

Las Operaciones de seguridad de Google usan una cuenta de servicio única para leer datos de tu bucket de GCS. Debes otorgar acceso a tu bucket a esta cuenta de servicio.

Obtén el correo electrónico de la cuenta de servicio

Ve a Configuración de SIEM > Feeds.
Haz clic en Agregar feed nuevo.
Haz clic en Configura un feed único.
En el campo Nombre del feed, ingresa un nombre para el feed (por ejemplo, URLScan IO logs).
Selecciona Google Cloud Storage V2 como el Tipo de fuente.
Selecciona URLScan IO como el Tipo de registro.
Haz clic en Obtener cuenta de servicio. Se muestra un correo electrónico único de la cuenta de servicio, por ejemplo:
```
chronicle-12345678@chronicle-gcp-prod.iam.gserviceaccount.com
```
Copia esta dirección de correo electrónico para usarla en el siguiente paso.

Nota: Cada instancia de Google SecOps tiene una cuenta de servicio única. No uses cuentas de servicio de otros ejemplos o documentación.

Otorga permisos de IAM a la cuenta de servicio de Google SecOps

La cuenta de servicio de Google SecOps necesita el rol de visualizador de objetos de almacenamiento en tu bucket de GCS.

Ve a Cloud Storage > Buckets.
Haz clic en el nombre de tu bucket.
Ve a la pestaña Permisos.
Haz clic en Otorgar acceso.
Proporciona los siguientes detalles de configuración:
- Agregar principales: Pega el correo electrónico de la cuenta de servicio de Google SecOps.
- Asignar roles: Selecciona Visualizador de objetos de Storage.
Haz clic en Guardar.

Nota: Si planeas usar la opción de eliminación "Borrar archivos transferidos" o "Borrar archivos transferidos y directorios vacíos", otorga el rol de Administrador de objetos de Storage en lugar del rol de Visualizador de objetos de Storage.

Configura un feed en Google SecOps para transferir registros de URLScan IO

Ve a Configuración de SIEM > Feeds.
Haz clic en Agregar feed nuevo.
Haz clic en Configura un feed único.
En el campo Nombre del feed, ingresa un nombre para el feed (por ejemplo, URLScan IO logs).
Selecciona Google Cloud Storage V2 como el Tipo de fuente.
Selecciona URLScan IO como el Tipo de registro.
Haz clic en Siguiente.
Especifica valores para los siguientes parámetros de entrada:
- URL del bucket de almacenamiento: Ingresa el URI del bucket de GCS con la ruta de acceso del prefijo:
```
gs://urlscan-logs-bucket/urlscan/
```
  - Reemplaza lo siguiente:
    - urlscan-logs-bucket: Es el nombre de tu bucket de GCS.
    - urlscan/: Es el prefijo o la ruta de carpeta opcionales en los que se almacenan los registros (déjalo vacío para la raíz).
      
      Ejemplos:
      - Bucket raíz: gs://urlscan-logs-bucket/
      - Con prefijo: gs://urlscan-logs-bucket/urlscan/
  Nota: Siempre incluye la barra diagonal final (/) al final del URI.
- Opción de borrado de la fuente: Selecciona la opción de borrado según tu preferencia:
  - Nunca: Nunca borra ningún archivo después de las transferencias (se recomienda para las pruebas).
  - Borrar archivos transferidos: Borra los archivos después de la transferencia exitosa.
  - Borrar los archivos transferidos y los directorios vacíos: Borra los archivos y los directorios vacíos después de la transferencia exitosa.
    
    Nota: Si seleccionas una opción de eliminación, la cuenta de servicio debe tener el rol de administrador de objetos de Storage en lugar del rol de visualizador de objetos de Storage. Actualiza los permisos de IAM según corresponda.
- Antigüedad máxima del archivo: Incluye los archivos modificados en la cantidad de días especificada. El valor predeterminado es de 180 días.
- Espacio de nombres del recurso: Es el espacio de nombres del recurso.
- Etiquetas de transmisión: Es la etiqueta que se aplicará a los eventos de este feed.
Haz clic en Siguiente.
Revisa la nueva configuración del feed en la pantalla Finalizar y, luego, haz clic en Enviar.

¿Necesitas más ayuda? Obtén respuestas de miembros de la comunidad y profesionales de Google SecOps.