Collecter les journaux URLScan IO
Ce document explique comment ingérer des journaux URLScan IO dans Google Security Operations à l'aide de Google Cloud Storage. URLScan IO est un service qui analyse les sites Web et fournit des informations détaillées sur leur comportement, leur sécurité et leurs performances. Il analyse les URL et génère des rapports complets incluant des captures d'écran, des transactions HTTP, des enregistrements DNS et des données de renseignements sur les menaces.
Avant de commencer
Assurez-vous de remplir les conditions préalables suivantes :
- Une instance Google SecOps
- Un projet GCP avec l'API Cloud Storage activée
- Autorisations pour créer et gérer des buckets GCS
- Autorisations permettant de gérer les stratégies IAM sur les buckets GCS
- Autorisations permettant de créer des services Cloud Run, des sujets Pub/Sub et des tâches Cloud Scheduler
- Accès privilégié au locataire URLScan IO
Obtenir les prérequis URLScan IO
- Connectez-vous à URLScan IO.
- Cliquez sur l'icône de votre profil.
- Sélectionnez Clé API dans le menu.
- Si vous ne disposez pas encore d'une clé API :
- Cliquez sur le bouton Créer une clé API.
- Saisissez une description pour la clé API (par exemple,
Google SecOps Integration). - Cliquez sur Générer une clé API.
- Copiez et enregistrez les informations suivantes dans un emplacement sécurisé :
- API_KEY : chaîne de clé API générée (format :
xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx) - URL de base de l'API :
https://urlscan.io/api/v1(cette valeur est constante pour tous les utilisateurs)
- API_KEY : chaîne de clé API générée (format :
- Notez les limites de quota de votre API :
- Les comptes sans frais et Pro sont soumis à des limites par minute, par heure et par jour qui varient selon l'action. Consultez vos quotas personnels ou les en-têtes de limitation du débit de l'API pour connaître vos limites exactes.
- Pour en savoir plus, consultez la documentation sur les limites de débit de l'API URLScan IO.
Si vous devez limiter les recherches aux analyses de votre organisation uniquement, notez les éléments suivants :
- Identifiant utilisateur : votre nom d'utilisateur ou votre adresse e-mail (à utiliser avec le filtre de recherche
user:) - Identifiant de l'équipe : si vous utilisez la fonctionnalité Équipes (à utiliser avec le filtre de recherche
team:)
- Identifiant utilisateur : votre nom d'utilisateur ou votre adresse e-mail (à utiliser avec le filtre de recherche
Vérifier l'accès à l'API
Testez votre clé API avant de procéder à l'intégration :
# Replace with your actual API key API_KEY="your-api-key-here" # Test API access curl -v -H "API-Key: ${API_KEY}" "https://urlscan.io/api/v1/search/?q=date:>now-1h&size=1"
Réponse attendue : HTTP 200 avec un fichier JSON contenant les résultats de recherche.
Si vous recevez les codes d'erreur HTTP 401 ou 403, vérifiez que votre clé API est correcte et qu'elle n'a pas expiré.
Créer un bucket Google Cloud Storage
- Accédez à la console Google Cloud.
- Sélectionnez votre projet ou créez-en un.
- Dans le menu de navigation, accédez à Cloud Storage> Buckets.
- Cliquez sur Créer un bucket.
Fournissez les informations de configuration suivantes :
Paramètre Valeur Nommer votre bucket Saisissez un nom unique (par exemple, urlscan-logs-bucket).Type d'emplacement Choisissez en fonction de vos besoins (région, birégion ou multirégion). Emplacement Sélectionnez l'emplacement (par exemple, us-central1).Classe de stockage Standard (recommandé pour les journaux auxquels vous accédez fréquemment) Access control (Contrôle des accès) Uniforme (recommandé) Outils de protection Facultatif : Activer la gestion des versions des objets ou la règle de conservation Cliquez sur Créer.
Créer un compte de service pour la fonction Cloud Run
La fonction Cloud Run a besoin d'un compte de service disposant des autorisations nécessaires pour écrire dans le bucket GCS et être appelée par Pub/Sub.
Créer un compte de service
- Dans la console GCP, accédez à IAM et administration > Comptes de service.
- Cliquez sur Créer un compte de service.
- Fournissez les informations de configuration suivantes :
- Nom du compte de service : saisissez
urlscan-collector-sa. - Description du compte de service : saisissez
Service account for Cloud Run function to collect URLScan IO logs.
- Nom du compte de service : saisissez
- Cliquez sur Créer et continuer.
- Dans la section Autoriser ce compte de service à accéder au projet, ajoutez les rôles suivants :
- Cliquez sur Sélectionner un rôle.
- Recherchez et sélectionnez Administrateur des objets de l'espace de stockage.
- Cliquez sur + Ajouter un autre rôle.
- Recherchez et sélectionnez Demandeur Cloud Run.
- Cliquez sur + Ajouter un autre rôle.
- Recherchez et sélectionnez Demandeur Cloud Functions.
- Cliquez sur Continuer.
- Cliquez sur OK.
Ces rôles sont requis pour :
- Administrateur des objets Storage : écrire des journaux dans le bucket GCS et gérer les fichiers d'état
- Demandeur Cloud Run : autorise Pub/Sub à appeler la fonction
- Demandeur Cloud Functions : autorise l'appel de fonctions
Accorder des autorisations IAM sur un bucket GCS
Accordez au compte de service des autorisations d'écriture sur le bucket GCS :
- Accédez à Cloud Storage > Buckets.
- Cliquez sur le nom de votre bucket.
- Accédez à l'onglet Autorisations.
- Cliquez sur Accorder l'accès.
- Fournissez les informations de configuration suivantes :
- Ajouter des comptes principaux : saisissez l'adresse e-mail du compte de service (par exemple,
urlscan-collector-sa@PROJECT_ID.iam.gserviceaccount.com). - Attribuer des rôles : sélectionnez Administrateur des objets Storage.
- Ajouter des comptes principaux : saisissez l'adresse e-mail du compte de service (par exemple,
- Cliquez sur Enregistrer.
Créer un sujet Pub/Sub
Créez un sujet Pub/Sub auquel Cloud Scheduler publiera des messages et auquel la fonction Cloud Run s'abonnera.
- Dans la console GCP, accédez à Pub/Sub > Sujets.
- Cliquez sur Create topic (Créer un sujet).
- Fournissez les informations de configuration suivantes :
- ID du sujet : saisissez
urlscan-logs-trigger. - Conservez les valeurs par défaut des autres paramètres.
- ID du sujet : saisissez
- Cliquez sur Créer.
Créer une fonction Cloud Run pour collecter les journaux
La fonction Cloud Run est déclenchée par des messages Pub/Sub provenant de Cloud Scheduler pour extraire les journaux de l'API URLScan IO et les écrire dans GCS.
- Dans la console GCP, accédez à Cloud Run.
- Cliquez sur Créer un service.
- Sélectionnez Fonction (utilisez un éditeur intégré pour créer une fonction).
Dans la section Configurer, fournissez les informations de configuration suivantes :
Paramètre Valeur Nom du service urlscan-collectorRégion Sélectionnez la région correspondant à votre bucket GCS (par exemple, us-central1).Runtime (durée d'exécution) Sélectionnez Python 3.12 ou version ultérieure. Dans la section Déclencheur (facultatif) :
- Cliquez sur + Ajouter un déclencheur.
- Sélectionnez Cloud Pub/Sub.
- Dans Sélectionner un sujet Cloud Pub/Sub, choisissez le sujet Pub/Sub (
urlscan-logs-trigger). - Cliquez sur Enregistrer.
Dans la section Authentification :
- Sélectionnez Exiger l'authentification.
- Consultez Identity and Access Management (IAM).
Faites défiler la page vers le bas, puis développez Conteneurs, mise en réseau, sécurité.
Accédez à l'onglet Sécurité :
- Compte de service : sélectionnez le compte de service (
urlscan-collector-sa).
- Compte de service : sélectionnez le compte de service (
Accédez à l'onglet Conteneurs :
- Cliquez sur Variables et secrets.
- Cliquez sur + Ajouter une variable pour chaque variable d'environnement :
Nom de la variable Exemple de valeur Description GCS_BUCKETurlscan-logs-bucketNom du bucket GCS GCS_PREFIXurlscan/Préfixe des fichiers journaux STATE_KEYurlscan/state.jsonChemin d'accès au fichier d'état API_KEYyour-urlscan-api-keyClé API URLScan IO API_BASEhttps://urlscan.io/api/v1URL de base de l'API SEARCH_QUERYdate:>now-1hFiltre de requête de recherche PAGE_SIZE100Enregistrements par page MAX_PAGES10Nombre maximal de pages à extraire Dans la section Variables et secrets, faites défiler la page jusqu'à Requêtes :
- Délai avant expiration de la requête : saisissez
600secondes (10 minutes).
- Délai avant expiration de la requête : saisissez
Accédez à l'onglet Paramètres :
- Dans la section Ressources :
- Mémoire : sélectionnez 512 Mio ou plus.
- CPU : sélectionnez 1.
- Dans la section Ressources :
Dans la section Scaling de révision :
- Nombre minimal d'instances : saisissez
0. - Nombre maximal d'instances : saisissez
100(ou ajustez en fonction de la charge attendue).
- Nombre minimal d'instances : saisissez
Cliquez sur Créer.
Attendez que le service soit créé (1 à 2 minutes).
Une fois le service créé, l'éditeur de code intégré s'ouvre automatiquement.
Ajouter un code de fonction
- Saisissez main dans Point d'entrée de la fonction.
Dans l'éditeur de code intégré, créez deux fichiers :
- Premier fichier : main.py:
import functions_framework from google.cloud import storage import json import os import urllib3 from datetime import datetime, timedelta, timezone import time # Initialize HTTP client with timeouts http = urllib3.PoolManager( timeout=urllib3.Timeout(connect=5.0, read=30.0), retries=False, ) # Initialize Storage client storage_client = storage.Client() # Environment variables GCS_BUCKET = os.environ.get('GCS_BUCKET') GCS_PREFIX = os.environ.get('GCS_PREFIX', 'urlscan/') STATE_KEY = os.environ.get('STATE_KEY', 'urlscan/state.json') API_KEY = os.environ.get('API_KEY') API_BASE = os.environ.get('API_BASE', 'https://urlscan.io/api/v1') SEARCH_QUERY = os.environ.get('SEARCH_QUERY', 'date:>now-1h') PAGE_SIZE = int(os.environ.get('PAGE_SIZE', '100')) MAX_PAGES = int(os.environ.get('MAX_PAGES', '10')) def parse_datetime(value: str) -> datetime: """Parse ISO datetime string to datetime object.""" if value.endswith("Z"): value = value[:-1] + "+00:00" return datetime.fromisoformat(value) @functions_framework.cloud_event def main(cloud_event): """ Cloud Run function triggered by Pub/Sub to fetch URLScan IO results and write to GCS. Args: cloud_event: CloudEvent object containing Pub/Sub message """ if not all([GCS_BUCKET, API_KEY]): print('Error: Missing required environment variables') return try: # Get GCS bucket bucket = storage_client.bucket(GCS_BUCKET) # Load state state = load_state(bucket, STATE_KEY) last_run = state.get('last_run') # Adjust search query based on last run search_query = SEARCH_QUERY if last_run: try: search_time = parse_datetime(last_run) time_diff = datetime.now(timezone.utc) - search_time hours = int(time_diff.total_seconds() / 3600) + 1 search_query = f'date:>now-{hours}h' except Exception as e: print(f'Warning: Could not parse last_run: {e}') print(f'Searching with query: {search_query}') # Fetch logs records, newest_event_time = fetch_logs( api_base=API_BASE, api_key=API_KEY, search_query=search_query, page_size=PAGE_SIZE, max_pages=MAX_PAGES, ) if not records: print("No new log records found.") now = datetime.now(timezone.utc) save_state(bucket, STATE_KEY, now.isoformat()) return # Write to GCS as NDJSON now = datetime.now(timezone.utc) file_key = f"{GCS_PREFIX}year={now.year}/month={now.month:02d}/day={now.day:02d}/hour={now.hour:02d}/urlscan_{now.strftime('%Y%m%d_%H%M%S')}.json" ndjson_content = '\n'.join([json.dumps(r, separators=(',', ':')) for r in records]) blob = bucket.blob(file_key) blob.upload_from_string( ndjson_content, content_type='application/x-ndjson' ) print(f"Uploaded {len(records)} results to gs://{GCS_BUCKET}/{file_key}") # Update state with newest event time if newest_event_time: save_state(bucket, STATE_KEY, newest_event_time) else: save_state(bucket, STATE_KEY, now.isoformat()) print(f'Successfully processed {len(records)} scan results') except Exception as e: print(f'Error processing logs: {str(e)}') raise def load_state(bucket, key): """Load state from GCS.""" try: blob = bucket.blob(key) if blob.exists(): state_data = blob.download_as_text() return json.loads(state_data) except Exception as e: print(f'Warning: Could not load state: {str(e)}') return {} def save_state(bucket, key, last_event_time_iso: str): """Save the last event timestamp to GCS state file.""" try: state = {'last_run': last_event_time_iso} blob = bucket.blob(key) blob.upload_from_string( json.dumps(state, indent=2), content_type='application/json' ) print(f"Saved state: last_run={last_event_time_iso}") except Exception as e: print(f'Warning: Could not save state: {str(e)}') def fetch_logs(api_base: str, api_key: str, search_query: str, page_size: int, max_pages: int): """ Fetch logs from URLScan IO API with pagination and rate limiting. Args: api_base: API base URL api_key: URLScan IO API key search_query: Search query string page_size: Number of records per page max_pages: Maximum total pages to fetch Returns: Tuple of (records list, newest_event_time ISO string) """ headers = { 'API-Key': api_key, 'Accept': 'application/json', 'User-Agent': 'GoogleSecOps-URLScanCollector/1.0' } all_results = [] newest_time = None page_num = 0 backoff = 1.0 offset = 0 while page_num < max_pages: page_num += 1 # Build search URL with pagination search_url = f"{api_base}/search/" params = [ f"q={search_query}", f"size={page_size}", f"offset={offset}" ] url = f"{search_url}?{'&'.join(params)}" try: response = http.request('GET', url, headers=headers) # Handle rate limiting with exponential backoff if response.status == 429: retry_after = int(response.headers.get('Retry-After', str(int(backoff)))) print(f"Rate limited (429). Retrying after {retry_after}s...") time.sleep(retry_after) backoff = min(backoff * 2, 30.0) continue backoff = 1.0 if response.status != 200: print(f"Search failed: {response.status}") response_text = response.data.decode('utf-8') print(f"Response body: {response_text}") break search_data = json.loads(response.data.decode('utf-8')) results = search_data.get('results', []) if not results: print(f"No more results (empty page)") break print(f"Page {page_num}: Retrieved {len(results)} scan results") # Fetch full result for each scan for result in results: task = result.get('task', {}) uuid = task.get('uuid') if uuid: result_url = f"{api_base}/result/{uuid}/" try: result_response = http.request('GET', result_url, headers=headers) # Handle rate limiting if result_response.status == 429: retry_after = int(result_response.headers.get('Retry-After', '5')) print(f"Rate limited on result fetch. Retrying after {retry_after}s...") time.sleep(retry_after) result_response = http.request('GET', result_url, headers=headers) if result_response.status == 200: full_result = json.loads(result_response.data.decode('utf-8')) all_results.append(full_result) # Track newest event time try: event_time = task.get('time') if event_time: if newest_time is None or parse_datetime(event_time) > parse_datetime(newest_time): newest_time = event_time except Exception as e: print(f"Warning: Could not parse event time: {e}") else: print(f"Failed to fetch result for {uuid}: {result_response.status}") except Exception as e: print(f"Error fetching result for {uuid}: {e}") # Check if we have more pages total = search_data.get('total', 0) if offset + len(results) >= total or len(results) < page_size: print(f"Reached last page (offset={offset}, results={len(results)}, total={total})") break offset += len(results) except Exception as e: print(f"Error fetching logs: {e}") return [], None print(f"Retrieved {len(all_results)} total records from {page_num} pages") return all_results, newest_time- Deuxième fichier : requirements.txt:
functions-framework==3.* google-cloud-storage==2.* urllib3>=2.0.0Cliquez sur Déployer pour enregistrer et déployer la fonction.
Attendez la fin du déploiement (deux à trois minutes).
Créer une tâche Cloud Scheduler
Cloud Scheduler publie des messages sur le sujet Pub/Sub à intervalles réguliers, ce qui déclenche la fonction Cloud Run.
- Dans la console GCP, accédez à Cloud Scheduler.
- Cliquez sur Créer une tâche.
Fournissez les informations de configuration suivantes :
Paramètre Valeur Nom urlscan-collector-hourlyRégion Sélectionnez la même région que la fonction Cloud Run. Fréquence 0 * * * *(toutes les heures)Fuseau horaire Sélectionnez un fuseau horaire (UTC recommandé). Type de cible Pub/Sub Topic Sélectionnez le sujet Pub/Sub ( urlscan-logs-trigger).Corps du message {}(objet JSON vide)Cliquez sur Créer.
Options de fréquence de planification
Choisissez la fréquence en fonction du volume de journaux et des exigences de latence :
Fréquence Expression Cron Cas d'utilisation Toutes les 5 minutes */5 * * * *Volume élevé, faible latence Toutes les 15 minutes */15 * * * *Volume moyen Toutes les heures 0 * * * *Standard (recommandé) Toutes les 6 heures 0 */6 * * *Traitement par lot à faible volume Tous les jours 0 0 * * *Collecte de données historiques
Tester l'intégration
- Dans la console Cloud Scheduler, recherchez votre job (
urlscan-collector-hourly). - Cliquez sur Exécuter de force pour déclencher le job manuellement.
- Patientez pendant quelques secondes.
- Accédez à Cloud Run > Services.
- Cliquez sur le nom de la fonction (
urlscan-collector). - Cliquez sur l'onglet Journaux.
Vérifiez que la fonction s'est exécutée correctement. Recherchez les éléments suivants :
Searching with query: date:>now-1h Page 1: Retrieved X scan results Uploaded X results to gs://bucket-name/urlscan/year=YYYY/month=MM/day=DD/hour=HH/urlscan_YYYYMMDD_HHMMSS.json Successfully processed X scan resultsAccédez à Cloud Storage > Buckets.
Cliquez sur le nom de votre bucket.
Accédez au dossier de préfixe (
urlscan/).Vérifiez qu'un fichier
.jsona été créé avec le code temporel actuel.
Si vous constatez des erreurs dans les journaux :
- HTTP 401 : vérifiez la clé API dans les variables d'environnement
- HTTP 403 : vérifiez que la clé API n'a pas expiré.
- HTTP 429 : limitation du débit. La fonction effectuera automatiquement une nouvelle tentative avec un intervalle de temps.
- Variables d'environnement manquantes : vérifiez que toutes les variables requises sont définies.
- Échec de la recherche : vérifiez que la syntaxe de la requête de recherche est correcte.
Récupérer le compte de service Google SecOps
Google SecOps utilise un compte de service unique pour lire les données de votre bucket GCS. Vous devez accorder à ce compte de service l'accès à votre bucket.
Obtenir l'adresse e-mail du compte de service
- Accédez à Paramètres SIEM> Flux.
- Cliquez sur Add New Feed (Ajouter un flux).
- Cliquez sur Configurer un flux unique.
- Dans le champ Nom du flux, saisissez un nom pour le flux (par exemple,
URLScan IO logs). - Sélectionnez Google Cloud Storage V2 comme Type de source.
- Sélectionnez URLScan IO comme type de journal.
Cliquez sur Obtenir un compte de service. Une adresse e-mail unique pour le compte de service s'affiche, par exemple :
chronicle-12345678@chronicle-gcp-prod.iam.gserviceaccount.comCopiez cette adresse e-mail pour l'utiliser à l'étape suivante.
Accorder des autorisations IAM au compte de service Google SecOps
Le compte de service Google SecOps a besoin du rôle Lecteur des objets Storage sur votre bucket GCS.
- Accédez à Cloud Storage > Buckets.
- Cliquez sur le nom de votre bucket.
- Accédez à l'onglet Autorisations.
- Cliquez sur Accorder l'accès.
- Fournissez les informations de configuration suivantes :
- Ajouter des comptes principaux : collez l'adresse e-mail du compte de service Google SecOps.
- Attribuez des rôles : sélectionnez Lecteur des objets de l'espace de stockage.
Cliquez sur Enregistrer.
Configurer un flux dans Google SecOps pour ingérer les journaux URLScan IO
- Accédez à Paramètres SIEM> Flux.
- Cliquez sur Add New Feed (Ajouter un flux).
- Cliquez sur Configurer un flux unique.
- Dans le champ Nom du flux, saisissez un nom pour le flux (par exemple,
URLScan IO logs). - Sélectionnez Google Cloud Storage V2 comme Type de source.
- Sélectionnez URLScan IO comme type de journal.
- Cliquez sur Suivant.
Spécifiez les valeurs des paramètres d'entrée suivants :
URL du bucket Storage : saisissez l'URI du bucket GCS avec le préfixe du chemin d'accès :
gs://urlscan-logs-bucket/urlscan/Remplacez :
urlscan-logs-bucket: nom de votre bucket GCS.urlscan/: préfixe/chemin d'accès au dossier facultatif où les journaux sont stockés (laisser vide pour la racine).Exemples :
- Bucket racine :
gs://urlscan-logs-bucket/ - Avec préfixe :
gs://urlscan-logs-bucket/urlscan/
- Bucket racine :
Option de suppression de la source : sélectionnez l'option de suppression de votre choix :
- Jamais : ne supprime jamais aucun fichier après les transferts (recommandé pour les tests).
- Supprimer les fichiers transférés : supprime les fichiers après un transfert réussi.
Supprimer les fichiers transférés et les répertoires vides : supprime les fichiers et les répertoires vides après un transfert réussi.
Âge maximal des fichiers : incluez les fichiers modifiés au cours des derniers jours. La valeur par défaut est de 180 jours.
Espace de noms de l'élément : espace de noms de l'élément.
Libellés d'ingestion : libellé à appliquer aux événements de ce flux.
Cliquez sur Suivant.
Vérifiez la configuration de votre nouveau flux sur l'écran Finaliser, puis cliquez sur Envoyer.
Vous avez encore besoin d'aide ? Obtenez des réponses de membres de la communauté et de professionnels Google SecOps.