Collecter des fichiers CSV d'IOC personnalisés

Compatible avec :

Ce document explique comment ingérer des fichiers CSV d'IOC personnalisés dans Google Security Operations à l'aide de Google Cloud Storage. Il explique ensuite comment mapper ces champs à l'UDM, en gérant différents types de données tels que les adresses IP, les domaines et les hachages, et en enrichissant la sortie avec des informations sur les menaces, des informations sur les entités et des niveaux de gravité.

Avant de commencer

Assurez-vous de remplir les conditions préalables suivantes :

  • Une instance Google SecOps
  • Un projet GCP avec l'API Cloud Storage activée
  • Autorisations pour créer et gérer des buckets GCS
  • Autorisations permettant de gérer les stratégies IAM sur les buckets GCS
  • Autorisations permettant de créer des services Cloud Run, des sujets Pub/Sub et des tâches Cloud Scheduler
  • Accès à une ou plusieurs URL de flux CSV d'IOC (HTTPS) ou à un point de terminaison interne qui diffuse des fichiers CSV

Créer un bucket Google Cloud Storage

  1. Accédez à la console Google Cloud.
  2. Sélectionnez votre projet ou créez-en un.
  3. Dans le menu de navigation, accédez à Cloud Storage> Buckets.
  4. Cliquez sur Créer un bucket.
  5. Fournissez les informations de configuration suivantes :

    Paramètre Valeur
    Nommer votre bucket Saisissez un nom unique (par exemple, csv-ioc-logs).
    Type d'emplacement Choisissez en fonction de vos besoins (région, birégion ou multirégion).
    Emplacement Sélectionnez l'emplacement (par exemple, us-central1).
    Classe de stockage Standard (recommandé pour les journaux auxquels vous accédez fréquemment)
    Access control (Contrôle des accès) Uniforme (recommandé)
    Outils de protection Facultatif : Activer la gestion des versions des objets ou la règle de conservation
  6. Cliquez sur Créer.

Créer un compte de service pour la fonction Cloud Run

La fonction Cloud Run a besoin d'un compte de service disposant des autorisations nécessaires pour écrire dans le bucket GCS et être appelée par Pub/Sub.

Créer un compte de service

  1. Dans la console GCP, accédez à IAM et administration > Comptes de service.
  2. Cliquez sur Créer un compte de service.
  3. Fournissez les informations de configuration suivantes :
    • Nom du compte de service : saisissez csv-ioc-collector-sa.
    • Description du compte de service : saisissez Service account for Cloud Run function to collect CSV IOC files.
  4. Cliquez sur Créer et continuer.
  5. Dans la section Autoriser ce compte de service à accéder au projet, ajoutez les rôles suivants :
    1. Cliquez sur Sélectionner un rôle.
    2. Recherchez et sélectionnez Administrateur des objets de l'espace de stockage.
    3. Cliquez sur + Ajouter un autre rôle.
    4. Recherchez et sélectionnez Demandeur Cloud Run.
    5. Cliquez sur + Ajouter un autre rôle.
    6. Recherchez et sélectionnez Demandeur Cloud Functions.
  6. Cliquez sur Continuer.
  7. Cliquez sur OK.

Ces rôles sont requis pour :

  • Administrateur des objets Storage : écrire des journaux dans un bucket GCS
  • Demandeur Cloud Run : autorise Pub/Sub à appeler la fonction
  • Demandeur Cloud Functions : autorise l'appel de fonctions

Accorder des autorisations IAM sur un bucket GCS

Accordez au compte de service des autorisations d'écriture sur le bucket GCS :

  1. Accédez à Cloud Storage > Buckets.
  2. Cliquez sur le nom de votre bucket.
  3. Accédez à l'onglet Autorisations.
  4. Cliquez sur Accorder l'accès.
  5. Fournissez les informations de configuration suivantes :
    • Ajouter des comptes principaux : saisissez l'adresse e-mail du compte de service (par exemple, csv-ioc-collector-sa@PROJECT_ID.iam.gserviceaccount.com).
    • Attribuer des rôles : sélectionnez Administrateur des objets Storage.
  6. Cliquez sur Enregistrer.

Créer un sujet Pub/Sub

Créez un sujet Pub/Sub auquel Cloud Scheduler publiera des messages et auquel la fonction Cloud Run s'abonnera.

  1. Dans la console GCP, accédez à Pub/Sub > Sujets.
  2. Cliquez sur Create topic (Créer un sujet).
  3. Fournissez les informations de configuration suivantes :
    • ID du sujet : saisissez csv-ioc-trigger.
    • Conservez les valeurs par défaut des autres paramètres.
  4. Cliquez sur Créer.

Créer une fonction Cloud Run pour collecter les fichiers CSV d'IOC

La fonction Cloud Run est déclenchée par des messages Pub/Sub provenant de Cloud Scheduler pour extraire les fichiers CSV d'IOC à partir de points de terminaison HTTPS et les écrire dans GCS.

  1. Dans la console GCP, accédez à Cloud Run.
  2. Cliquez sur Créer un service.
  3. Sélectionnez Fonction (utilisez un éditeur intégré pour créer une fonction).
  4. Dans la section Configurer, fournissez les informations de configuration suivantes :

    Paramètre Valeur
    Nom du service csv-ioc-collector
    Région Sélectionnez la région correspondant à votre bucket GCS (par exemple, us-central1).
    Runtime (durée d'exécution) Sélectionnez Python 3.12 ou version ultérieure.
  5. Dans la section Déclencheur (facultatif) :

    1. Cliquez sur + Ajouter un déclencheur.
    2. Sélectionnez Cloud Pub/Sub.
    3. Dans Sélectionner un sujet Cloud Pub/Sub, choisissez le sujet Pub/Sub (csv-ioc-trigger).
    4. Cliquez sur Enregistrer.
  6. Dans la section Authentification :

    1. Sélectionnez Exiger l'authentification.
    2. Consultez Identity and Access Management (IAM).
  7. Faites défiler la page vers le bas, puis développez Conteneurs, mise en réseau, sécurité.

  8. Accédez à l'onglet Sécurité :

    • Compte de service : sélectionnez le compte de service (csv-ioc-collector-sa).
  9. Accédez à l'onglet Conteneurs :

    1. Cliquez sur Variables et secrets.
    2. Cliquez sur + Ajouter une variable pour chaque variable d'environnement :
    Nom de la variable Exemple de valeur Description
    GCS_BUCKET csv-ioc-logs Nom du bucket GCS
    GCS_PREFIX csv-ioc Préfixe des fichiers journaux
    IOC_URLS https://ioc.example.com/feed.csv,https://another.example.org/iocs.csv URL HTTPS séparées par une virgule
    AUTH_HEADER Authorization: Bearer <token> En-tête d'authentification facultatif
    TIMEOUT 60 Délai avant expiration de la requête (en secondes)
  10. Dans la section Variables et secrets, faites défiler la page jusqu'à Requêtes :

    • Délai avant expiration de la requête : saisissez 600 secondes (10 minutes).
  11. Accédez à l'onglet Paramètres :

    • Dans la section Ressources :
      • Mémoire : sélectionnez 512 Mio ou plus.
      • CPU : sélectionnez 1.
    • Cliquez sur OK.
  12. Dans la section Scaling de révision :

    • Nombre minimal d'instances : saisissez 0.
    • Nombre maximal d'instances : saisissez 100 (ou ajustez en fonction de la charge attendue).
  13. Cliquez sur Créer.

  14. Attendez que le service soit créé (1 à 2 minutes).

  15. Une fois le service créé, l'éditeur de code intégré s'ouvre automatiquement.

Ajouter un code de fonction

  1. Saisissez main dans Point d'entrée de la fonction.
  2. Dans l'éditeur de code intégré, créez deux fichiers :

    • Premier fichier : main.py:
    import functions_framework
    from google.cloud import storage
    import json
    import os
    import urllib3
    from datetime import datetime, timezone
    import time
    
    # Initialize HTTP client with timeouts
    http = urllib3.PoolManager(
        timeout=urllib3.Timeout(connect=5.0, read=30.0),
        retries=False,
    )
    
    # Initialize Storage client
    storage_client = storage.Client()
    
    @functions_framework.cloud_event
    def main(cloud_event):
        """
        Cloud Run function triggered by Pub/Sub to fetch CSV IOC feeds over HTTPS and write to GCS.
    
        Args:
            cloud_event: CloudEvent object containing Pub/Sub message
        """
    
        # Get environment variables
        bucket_name = os.environ.get('GCS_BUCKET')
        prefix = os.environ.get('GCS_PREFIX', 'csv-ioc').strip('/')
        ioc_urls_str = os.environ.get('IOC_URLS', '')
        auth_header = os.environ.get('AUTH_HEADER', '')
        timeout = int(os.environ.get('TIMEOUT', '60'))
    
        ioc_urls = [u.strip() for u in ioc_urls_str.split(',') if u.strip()]
    
        if not bucket_name:
            print('Error: GCS_BUCKET environment variable is required')
            return
    
        if not ioc_urls:
            print('Error: IOC_URLS must contain at least one HTTPS URL')
            return
    
        try:
            # Get GCS bucket
            bucket = storage_client.bucket(bucket_name)
    
            run_ts = int(time.time())
            written = []
    
            for i, url in enumerate(ioc_urls):
                print(f'Processing URL {i+1}/{len(ioc_urls)}: {url}')
    
                # Build request
                req_headers = {'Accept': 'text/csv, */*'}
    
                # Add authentication header if provided
                if auth_header:
                    if ':' in auth_header:
                        k, v = auth_header.split(':', 1)
                        req_headers[k.strip()] = v.strip()
                    else:
                        req_headers['Authorization'] = auth_header.strip()
    
                # Fetch data with retries
                data = fetch_with_retries(url, req_headers, timeout)
    
                if data:
                    # Write to GCS
                    key = generate_blob_name(prefix, url, run_ts, i)
                    blob = bucket.blob(key)
                    blob.upload_from_string(data, content_type='text/csv')
    
                    written.append({
                        'url': url,
                        'gcs_key': key,
                        'bytes': len(data)
                    })
    
                    print(f'Wrote {len(data)} bytes to gs://{bucket_name}/{key}')
                else:
                    print(f'Warning: No data retrieved from {url}')
    
            print(f'Successfully processed {len(written)} URLs')
            print(json.dumps({'ok': True, 'written': written}, indent=2))
    
        except Exception as e:
            print(f'Error processing CSV IOC feeds: {str(e)}')
            raise
    
    def fetch_with_retries(url, headers, timeout, max_retries=5):
        """Fetch data from URL with retry logic for 429/5xx errors."""
        if not url.lower().startswith('https://'):
            raise ValueError('Only HTTPS URLs are allowed in IOC_URLS')
    
        attempt = 0
        backoff = 1.0
    
        while attempt < max_retries:
            try:
                response = http.request('GET', url, headers=headers, timeout=timeout)
    
                if response.status == 200:
                    return response.data.decode('utf-8')
                elif response.status == 429 or (500 <= response.status < 600):
                    print(f'Received status {response.status}, retrying in {backoff}s (attempt {attempt+1}/{max_retries})')
                    time.sleep(backoff)
                    attempt += 1
                    backoff *= 2
                else:
                    print(f'Error: Received unexpected status {response.status} from {url}')
                    return None
    
            except Exception as e:
                if attempt < max_retries - 1:
                    print(f'Request failed: {str(e)}, retrying in {backoff}s (attempt {attempt+1}/{max_retries})')
                    time.sleep(backoff)
                    attempt += 1
                    backoff *= 2
                else:
                    raise
    
        print(f'Max retries exceeded for {url}')
        return None
    
    def generate_blob_name(prefix, url, run_ts, idx):
        """Generate a unique blob name for the CSV file."""
        # Create a short, filesystem-safe token for the URL
        safe_url = url.replace('://', '_').replace('/', '_').replace('?', '_').replace('&', '_')[:100]
    
        # Generate timestamp-based path
        timestamp_path = time.strftime('%Y/%m/%d/%H%M%S', time.gmtime(run_ts))
    
        return f"{prefix}/{timestamp_path}-url{idx:03d}-{safe_url}.csv"
    
    • Deuxième fichier : requirements.txt:
    functions-framework==3.*
    google-cloud-storage==2.*
    urllib3>=2.0.0
    
  3. Cliquez sur Déployer pour enregistrer et déployer la fonction.

  4. Attendez la fin du déploiement (deux à trois minutes).

Créer une tâche Cloud Scheduler

Cloud Scheduler publie des messages sur le sujet Pub/Sub à intervalles réguliers, ce qui déclenche la fonction Cloud Run.

  1. Dans la console GCP, accédez à Cloud Scheduler.
  2. Cliquez sur Créer une tâche.
  3. Fournissez les informations de configuration suivantes :

    Paramètre Valeur
    Nom csv-ioc-collector-hourly
    Région Sélectionnez la même région que la fonction Cloud Run.
    Fréquence 0 * * * * (toutes les heures)
    Fuseau horaire Sélectionnez un fuseau horaire (UTC recommandé).
    Type de cible Pub/Sub
    Topic Sélectionnez le sujet Pub/Sub (csv-ioc-trigger).
    Corps du message {} (objet JSON vide)
  4. Cliquez sur Créer.

Options de fréquence de planification

  • Choisissez la fréquence en fonction du volume de journaux et des exigences de latence :

    Fréquence Expression Cron Cas d'utilisation
    Toutes les 5 minutes */5 * * * * Volume élevé, faible latence
    Toutes les 15 minutes */15 * * * * Volume moyen
    Toutes les heures 0 * * * * Standard (recommandé)
    Toutes les 6 heures 0 */6 * * * Traitement par lot à faible volume
    Tous les jours 0 0 * * * Collecte de données historiques

Tester l'intégration

  1. Dans la console Cloud Scheduler, recherchez votre job (csv-ioc-collector-hourly).
  2. Cliquez sur Exécuter de force pour déclencher le job manuellement.
  3. Patientez pendant quelques secondes.
  4. Accédez à Cloud Run > Services.
  5. Cliquez sur le nom de votre fonction (csv-ioc-collector).
  6. Cliquez sur l'onglet Journaux.
  7. Vérifiez que la fonction s'est exécutée correctement. Recherchez les éléments suivants :

    Processing URL 1/X: https://...
    Wrote X bytes to gs://csv-ioc-logs/csv-ioc/YYYY/MM/DD/HHMMSS-url000-...csv
    Successfully processed X URLs
    
  8. Accédez à Cloud Storage > Buckets.

  9. Cliquez sur le nom de votre bucket (csv-ioc-logs).

  10. Accédez au dossier de préfixe (csv-ioc/).

  11. Vérifiez que de nouveaux fichiers .csv ont été créés avec le code temporel actuel.

Si vous constatez des erreurs dans les journaux :

  • HTTP 401/403 : vérifiez la variable d'environnement AUTH_HEADER.
  • HTTP 429 : limitation du débit. La fonction effectuera automatiquement une nouvelle tentative avec un intervalle de temps.
  • Variables d'environnement manquantes : vérifiez que toutes les variables requises sont définies.
  • Seules les URL HTTPS sont autorisées : vérifiez que IOC_URLS ne contient que des URL HTTPS.

Récupérer le compte de service Google SecOps

Google SecOps utilise un compte de service unique pour lire les données de votre bucket GCS. Vous devez accorder à ce compte de service l'accès à votre bucket.

Obtenir l'adresse e-mail du compte de service

  1. Accédez à Paramètres SIEM> Flux.
  2. Cliquez sur Add New Feed (Ajouter un flux).
  3. Cliquez sur Configurer un flux unique.
  4. Dans le champ Nom du flux, saisissez un nom pour le flux (par exemple, CSV Custom IOC).
  5. Sélectionnez Google Cloud Storage V2 comme Type de source.
  6. Sélectionnez IOC personnalisé CSV comme Type de journal.
  7. Cliquez sur Obtenir un compte de service. Une adresse e-mail unique pour le compte de service s'affiche, par exemple :

    chronicle-12345678@chronicle-gcp-prod.iam.gserviceaccount.com
    
  8. Copiez cette adresse e-mail pour l'utiliser à l'étape suivante.

Accorder des autorisations IAM au compte de service Google SecOps

Le compte de service Google SecOps a besoin du rôle Lecteur des objets Storage sur votre bucket GCS.

  1. Accédez à Cloud Storage > Buckets.
  2. Cliquez sur le nom de votre bucket (csv-ioc-logs).
  3. Accédez à l'onglet Autorisations.
  4. Cliquez sur Accorder l'accès.
  5. Fournissez les informations de configuration suivantes :
    • Ajouter des comptes principaux : collez l'adresse e-mail du compte de service Google SecOps.
    • Attribuez des rôles : sélectionnez Lecteur des objets de l'espace de stockage.
  6. Cliquez sur Enregistrer.

Configurer un flux dans Google SecOps pour ingérer des fichiers CSV d'IOC personnalisés

  1. Accédez à Paramètres SIEM> Flux.
  2. Cliquez sur Add New Feed (Ajouter un flux).
  3. Cliquez sur Configurer un flux unique.
  4. Dans le champ Nom du flux, saisissez un nom pour le flux (par exemple, CSV Custom IOC).
  5. Sélectionnez Google Cloud Storage V2 comme Type de source.
  6. Sélectionnez IOC personnalisé CSV comme Type de journal.
  7. Cliquez sur Suivant.
  8. Spécifiez les valeurs des paramètres d'entrée suivants :

    • URL du bucket Storage : saisissez l'URI du bucket GCS avec le préfixe du chemin d'accès :

      gs://csv-ioc-logs/csv-ioc/
      
      • Remplacez :

        • csv-ioc-logs : nom de votre bucket GCS.
        • csv-ioc : préfixe/chemin d'accès au dossier facultatif où les journaux sont stockés.
      • Exemples :

        • Bucket racine : gs://csv-ioc-logs/
        • Avec préfixe : gs://csv-ioc-logs/csv-ioc/
        • Avec un sous-dossier : gs://csv-ioc-logs/ioc-feeds/
    • Option de suppression de la source : sélectionnez l'option de suppression de votre choix :

      • Jamais : ne supprime jamais aucun fichier après les transferts (recommandé pour les tests).
      • Supprimer les fichiers transférés : supprime les fichiers après un transfert réussi.
      • Supprimer les fichiers transférés et les répertoires vides : supprime les fichiers et les répertoires vides après un transfert réussi.

    • Âge maximal des fichiers : incluez les fichiers modifiés au cours des derniers jours. La valeur par défaut est de 180 jours.

    • Espace de noms de l'élément : espace de noms de l'élément.

    • Libellés d'ingestion : libellé à appliquer aux événements de ce flux.

  9. Cliquez sur Suivant.

  10. Vérifiez la configuration de votre nouveau flux sur l'écran Finaliser, puis cliquez sur Envoyer.

Table de mappage UDM

Champ de journal Mappage UDM Logique
asn entity.metadata.threat.detection_fields.asn_label.value Mappé directement à partir du champ "asn".
catégorie entity.metadata.threat.category_details Mappé directement à partir du champ "category".
classification entity.metadata.threat.category_details Ajouté à "classification - " et mappé au champ "entity.metadata.threat.category_details".
column2 entity.entity.hostname Mappé sur "entity.entity.hostname" si [category] correspond à ". ?ip" ou ". ?proxy" et si [not_ip] est défini sur "true".
column2 entity.entity.ip Fusionné dans "entity.entity.ip" si [category] correspond à ". ?ip" ou ". ?proxy" et si [not_ip] est défini sur "false".
confiance entity.metadata.threat.confidence_score Converti en float et mappé au champ "entity.metadata.threat.confidence_score".
country entity.entity.location.country_or_region Mappé directement à partir du champ "pays".
date_first entity.metadata.threat.first_discovered_time Analysé au format ISO8601 et mappé au champ "entity.metadata.threat.first_discovered_time".
date_last entity.metadata.threat.last_updated_time Analysé au format ISO8601 et mappé au champ "entity.metadata.threat.last_updated_time".
détails entity.metadata.threat.summary Mappé directement à partir du champ "detail".
detail2 entity.metadata.threat.description Mappé directement à partir du champ "detail2".
domaine entity.entity.hostname Mappé directement à partir du champ "domain" (domaine).
e-mail entity.entity.user.email_addresses Fusionné dans le champ "entity.entity.user.email_addresses".
id entity.metadata.product_entity_id Ajouté à "id - " et mappé au champ "entity.metadata.product_entity_id".
import_session_id entity.metadata.threat.detection_fields.import_session_id_label.value Mappé directement à partir du champ "import_session_id".
itype entity.metadata.threat.detection_fields.itype_label.value Mappé directement à partir du champ "itype".
lat entity.entity.location.region_latitude Convertie en float et mappée au champ "entity.entity.location.region_latitude".
lon entity.entity.location.region_longitude Convertie en float et mappée au champ "entity.entity.location.region_longitude".
maltype entity.metadata.threat.detection_fields.maltype_label.value Mappé directement à partir du champ "maltype".
md5 entity.entity.file.md5 Mappé directement à partir du champ "md5".
media entity.metadata.threat.detection_fields.media_label.value Mappé directement à partir du champ "media".
media_type entity.metadata.threat.detection_fields.media_type_label.value Mappé directement à partir du champ "media_type".
org entity.metadata.threat.detection_fields.org_label.value Mappé directement à partir du champ "org".
resource_uri entity.entity.url Mappé sur "entity.entity.url" si [itype] ne correspond pas à "(ip
resource_uri entity.metadata.threat.url_back_to_product Mappé sur "entity.metadata.threat.url_back_to_product" si [itype] correspond à "(ip
score entity.metadata.threat.confidence_details Directement mappé à partir du champ "score".
de gravité, entity.metadata.threat.severity Converti en majuscules et mappé au champ "entity.metadata.threat.severity" s'il correspond à "LOW", "MEDIUM", "HIGH" ou "CRITICAL".
source entity.metadata.threat.detection_fields.source_label.value Mappé directement à partir du champ "source".
source_feed_id entity.metadata.threat.detection_fields.source_feed_id_label.value Mappé directement à partir du champ "source_feed_id".
srcip entity.entity.ip Fusionné dans "entity.entity.ip" si [srcip] n'est pas vide et n'est pas égal à [value].
state entity.metadata.threat.detection_fields.state_label.value Mappé directement à partir du champ "state" (état).
trusted_circle_ids entity.metadata.threat.detection_fields.trusted_circle_ids_label.value Mappé directement à partir du champ "trusted_circle_ids".
update_id entity.metadata.threat.detection_fields.update_id_label.value Mappé directement à partir du champ "update_id".
valeur entity.entity.file.full_path Mappé sur "entity.entity.file.full_path" si [category] correspond à ".*?file".
valeur entity.entity.file.md5 Mappé sur "entity.entity.file.md5" si [category] correspond à ".*?md5" et si [value] est une chaîne hexadécimale de 32 caractères.
valeur entity.entity.file.sha1 Mappé sur "entity.entity.file.sha1" si ([category] correspond à ". ?md5" et [value] est une chaîne hexadécimale de 40 caractères) ou ([category] correspond à ". ?sha1" et [value] est une chaîne hexadécimale de 40 caractères).
valeur entity.entity.file.sha256 Mappé sur "entity.entity.file.sha256" si ([category] correspond à ". ?md5" et [value] est une chaîne hexadécimale et [file_type] n'est pas "md5") ou ([category] correspond à ". ?sha256" et [value] est une chaîne hexadécimale).
valeur entity.entity.hostname Mappé sur "entity.entity.hostname" si ([category] correspond à ". ?domain") ou ([category] correspond à ". ?ip" ou ".*?proxy" et [not_ip] est défini sur "true").
valeur entity.entity.url Mappé sur "entity.entity.url" si ([category] correspond à ".*?url") ou ([category] correspond à "url" et [resource_uri] n'est pas vide).
N/A entity.metadata.collected_timestamp Valeur insérée avec le code temporel de l'événement.
N/A entity.metadata.interval.end_time Définissez-le sur une valeur constante de 253402300799 secondes.
N/A entity.metadata.interval.start_time Valeur insérée avec le code temporel de l'événement.
N/A entity.metadata.vendor_name Définissez-le sur la valeur constante "IOC personnalisé".

Vous avez encore besoin d'aide ? Obtenez des réponses de membres de la communauté et de professionnels Google SecOps.