Collecter les journaux JSON Box

Compatible avec :

Google SecOps SIEM

Ce document explique comment ingérer des journaux JSON Box dans Google Security Operations à l'aide de Google Cloud Storage. L'analyseur traite les journaux d'événements Box au format JSON et les mappe à un modèle de données unifié (UDM). Il extrait les champs pertinents des journaux bruts, effectue des transformations de données (comme le renommage et la fusion), et enrichit les données avec des informations intermédiaires avant de générer les données d'événement structurées.

Avant de commencer

Assurez-vous de remplir les conditions préalables suivantes :

Une instance Google SecOps
Un projet GCP avec l'API Cloud Storage activée
Autorisations pour créer et gérer des buckets GCS
Autorisations permettant de gérer les stratégies IAM sur les buckets GCS
Autorisations permettant de créer des services Cloud Run, des sujets Pub/Sub et des tâches Cloud Scheduler
Accès privilégié à Box (console d'administration et console pour les développeurs)

Configurer la console pour les développeurs Box (identifiants client)

Connectez-vous à la console Box pour les développeurs.
Créez une application personnalisée avec l'authentification du serveur (attribution d'identifiants client).
Définissez Application Access (Accès aux applications) sur App + Enterprise Access (Accès aux applications et à l'entreprise).
Dans Application Scopes (Champs d'application de l'application), activez Manage enterprise properties (Gérer les propriétés d'entreprise).
Dans la console d'administration> Applications> Gestionnaire d'applications personnalisées, autorisez l'application par ID client.
Copiez et enregistrez l'ID client et le code secret du client dans un emplacement sécurisé.
Accédez à la console d'administration> Compte et facturation > Informations sur le compte.
Copiez l'ID d'entreprise et enregistrez-le dans un emplacement sécurisé.

Créer un bucket Google Cloud Storage

Accédez à la console Google Cloud.
Sélectionnez votre projet ou créez-en un.
Dans le menu de navigation, accédez à Cloud Storage> Buckets.
Cliquez sur Créer un bucket.

Fournissez les informations de configuration suivantes :

Paramètre	Valeur
Nommer votre bucket	Saisissez un nom unique (par exemple, `box-collaboration-logs`).
Type d'emplacement	Choisissez en fonction de vos besoins (région, birégion ou multirégion).
Emplacement	Sélectionnez l'emplacement (par exemple, `us-central1`).
Classe de stockage	Standard (recommandé pour les journaux auxquels vous accédez fréquemment)
Access control (Contrôle des accès)	Uniforme (recommandé)
Outils de protection	Facultatif : Activer la gestion des versions des objets ou la règle de conservation

Cliquez sur Créer.

Créer un compte de service pour la fonction Cloud Run

La fonction Cloud Run a besoin d'un compte de service disposant des autorisations nécessaires pour écrire dans le bucket GCS et être appelée par Pub/Sub.

Créer un compte de service

Dans la console GCP, accédez à IAM et administration > Comptes de service.
Cliquez sur Créer un compte de service.
Fournissez les informations de configuration suivantes :
- Nom du compte de service : saisissez box-collaboration-collector-sa.
- Description du compte de service : saisissez Service account for Cloud Run function to collect Box Collaboration logs.
Cliquez sur Créer et continuer.
Dans la section Autoriser ce compte de service à accéder au projet, ajoutez les rôles suivants :
1. Cliquez sur Sélectionner un rôle.
2. Recherchez et sélectionnez Administrateur des objets de l'espace de stockage.
3. Cliquez sur + Ajouter un autre rôle.
4. Recherchez et sélectionnez Demandeur Cloud Run.
5. Cliquez sur + Ajouter un autre rôle.
6. Recherchez et sélectionnez Demandeur Cloud Functions.
Cliquez sur Continuer.
Cliquez sur OK.

Ces rôles sont requis pour :

Administrateur des objets Storage : écrire des journaux dans le bucket GCS et gérer les fichiers d'état
Demandeur Cloud Run : autorise Pub/Sub à appeler la fonction
Demandeur Cloud Functions : autorise l'appel de fonctions

Accorder des autorisations IAM sur un bucket GCS

Accordez au compte de service des autorisations d'écriture sur le bucket GCS :

Accédez à Cloud Storage > Buckets.
Cliquez sur le nom de votre bucket.
Accédez à l'onglet Autorisations.
Cliquez sur Accorder l'accès.
Fournissez les informations de configuration suivantes :
- Ajouter des comptes principaux : saisissez l'adresse e-mail du compte de service (box-collaboration-collector-sa@PROJECT_ID.iam.gserviceaccount.com).
- Attribuer des rôles : sélectionnez Administrateur des objets Storage.
Cliquez sur Enregistrer.

Créer un sujet Pub/Sub

Créez un sujet Pub/Sub auquel Cloud Scheduler publiera des messages et auquel la fonction Cloud Run s'abonnera.

Dans la console GCP, accédez à Pub/Sub > Sujets.
Cliquez sur Create topic (Créer un sujet).
Fournissez les informations de configuration suivantes :
- ID du sujet : saisissez box-collaboration-trigger.
- Conservez les valeurs par défaut des autres paramètres.
Cliquez sur Créer.

Créer une fonction Cloud Run pour collecter les journaux

La fonction Cloud Run est déclenchée par les messages Pub/Sub de Cloud Scheduler pour extraire les journaux de l'API Box et les écrire dans GCS.

Dans la console GCP, accédez à Cloud Run.
Cliquez sur Créer un service.
Sélectionnez Fonction (utilisez un éditeur intégré pour créer une fonction).

Dans la section Configurer, fournissez les informations de configuration suivantes :

Paramètre	Valeur
Nom du service	`box-collaboration-collector`
Région	Sélectionnez la région correspondant à votre bucket GCS (par exemple, `us-central1`).
Runtime (durée d'exécution)	Sélectionnez Python 3.12 ou version ultérieure.

Dans la section Déclencheur (facultatif) :
1. Cliquez sur + Ajouter un déclencheur.
2. Sélectionnez Cloud Pub/Sub.
3. Dans Sélectionner un sujet Cloud Pub/Sub, choisissez le sujet Pub/Sub (box-collaboration-trigger).
4. Cliquez sur Enregistrer.
Dans la section Authentification :
1. Sélectionnez Exiger l'authentification.
2. Consultez Identity and Access Management (IAM).
Remarque : Pub/Sub gère automatiquement l'authentification lors de l'appel de la fonction.
Faites défiler la page vers le bas, puis développez Conteneurs, mise en réseau, sécurité.
Accédez à l'onglet Sécurité :
- Compte de service : sélectionnez le compte de service (box-collaboration-collector-sa).

Accédez à l'onglet Conteneurs :

Cliquez sur Variables et secrets.
Cliquez sur + Ajouter une variable pour chaque variable d'environnement :

Nom de la variable	Exemple de valeur
`GCS_BUCKET`	`box-collaboration-logs`
`GCS_PREFIX`	`box/collaboration/`
`STATE_KEY`	`box/collaboration/state.json`
`BOX_CLIENT_ID`	Saisissez l'ID client Box
`BOX_CLIENT_SECRET`	Saisissez le code secret du client Box.
`BOX_ENTERPRISE_ID`	Saisir l'ID Box Enterprise
`STREAM_TYPE`	`admin_logs_streaming`
`LIMIT`	`500`

Dans la section Variables et secrets, faites défiler la page jusqu'à Requêtes :
- Délai avant expiration de la requête : saisissez 600 secondes (10 minutes).
Accédez à l'onglet Paramètres :
- Dans la section Ressources :
  - Mémoire : sélectionnez 512 Mio ou plus.
  - CPU : sélectionnez 1.
Dans la section Scaling de révision :
- Nombre minimal d'instances : saisissez 0.
- Nombre maximal d'instances : saisissez 100 (ou ajustez en fonction de la charge attendue).
Cliquez sur Créer.
Attendez que le service soit créé (1 à 2 minutes).
Une fois le service créé, l'éditeur de code intégré s'ouvre automatiquement.

Ajouter un code de fonction

Saisissez main dans Point d'entrée de la fonction.

Dans l'éditeur de code intégré, créez deux fichiers :

Premier fichier : main.py:

import functions_framework
from google.cloud import storage
import json
import os
import urllib3
from datetime import datetime, timezone
import base64

# Initialize HTTP client with timeouts
http = urllib3.PoolManager(
    timeout=urllib3.Timeout(connect=5.0, read=30.0),
    retries=False,
)

# Initialize Storage client
storage_client = storage.Client()

TOKEN_URL = "https://api.box.com/oauth2/token"
EVENTS_URL = "https://api.box.com/2.0/events"

@functions_framework.cloud_event
def main(cloud_event):
    """
    Cloud Run function triggered by Pub/Sub to fetch Box enterprise events and write to GCS.

    Args:
        cloud_event: CloudEvent object containing Pub/Sub message
    """

    # Get environment variables
    bucket_name = os.environ.get('GCS_BUCKET')
    prefix = os.environ.get('GCS_PREFIX', 'box/collaboration/')
    state_key = os.environ.get('STATE_KEY', 'box/collaboration/state.json')

    client_id = os.environ.get('BOX_CLIENT_ID')
    client_secret = os.environ.get('BOX_CLIENT_SECRET')
    enterprise_id = os.environ.get('BOX_ENTERPRISE_ID')
    stream_type = os.environ.get('STREAM_TYPE', 'admin_logs_streaming')
    limit = int(os.environ.get('LIMIT', '500'))

    if not all([bucket_name, client_id, client_secret, enterprise_id]):
        print('Error: Missing required environment variables')
        return

    try:
        # Get GCS bucket
        bucket = storage_client.bucket(bucket_name)

        # Get OAuth token
        token = get_token(client_id, client_secret, enterprise_id)

        # Load state (stream position)
        state = load_state(bucket, state_key)
        stream_position = state.get('stream_position')

        print(f'Processing events from stream position: {stream_position}')

        total_events = 0
        idx = 0

        while True:
            # Fetch events page
            page = fetch_events(token, stream_type, limit, stream_position)
            entries = page.get('entries') or []

            if not entries:
                next_pos = page.get('next_stream_position') or stream_position
                if next_pos and next_pos != stream_position:
                    save_state(bucket, state_key, {'stream_position': next_pos})
                break

            # Write page to GCS
            timestamp = datetime.now(timezone.utc).strftime('%Y/%m/%d/%H%M%S')
            blob_name = f"{prefix}{timestamp}-box-events-{idx:03d}.json"
            blob = bucket.blob(blob_name)
            blob.upload_from_string(
                json.dumps(page, separators=(',', ':')),
                content_type='application/json'
            )

            idx += 1
            total_events += len(entries)
            stream_position = page.get('next_stream_position') or stream_position

            # Save state after each page
            if stream_position:
                save_state(bucket, state_key, {'stream_position': stream_position})

            # Break if fewer entries than limit (last page)
            if len(entries) < limit:
                break

        print(f'Successfully processed {total_events} events, final position: {stream_position}')

    except Exception as e:
        print(f'Error processing Box events: {str(e)}')
        raise

def get_token(client_id, client_secret, enterprise_id):
    """Get OAuth 2.0 access token using client credentials grant."""
    fields = {
        'grant_type': 'client_credentials',
        'client_id': client_id,
        'client_secret': client_secret,
        'box_subject_type': 'enterprise',
        'box_subject_id': enterprise_id
    }

    response = http.request(
        'POST',
        TOKEN_URL,
        fields=fields,
        headers={'Content-Type': 'application/x-www-form-urlencoded'}
    )

    token_data = json.loads(response.data.decode('utf-8'))
    return token_data['access_token']

def fetch_events(token, stream_type, limit, stream_position=None, timeout=60, max_retries=5):
    """Fetch events from Box API with retry logic."""
    params = {
        'stream_type': stream_type,
        'limit': str(limit),
        'stream_position': stream_position or 'now'
    }

    # Build query string
    query_string = '&'.join([f"{k}={v}" for k, v in params.items()])
    url = f"{EVENTS_URL}?{query_string}"

    attempt = 0
    backoff = 1.0

    while True:
        try:
            response = http.request(
                'GET',
                url,
                headers={'Authorization': f'Bearer {token}'},
                timeout=timeout
            )

            if response.status == 200:
                return json.loads(response.data.decode('utf-8'))
            elif response.status == 429 and attempt < max_retries:
                # Rate limited - retry with backoff
                retry_after = response.headers.get('Retry-After')
                delay = int(retry_after) if retry_after and retry_after.isdigit() else int(backoff)
                print(f'Rate limited, retrying after {delay} seconds')
                import time
                time.sleep(max(1, delay))
                attempt += 1
                backoff *= 2
                continue
            elif 500 <= response.status <= 599 and attempt < max_retries:
                # Server error - retry with backoff
                print(f'Server error {response.status}, retrying after {backoff} seconds')
                import time
                time.sleep(backoff)
                attempt += 1
                backoff *= 2
                continue
            else:
                raise Exception(f'Box API error: {response.status} {response.data.decode("utf-8")}')
        except Exception as e:
            if attempt < max_retries:
                print(f'Request error: {str(e)}, retrying after {backoff} seconds')
                import time
                time.sleep(backoff)
                attempt += 1
                backoff *= 2
                continue
            raise

def load_state(bucket, key):
    """Load state from GCS."""
    try:
        blob = bucket.blob(key)
        if blob.exists():
            state_data = blob.download_as_text()
            return json.loads(state_data)
    except Exception as e:
        print(f'Warning: Could not load state: {str(e)}')
    return {}

def save_state(bucket, key, state):
    """Save state to GCS."""
    try:
        blob = bucket.blob(key)
        blob.upload_from_string(
            json.dumps(state, separators=(',', ':')),
            content_type='application/json'
        )
    except Exception as e:
        print(f'Warning: Could not save state: {str(e)}')

Deuxième fichier : requirements.txt:

functions-framework==3.*
google-cloud-storage==2.*
urllib3>=2.0.0

Cliquez sur Déployer pour enregistrer et déployer la fonction.
Attendez la fin du déploiement (deux à trois minutes).

Remarque : La configuration du déclencheur Pub/Sub crée automatiquement les abonnements et les autorisations nécessaires.

Créer une tâche Cloud Scheduler

Cloud Scheduler publie des messages sur le sujet Pub/Sub à intervalles réguliers, ce qui déclenche la fonction Cloud Run.

Dans la console GCP, accédez à Cloud Scheduler.
Cliquez sur Créer une tâche.

Fournissez les informations de configuration suivantes :

Paramètre	Valeur
Nom	`box-collaboration-schedule-15min`
Région	Sélectionnez la même région que la fonction Cloud Run.
Fréquence	`/15 * * *` (toutes les 15 minutes)
Fuseau horaire	Sélectionnez un fuseau horaire (UTC recommandé).
Type de cible	Pub/Sub
Topic	Sélectionnez le sujet Pub/Sub (`box-collaboration-trigger`).
Corps du message	`{}` (objet JSON vide)

Cliquez sur Créer.

Options de fréquence de planification

Choisissez la fréquence en fonction du volume de journaux et des exigences de latence :

Fréquence	Expression Cron	Cas d'utilisation
Toutes les 5 minutes	`/5 * * *`	Volume élevé, faible latence
Toutes les 15 minutes	`/15 * * *`	Volume moyen (recommandé)
Toutes les heures	`0 * * * *`	Standard
Toutes les 6 heures	`0 /6 * *`	Traitement par lot à faible volume
Tous les jours	`0 0 * * *`	Collecte de données historiques

Tester l'intégration

Dans la console Cloud Scheduler, recherchez votre job.
Cliquez sur Exécuter de force pour déclencher le job manuellement.
Patientez pendant quelques secondes.
Accédez à Cloud Run > Services.
Cliquez sur le nom de votre fonction (box-collaboration-collector).
Cliquez sur l'onglet Journaux.

Vérifiez que la fonction s'est exécutée correctement. Recherchez les éléments suivants :

Processing events from stream position: ...
Page 1: Retrieved X events
Wrote X records to gs://box-collaboration-logs/box/collaboration/...
Successfully processed X events

Accédez à Cloud Storage > Buckets.
Cliquez sur le nom de votre bucket.
Accédez au dossier de préfixe (box/collaboration/).
Vérifiez qu'un fichier .json a été créé avec le code temporel actuel.

Si vous constatez des erreurs dans les journaux :

HTTP 401 : vérifiez les identifiants de l'API Box dans les variables d'environnement.
HTTP 403 : vérifiez que l'application Box dispose des autorisations requises et qu'elle est autorisée dans la console d'administration.
HTTP 429 : limitation du débit. La fonction effectuera automatiquement une nouvelle tentative avec un intervalle de temps.
Variables d'environnement manquantes : vérifiez que toutes les variables requises sont définies.

Récupérer le compte de service Google SecOps

Google SecOps utilise un compte de service unique pour lire les données de votre bucket GCS. Vous devez accorder à ce compte de service l'accès à votre bucket.

Obtenir l'adresse e-mail du compte de service

Accédez à Paramètres SIEM> Flux.
Cliquez sur Add New Feed (Ajouter un flux).
Cliquez sur Configurer un flux unique.
Dans le champ Nom du flux, saisissez un nom pour le flux (par exemple, Box Collaboration).
Sélectionnez Google Cloud Storage V2 comme Type de source.
Sélectionnez Box comme Type de journal.
Cliquez sur Obtenir un compte de service. Une adresse e-mail unique pour le compte de service s'affiche, par exemple :
```
chronicle-12345678@chronicle-gcp-prod.iam.gserviceaccount.com
```
Copiez cette adresse e-mail pour l'utiliser à l'étape suivante.

Remarque : Chaque instance Google SecOps possède un compte de service unique. N'utilisez pas de comptes de service provenant d'autres documentations ou exemples.

Accorder des autorisations IAM au compte de service Google SecOps

Le compte de service Google SecOps a besoin du rôle Lecteur des objets Storage sur votre bucket GCS.

Accédez à Cloud Storage > Buckets.
Cliquez sur le nom de votre bucket.
Accédez à l'onglet Autorisations.
Cliquez sur Accorder l'accès.
Fournissez les informations de configuration suivantes :
- Ajouter des comptes principaux : collez l'adresse e-mail du compte de service Google SecOps.
- Attribuez des rôles : sélectionnez Lecteur des objets de l'espace de stockage.
Cliquez sur Enregistrer.

Remarque : Si vous prévoyez d'utiliser l'option de suppression "Supprimer les fichiers transférés" ou "Supprimer les fichiers transférés et les répertoires vides", accordez le rôle Administrateur des objets Storage au lieu de Lecteur des objets Storage.

Configurer un flux dans Google SecOps pour ingérer les journaux Box

Accédez à Paramètres SIEM> Flux.
Cliquez sur Add New Feed (Ajouter un flux).
Cliquez sur Configurer un flux unique.
Dans le champ Nom du flux, saisissez un nom pour le flux (par exemple, Box Collaboration).
Sélectionnez Google Cloud Storage V2 comme Type de source.
Sélectionnez Box comme Type de journal.
Cliquez sur Suivant.
Spécifiez les valeurs des paramètres d'entrée suivants :
- URL du bucket Storage : saisissez l'URI du bucket GCS avec le préfixe du chemin d'accès :
```
gs://box-collaboration-logs/box/collaboration/
```
  - Remplacez :
    - box-collaboration-logs : nom de votre bucket GCS.
    - box/collaboration/ : préfixe/chemin d'accès au dossier dans lequel les journaux sont stockés.
  - Exemples :
    - Bucket racine : gs://company-logs/
    - Avec préfixe : gs://company-logs/box-logs/
    - Avec un sous-dossier : gs://company-logs/box/collaboration/
  Remarque : Incluez toujours la barre oblique (/) à la fin de l'URI.
- Option de suppression de la source : sélectionnez l'option de suppression de votre choix :
  - Jamais : ne supprime jamais aucun fichier après les transferts (recommandé pour les tests).
  - Supprimer les fichiers transférés : supprime les fichiers après un transfert réussi.
  - Supprimer les fichiers transférés et les répertoires vides : supprime les fichiers et les répertoires vides après un transfert réussi.
    
    Remarque : Si vous sélectionnez une option de suppression, le compte de service doit disposer du rôle Administrateur des objets Storage au lieu de celui de lecteur. Mettez à jour les autorisations IAM en conséquence.
- Âge maximal des fichiers : incluez les fichiers modifiés au cours des derniers jours. La valeur par défaut est de 180 jours.
- Espace de noms de l'élément : espace de noms de l'élément.
- Libellés d'ingestion : libellé à appliquer aux événements de ce flux.
Cliquez sur Suivant.
Vérifiez la configuration de votre nouveau flux sur l'écran Finaliser, puis cliquez sur Envoyer.

Table de mappage UDM

Champ du journal	Mappage UDM	Logique
additional_details.ekm_id	additional.fields	Valeur extraite de additional_details.ekm_id
additional_details.service_id	additional.fields	Valeur extraite de additional_details.service_id
additional_details.service_name	additional.fields	Valeur extraite de additional_details.service_name
additional_details.shared_link_id	additional.fields	Valeur extraite de additional_details.shared_link_id
additional_details.size	target.file.size	Valeur extraite de additional_details.size
additional_details.version_id	additional.fields	Valeur extraite de additional_details.version_id
created_at	metadata.event_timestamp	Valeur extraite de created_at
created_by.id	principal.user.userid	Valeur extraite de created_by.id
created_by.login	principal.user.email_addresses	Valeur extraite de created_by.login
created_by.name	principal.user.user_display_name	Valeur extraite de created_by.name
event_id	metadata.product_log_id	Valeur extraite de event_id
event_type	metadata.product_event_type	Valeur extraite de event_type
ip_address	principal.ip	Valeur extraite de ip_address
source.item_id	target.file.product_object_id	Valeur extraite de source.item_id
source.item_name	target.file.full_path	Valeur extraite de source.item_name
source.item_type	Non mappés
source.login	target.user.email_addresses	Valeur extraite de source.login
source.name	target.user.user_display_name	Valeur extraite de source.name
source.owned_by.id	target.user.userid	Valeur extraite de source.owned_by.id
source.owned_by.login	target.user.email_addresses	Valeur extraite de source.owned_by.login
source.owned_by.name	target.user.user_display_name	Valeur extraite de source.owned_by.name
source.parent.id	Non mappés
source.parent.name	Non mappés
source.parent.type	Non mappés
source.type	Non mappés
type	metadata.log_type	Valeur extraite du type
metadata.vendor_name		Valeur codée en dur
metadata.product_name		Valeur codée en dur
security_result.action		Dérivé de event_type. Si event_type est FAILED_LOGIN, alors BLOCK. Si event_type est USER_LOGIN, alors ALLOW. Sinon, UNSPECIFIED.
extensions.auth.type		Dérivé de event_type. Si event_type est USER_LOGIN ou ADMIN_LOGIN, alors MACHINE, sinon UNSPECIFIED.
extensions.auth.mechanism		Dérivé de event_type. Si event_type est USER_LOGIN ou ADMIN_LOGIN, alors USERNAME_PASSWORD, sinon UNSPECIFIED.

Vous avez encore besoin d'aide ? Obtenez des réponses de membres de la communauté et de professionnels Google SecOps.