Mehrstufige Abfragen in YARA-L erstellen

Unterstützt in:

Google SecOps SIEM

In diesem Dokument wird beschrieben, wie Sie mit mehrstufigen Abfragen in YARA-L die Ausgabe einer Abfragephase direkt in die Eingabe einer nachfolgenden Phase einfügen können. So haben Sie mehr Kontrolle über die Datentransformation als bei einer einzelnen, monolithischen Abfrage.

Mehrstufige Anfragen in bestehende Funktionen einbinden

Mehrphasenabfragen funktionieren in Verbindung mit den folgenden vorhandenen Funktionen in Google Security Operations:

Regeln für zusammengesetzte Erkennungen: Mehrstufige Abfragen ergänzen Regeln für zusammengesetzte Erkennungen. Im Gegensatz zu zusammengesetzten Regeln können bei mehrstufigen Abfragen, bei denen die Suche verwendet wird, Ergebnisse in Echtzeit zurückgegeben werden.
Zeiträume und Regeln für mehrere Ereignisse:Mit mehrstufigen Abfragen können Sie Anomalien erkennen, indem Sie verschiedene Zeiträume in Ihren Daten vergleichen. Sie können beispielsweise mit den ersten Abfragephasen eine Baseline über einen längeren Zeitraum erstellen und dann mit einer späteren Phase die aktuelle Aktivität anhand dieser Baseline bewerten. Sie können auch Regeln mit mehreren Ereignissen verwenden, um einen ähnlichen Vergleich zu erstellen.

Mehrstufige Abfragen in YARA-L werden sowohl in Dashboards als auch in Search unterstützt.

Mit Joins lassen sich Daten aus mehreren Quellen in Beziehung setzen, um mehr Kontext für eine Untersuchung zu erhalten. Durch die Verknüpfung von zugehörigen Ereignissen, Entitäten und anderen Daten können Sie komplexe Angriffsszenarien untersuchen. Weitere Informationen finden Sie unter Joins in Search verwenden.

Mehrstufige YARA-L-Syntax definieren

Beachten Sie bei der Konfiguration einer mehrstufigen Abfrage Folgendes:

Phase begrenzen: Mehrphasenabfragen müssen zusätzlich zur Root-Phase zwischen 1 und 4 benannte Phasen enthalten.
Syntax für die Reihenfolge: Definieren Sie immer zuerst die Syntax für die benannte Phase und dann die Syntax für die Root-Phase.

Mehrstufige YARA-L-Abfrage erstellen

So erstellen Sie eine mehrstufige YARA-L-Abfrage:

Struktur und Syntax von Phasen

Klicken Sie auf Prüfung > Suche. Beachten Sie beim Definieren Ihrer Abfragephasen die folgenden strukturellen Anforderungen:

Syntax: Verwenden Sie die folgende Syntax, um jede Phase zu benennen und von anderen Phasen zu trennen:

stage <stage name> { }

Geschweifte Klammern: Setzen Sie die gesamte Phasen-Syntax in geschweifte Klammern {}.
Reihenfolge: Definieren Sie die Syntax für alle benannten Phasen, bevor Sie die Root-Phase definieren.
Verweise: In jeder Phase kann auf Phasen verwiesen werden, die zuvor in der Abfrage definiert wurden.
Stammphase: Eine Abfrage muss eine Stammphase haben, die nach allen benannten Phasen verarbeitet wird.

In der folgenden Beispielphase daily_stats werden tägliche Netzwerkstatistiken erfasst:

stage daily_stats {
  metadata.event_type = "NETWORK_CONNECTION"
  $source = principal.hostname
  $target = target.ip
  $source != ""
  $target != ""
  $total_bytes = cast.as_int(network.sent_bytes + network.received_bytes)
  match:
    $source, $target by day
  outcome:
    $exchanged_bytes = sum($total_bytes)
}

Ausgabe der Zugriffsphase

Die Ausgabe einer benannten Phase ist für nachfolgende Phasen über Phasenfelder zugänglich. Die Staging-Felder entsprechen den Variablen match und outcome der Phase und können ähnlich wie Felder des einheitlichen Datenmodells (Unified Data Model, UDM) verwendet werden.

Verwenden Sie die folgende Syntax, um auf ein Phasenfeld zuzugreifen:

$<stage name>.<variable name>

Zeitstempel für Zugriffszeitraum (optional)

Wenn in einer benannten Phase ein Hop-, gleitendes oder rollierendes Fenster verwendet wird, können Sie mit diesen reservierten Feldern auf den Fensteranfang und das Fensterende für jede Ausgaberow zugreifen:

$<stage name>.window_start
$<stage name>.window_end

window_start und window_end sind Ganzzahlfelder, die in Sekunden seit der Unix-Epoche angegeben werden. Fenster in verschiedenen Phasen können unterschiedlich groß sein.

Beschränkungen

Für mehrstufige Abfragen gelten die folgenden funktionalen und strukturellen Einschränkungen:

Strukturelle und phasenbezogene Limits

Root-Phase: Pro Abfrage ist nur eine Root-Phase zulässig.
Benannte Phasen: Es werden maximal vier benannte Phasen unterstützt.
Verweise auf Phasen: Eine Phase kann nur auf Phasen verweisen, die in derselben Abfrage logisch vor ihr definiert sind.
Joins: In allen Phasen sind maximal vier Joins ohne Datentabelle zulässig.
Anforderung für Ergebnis: Jede benannte Phase (mit Ausnahme der Stammphase) muss entweder einen match- oder einen outcome-Abschnitt enthalten. Für den Abschnitt outcome ist keine Aggregation erforderlich.

Zeitfenster- und Kompatibilitätslimits

Unterstützung von Funktionen: Mehrstufige Abfragen werden in Search und Dashboards unterstützt, nicht aber in Regeln.
Fenstertypen: Vermeiden Sie es, verschiedene Fenstertypen in einer einzelnen Abfrage zu mischen.
Fensterabhängigkeit: Eine Phase mit einem Hop- oder gleitenden Fenster kann nicht von einer anderen Phase mit einem Hop- oder gleitenden Fenster abhängen.
Größe des Tumbling-Fensters: Die Größe von Tumbling-Fenstern in verschiedenen Phasen kann variieren, der Unterschied darf jedoch nicht mehr als 720-mal so groß sein.

Beispiel: Differenz bei der Aggregation von Phasen

Die folgende Beispielkonfiguration für das Fenster ist nicht zulässig:

stage monthly_stats {
  metadata.event_type = "NETWORK_CONNECTION"
    $source = principal.hostname
    $target = target.ip
    $source != ""
    $target != ""
    $total_bytes = cast.as_int(network.sent_bytes + network.received_bytes)

  match:
    $source, $target by month

  outcome:
    $exchanged_bytes = sum($total_bytes)
}

$source = $monthly_stats.source
$target = $monthly_stats.target

match:
    $source, $target by minute

Wenn in der Phase monthly_stats Daten nach Monat aggregiert werden und in der Root-Phase die Ausgabe von monthly_stats nach Minute aggregiert wird, entspricht jede Zeile aus monthly_stats 43.200 Zeilen in der Root-Phase (da es 43.200 Minuten in einem Monat gibt).

Beschränkungen für Phasen und Abfragen

Für jede einzelne Phase einer mehrphasigen Abfrage gelten die folgenden Einschränkungen:

Die meisten Einschränkungen, die für eine einphasige Abfrage gelten, gelten auch für jede einzelne Phase:
- Ausgabeanforderung: In jeder Phase muss mindestens eine Abgleichs- oder Ergebnisvariable (Phasenfeld) ausgegeben werden.
- Fenster im Join: Die maximale Fenstergröße (Hop, Tumbling oder Sliding) in einem Join beträgt 2 Tage.
- Maximale Anzahl von Ergebnisvariablen:
  - 20 für Kunden, die nicht zugestimmt haben, das Limit für die Ergebnisvariable zu erhöhen
  - 50 für Kunden, die das höhere Limit für Ergebnisvariablen aktiviert haben
- Mindest- und Höchstgröße eines Hop-Fensters:
- Maximale Anzahl von Elementen in einer Outcome-Variablen mit Arraywerten.
Für mehrstufige Abfragen gelten dieselben Einschränkungen wie für Statistikabfragen:
- Statistikabfragen: 120 QPH (API und Benutzeroberfläche)
- Suchansichten aus Google SecOps: 100 Ansichten pro Minute
- Mehrstufige Joins werden in der Benutzeroberfläche und in der EventService.UDMSearch API unterstützt, nicht aber in der SearchService.UDMSearch API. Mehrstufige Abfragen ohne Joins werden auch in der Benutzeroberfläche unterstützt.

Einschränkungen für Ereignisse und global

Maximale Anzahl von Ereignissen:

Die Anzahl der Ereignisse, die in mehrstufigen Abfragen gleichzeitig verarbeitet werden können, ist streng begrenzt:

UDM-Ereignisse: Es sind maximal zwei UDM-Ereignisse zulässig.
ECG-Ereignisse (Entity Context Graph): Es ist maximal ein ECG-Ereignis zulässig.

Globale Abfragebeschränkungen:

Diese Grenzwerte sind plattformweite Einschränkungen, die festlegen, wie weit zurückliegende Daten und wie viele Daten eine mehrstufige Abfrage zurückgeben kann.

Der maximale Zeitraum für eine Standardabfrage beträgt 30 Tage.
Die maximale Gesamtgröße des Ergebnissatzes beträgt 10.000 Ergebnisse.

Beispiele für mehrstufige Abfragen

Die Beispiele in diesem Abschnitt veranschaulichen, wie Sie eine vollständige mehrstufige YARA-L-Abfrage erstellen können.

Beispiel: Suche nach ungewöhnlich aktiven Netzwerkverbindungen (Stunden)

In diesem mehrstufigen YARA-L-Beispiel werden IP-Adressenpaare mit überdurchschnittlicher Netzwerkaktivität identifiziert. Dabei werden Paare berücksichtigt, die über einen Zeitraum von mehr als drei Stunden eine hohe Aktivität aufweisen. Die Abfrage enthält zwei erforderliche Komponenten: die benannte Phase hourly_stats und die Phase root.

In der hourly_stats-Phase wird nach principal.ip- und target.ip-Paaren mit hoher Netzwerkaktivität gesucht.

In dieser Phase wird ein einzelner stündlicher Wert für die folgenden Felder zurückgegeben:

Statistiken für die Quell-IP-Adresse (String): $hourly_stats.src_ip
Statistiken für die Ziel-IP-Adresse (String): $hourly_stats.dst_ip
Statistiken für die Anzahl der Ereignisse (Ganzzahl): $hourly_stats.count
Standardabweichung der empfangenen Byte (Gleitkommazahl): $hourly_stats.std_recd_bytes
Durchschnittliche empfangene Byte (Gleitkommazahl): $hourly_stats.avg_recd_bytes
Startzeit des Stundenbereichs in Sekunden seit der Unix-Epoche (Ganzzahl): $hourly_stats.window_start
Ende des Stundenbereichs in Sekunden seit der Unix-Epoche (Ganzzahl): $hourly_stats.window_end

In der Root-Phase wird die Ausgabe der Phase hourly_stats verarbeitet. Es werden Statistiken für principal.ip- und target.ip-Paare mit Aktivitäten berechnet, die den von $hourly_stats angegebenen Grenzwert überschreiten. Anschließend wird nach Paaren mit mehr als drei Stunden hoher Aktivität gefiltert.


stage hourly_stats {
  metadata.event_type = "NETWORK_CONNECTION"
  $src_ip = principal.ip
  $dst_ip = target.ip
  $src_ip != ""
  $dst_ip != ""

  match:
    $src_ip, $dst_ip by hour

  outcome:
    $count = count(metadata.id)
    $avg_recd_bytes = avg(network.received_bytes)
    $std_recd_bytes = stddev(network.received_bytes)

  condition:
    $avg_recd_bytes > 100 and $std_recd_bytes > 50
}

$src_ip = $hourly_stats.src_ip
$dst_ip = $hourly_stats.dst_ip
$time_bucket_count = strings.concat(timestamp.get_timestamp($hourly_stats.window_start), "|", $hourly_stats.count)

match:
 $src_ip, $dst_ip

outcome:
 $list = array_distinct($time_bucket_count)
 $count = count_distinct($hourly_stats.window_start)

condition:
 $count > 3

Wenn Sie die Abgleichsbedingung in der Root-Phase wie folgt ändern, können Sie eine fensterbasierte Aggregation nach Tag für die mehrstufige Abfrage einführen.

match:
 $src_ip, $dst_ip by day

Beispiel: Suche nach ungewöhnlich aktiven Netzwerkverbindungen (mit Z-Score)

Bei dieser mehrstufigen Abfrage wird die durchschnittliche tägliche Netzwerkaktivität mit der heutigen Aktivität verglichen. Dazu wird ein Z-Score berechnet, der die Anzahl der Standardabweichungen vom Mittelwert angibt. Mit dieser Abfrage wird effektiv nach ungewöhnlich hoher Netzwerkaktivität zwischen internen Assets und externen Systemen gesucht.

Voraussetzung: Der Abfragezeitraum muss mindestens zwei Tage umfassen und den aktuellen Tag einschließen, damit der berechnete Z-Score wirksam ist.

Diese mehrstufige Abfrage umfasst die Phase daily_stats und die Phase root, die zusammen den Z-Score für die Netzwerkaktivität berechnen:

In der Phase daily_stats erfolgt die erste tägliche Zusammenfassung. Es wird die Gesamtzahl der Byte berechnet, die täglich für jedes IP-Paar (source und target) ausgetauscht werden. Außerdem werden die folgenden Phasenfelder zurückgegeben (entsprechend den Spalten in den Ausgaberow):
- $daily_stats.source: Singular, String
- $daily_stats.target: Singular, String
- $daily_stats.exchanged_bytes: Singular, Ganzzahl
- $daily_stats.window_start: Singular, Ganzzahl
- $daily_stats.window_end: Singular, Ganzzahl
In der Root-Phase wird die Ausgabe der daily_stats-Phase für jedes IP-Paar zusammengefasst. Es werden der Durchschnitt und die Standardabweichung der täglich ausgetauschten Bytes für den gesamten Suchbereich sowie die heute ausgetauschten Bytes berechnet. Anhand dieser drei berechneten Werte wird der Z-Score ermittelt.
In der Ausgabe werden die Z-Scores für alle IP-Paare des aktuellen Tages in absteigender Reihenfolge aufgeführt.

// Calculate the total bytes exchanged per day by source and target

stage daily_stats {
  metadata.event_type = "NETWORK_CONNECTION"
  $source = principal.hostname
  $target = target.ip
  $source != ""
  $target != ""
  $total_bytes = cast.as_int(network.sent_bytes + network.received_bytes)
  match:
    $source, $target by day
  outcome:
    $exchanged_bytes = sum($total_bytes)
}

// Calculate the average per day over the time window and compare with the bytes
   exchanged today

$source = $daily_stats.source
$target = $daily_stats.target
$date = timestamp.get_date($daily_stats.window_start)

match:
  $source, $target

outcome:
  $today_bytes = sum(if($date = timestamp.get_date(timestamp.current_seconds()), $daily_stats.exchanged_bytes, 0))
  $average_bytes = window.avg($daily_stats.exchanged_bytes)
  $stddev_bytes = window.stddev($daily_stats.exchanged_bytes)
  $zscore = ($today_bytes - $average_bytes) / $stddev_bytes

order:
  $zscore desc

Nicht aggregierte Variablen aus Phasen exportieren

Benannte Phasen können einen nicht aggregierten outcome-Abschnitt enthalten. Das bedeutet, dass Variablen, die in diesem outcome-Abschnitt definiert sind, direkt aus der Phase ausgegeben werden. Nachfolgende Phasen können ohne gruppierte Aggregation als Phasenfelder darauf zugreifen.

Beispiel: Nicht aggregierte Variable exportieren

In diesem Beispiel wird gezeigt, wie nicht aggregierte Variablen exportiert werden. Beachten Sie die folgende Logik:

In der top_5_bytes_sent-Phase wird nach den fünf Ereignissen mit der höchsten Netzwerkaktivität gesucht.
In der top_5_bytes_sent-Phase werden die folgenden Phasenfelder ausgegeben, die den Spalten in den Ausgaberow entsprechen:
- $top_5_bytes_sent.bytes_sent: Singular, Ganzzahl
- $top_5_bytes_sent.timestamp_seconds: Singular, Ganzzahl
In der Phase root werden die neuesten und frühesten Zeitstempel für die fünf Ereignisse mit der höchsten Netzwerkaktivität berechnet.

stage top_5_bytes_sent {
  metadata.event_type = "NETWORK_CONNECTION"
  network.sent_bytes > 0

  outcome:
    $bytes_sent = cast.as_int(network.sent_bytes)
    $timestamp_seconds = metadata.event_timestamp.seconds

  order:
    $bytes_sent desc 
  
  limit:
    5
}

outcome:
  $latest_timestamp = timestamp.get_timestamp(max($top_5_bytes_sent.timestamp_seconds))
  $earliest_timestamp = timestamp.get_timestamp(min($top_5_bytes_sent.timestamp_seconds))

Fensterfunktionen in mehrstufigen Abfragen implementieren

Mehrphasenabfragen unterstützen alle Arten von Fenstern (Hop, Sliding und Tumbling) in benannten Phasen. Wenn eine benannte Phase ein Fenster enthält, sind der Fensterstart und das Fensterende für jede Ausgaberow über die folgenden reservierten Felder verfügbar:

$<stage name>.window_start
$<stage name>.window_end

Beispiel: Hop-Window

Das folgende Beispiel veranschaulicht, wie Sie Hop-Fenster in einer mehrstufigen Abfrage verwenden können:

In der hourly_stats-Phase wird nach IP-Paaren gesucht, die innerhalb derselben Stunde eine hohe Netzwerkaktivität aufweisen.
hourly_stats gibt die folgenden Phasenfelder aus, die den Spalten in den Ausgabezeilen entsprechen:
- $hourly_stats.src_ip: Singular, String
- $hourly_stats.dst_ip: Singular, String
- $hourly_stats.count: Singular, Ganzzahl
- $hourly_stats.std_recd_bytes: Singular, Gleitkommazahl
- $hourly_stats.avg_recd_bytes: Singular, Gleitkommazahl
- $hourly_stats.window_start: Singular, Ganzzahl
- $hourly_stats.window_end: Singular, Ganzzahl
In der Root-Phase werden IP-Paare mit mehr als 3 Stunden hoher Aktivität herausgefiltert. Die Stunden können sich aufgrund der Verwendung eines Hop-Fensters in der hourly_stats-Phase überschneiden.

stage hourly_stats {
  metadata.event_type = "NETWORK_CONNECTION"
  $src_ip = principal.ip
  $dst_ip = target.ip
  $src_ip != ""
  $dst_ip != ""

  match:
    $src_ip, $dst_ip over 1h

  outcome:
    $count = count(metadata.id)
    $avg_recd_bytes = avg(network.received_bytes)
    $std_recd_bytes = stddev(network.received_bytes)

  condition:
    $avg_recd_bytes > 100 and $std_recd_bytes > 50
}

$src_ip = $hourly_stats.src_ip
$dst_ip = $hourly_stats.dst_ip
$time_bucket_count = strings.concat(timestamp.get_timestamp($hourly_stats.window_start), "|", $hourly_stats.count)

match:
 $src_ip, $dst_ip

outcome:
 $list = array_distinct($time_bucket_count)
 $count = count_distinct($hourly_stats.window_start)

condition:
 $count > 3

Joins in mehrstufigen Abfragen

Inner Joins werden innerhalb und zwischen den Phasen von Abfragen mit mehreren Phasen unterstützt. Die Inner Join-Funktion unterstützt die folgenden Typen:

UDM und UDM
UDM und EKG
UDM und DataTable

Im Kontext von Joins bezieht sich eine Fensterphase auf eine Phase mit einem Match-Abschnitt, der ein Fenster enthält. Im Gegensatz dazu werden in einer Tabellenphase keine Fenster ausgegeben.

Im folgenden Beispiel wird gezeigt, wie ein Join ohne Entsprechung zwischen UDM-Ereignissen und einer Tabellenphase in einer mehrstufigen Abfrage konfiguriert wird.

In der Phase median wird die Anzahl der gesendeten Bytes für jedes Quellhost- und Ziel-IP-Paar berechnet.
In der Phase median werden die folgenden Phasenfelder ausgegeben, die den Spalten in den Ausgabezeilen entsprechen:
- $median.host: Singular, String
- $median.target: Singular, String
- $median.median: Singular, Gleitkommazahl
In der Phase absolute_deviations wird jedes UDM-Ereignis mit der Zeile aus median für dasselbe Quellhost- und Ziel-IP-Paar zusammengeführt. Für jedes UDM-Ereignis wird der absolute Wert der gesendeten Byte berechnet.
absolute_deviations gibt die folgenden Stufenfelder aus, die den Spalten in den Ausgabezeilen entsprechen:
- $absolute_deviations.host: Singular, String
- $absolute_deviations.target: Singular, String
- $absolute_deviations.absolute_deviation: Singular, Gleitkommazahl
In der Root-Phase wird der Mittelwert der absoluten Abweichungen der gesendeten Byte für alle UDM-Ereignisse berechnet.

stage median {
  metadata.event_type = "NETWORK_CONNECTION"
  $host = principal.hostname
  $target = target.ip

  match:
    $host, $target

  outcome:
    $median = window.median(network.sent_bytes, true)
}

stage absolute_deviations {
  metadata.event_type = "NETWORK_CONNECTION"
  $join_host = principal.hostname
  $join_host = $median.host
  $join_target = target.ip[0]
  $join_target = $median.target

  outcome:
    $host = $join_host
    $target = $join_target
    $absolute_deviation = math.abs(network.sent_bytes - $median.median)
}

$host = $absolute_deviations.host
$target = $absolute_deviations.target

match:
  $host, $target

outcome:
  $mean_absolute_deviation = avg($absolute_deviations.absolute_deviation)

Beispiel: Join ohne Übereinstimmungen zwischen Fenster- und Tabellenphase

Im folgenden Beispiel wird veranschaulicht, wie Sie einen Join ohne Entsprechung zwischen einer Window-Phase und einer Tabellenphase in einer mehrphasigen Abfrage konfigurieren.

In der Phase hourly_stats werden die insgesamt gesendeten Byte für jedes Quell- und Zielhostpaar und jeden Stunden-Bucket berechnet.
In der Phase hourly_stats werden die folgenden Phasenfelder ausgegeben, die den Spalten in den Ausgabezeilen entsprechen:
- $hourly_stats.source_host: Singular, String
- $hourly_stats.dst_host: Singular, String
- $hourly_stats.total_bytes_sent: Singular, Gleitkommazahl
- $hourly_stats.window_start: Singular, Ganzzahl
- $hourly_stats.window_end: Singular, Ganzzahl
In der Phase agg_stats werden der Durchschnitt und die Standardabweichung der Byte pro Stunde für jedes Quell- und Zielhostpaar berechnet.
agg_stats gibt die folgenden Phasenfelder aus, die den Spalten in den Ausgabezeilen entsprechen:
- $agg_stats.source_host: Singular, String
- $agg_stats.dst_host: Singular, String
- $agg_stats.avg_bytes_sent: Singular, Gleitkommazahl
- $agg_stats.stddev_bytes_sent: Singular, Gleitkommazahl
In der Root-Phase wird jede Zeile aus hourly_stats mit der Zeile aus agg_stats für dasselbe Quell- und Zielhostpaar zusammengeführt. Für jedes Quell- und Zielhostpaar wird der Z-Score anhand der insgesamt gesendeten Byte für diesen Hostpaar-Bucket und der aggregierten Statistiken berechnet.

stage hourly_stats {
 $source_host = principal.hostname
 $dst_host = target.hostname
 principal.hostname != ""
 target.hostname != ""
 match:
   $source_host, $dst_host by hour
 outcome:
   $total_bytes_sent = sum(cast.as_int(network.sent_bytes))
}

stage agg_stats {
  $source_host = $hourly_stats.source_host
  $dst_host = $hourly_stats.dst_host
  match:
    $source_host, $dst_host
  outcome:
   $avg_bytes_sent = avg($hourly_stats.total_bytes_sent)
   $stddev_bytes_sent = stddev($hourly_stats.total_bytes_sent)
}

$source_host = $agg_stats.source_host
$source_host = $hourly_stats.source_host

$dst_host = $agg_stats.dst_host
$dst_host = $hourly_stats.dst_host

outcome:
  $hour_bucket = timestamp.get_timestamp($hourly_stats.window_start)
  $z_score = ($hourly_stats.total_bytes_sent - $agg_stats.avg_bytes_sent)/$agg_stats.stddev_bytes_sent

Cross-Joins in mehrstufigen Abfragen

Wenn Sie Google SecOps Search oder Dashboards verwenden, können Sie mit Cross-Joins in mehrstufigen Abfragen einzelne UDM-Ereignisdaten mit aggregierten Statistiken vergleichen, die in anderen YARA-L-Phasen berechnet werden.

In YARA-L funktioniert das Keyword cross join mit einer Phase mit einem Limit von 1. Dadurch wird nur eine Zeile zurückgegeben.

Wenn ein Cross Join zwischen einer Phase mit einem Limit von 1 und einem anderen Dataset (z. B. UDM-Ereignisse) verwendet wird, wird die einzelne Zeile der Ausgabe der Phase an jede Zeile des anderen Datasets angehängt. Dadurch werden die Ereignisdaten mit den Gesamtstatistiken angereichert.

Beispiel: Ungewöhnliche Anmeldeaktivitäten finden

Im folgenden Beispiel werden die Nutzer identifiziert, die sich häufiger als normal anmelden. Dazu wird die Anzahl der Logins jedes Nutzers (mit der user_login_counts-Phase) mit der durchschnittlichen Anzahl der Logins aller Nutzer (mit der total_users-Phase) verglichen. Nutzer, die sich ungewöhnlich oft anmelden, können in den Suchergebnissen aussortiert werden.

Anschließend verwenden Sie das Keyword „cross join“, um die Ergebnisse aus der total_users-Phase mit den Ergebnissen aus der user_login_counts-Phase zu verknüpfen.

stage user_login_counts {
    $user = principal.user.userid
    metadata.event_type = "USER_LOGIN"
    security_result.action = "ALLOW"

    match:
        $user

    outcome:
        $login_count = count(metadata.id)
}

stage total_users {
    outcome:
        $count = count($user_login_counts.user)
    limit: 
        1
}

cross join $total_users, $user_login_counts

$login_count = $user_login_counts.login_count
$user = $user_login_counts.user
$tot_users = $total_users.count

// all users who logged in the same number of times are grouped together.
match:
    $login_count
outcome:
    $num_users = count($user)
    $frequency_percent = (count($user) / max($tot_users) ) * 100

Bekannte Probleme

Wir empfehlen, die folgenden Einschränkungen und empfohlenen Problemumgehungen bei der Implementierung von mehrstufigen Abfragen zu berücksichtigen:

Alle Abfragen mit mehreren Phasen verhalten sich wie Statistik-Suchanfragen. Die Ausgabe besteht aus aggregierten Statistiken und nicht aus nicht aggregierten Ereignissen oder Datentabellenzeilen.
Die Leistung von Joins mit UDM- und Entitätsereignissen auf einer Seite kann aufgrund der Größe dieses Datasets gering sein. Wir empfehlen dringend, die UDM- und Entitätsereignisse auf der Join-Seite so weit wie möglich zu filtern (z. B. nach Ereignistyp).

Allgemeine Informationen zu empfohlenen Vorgehensweisen finden Sie unter Best Practices für YARA-L. Informationen speziell zu Joins finden Sie unter Best Practices.

Benötigen Sie weitere Hilfe? Antworten von Community-Mitgliedern und Google SecOps-Experten erhalten