Grafana-Dashboards zum Überwachen von Spanner Omni verwenden

Mit Grafana-Dashboards können Sie den Zustand und die Leistung Ihrer Spanner Omni-Bereitstellungen überwachen. Auf diesen Dashboards werden Spanner Omni-Messwerte visualisiert, die in Prometheus aufgenommen wurden. So erhalten Sie umfassende Einblicke in den Betriebsstatus Ihrer Bereitstellung. Sie erhalten Einblick in den allgemeinen Systemzustand, den Ressourcenverbrauch und wichtige interne Prozesse.

Dashboard-Inventar

Die folgende Tabelle enthält eine allgemeine Zusammenfassung der verfügbaren Dashboards:

Dashboard Wichtige Messwerte Hauptzweck
Übersicht QPS, Latenz, Durchsatz Überwachen Sie die allgemeine Bereitstellungsleistung, einschließlich Abfragen pro Sekunde (QPS), Anfragelatenz und Datendurchsatz.
Systemstatistiken CPU, Erinnerung, Wartezeit für Sperre Konzentrieren Sie sich auf den Ressourcenverbrauch und den Zustand auf Datenbankebene (z. B. CPU, Arbeitsspeicher und Wartezeit bei Sperren) für ausgewählte Datenbanken.
Bereitstellungsstatistiken CPU, Arbeitsspeicher und Netzwerknutzung Detaillierte Einblicke in den gesamten Ressourcenverbrauch bei der Bereitstellung und in die Netzwerkstatistiken.
Spanner Omni-Dateisystem Dateivorgänge, Latenz und Durchsatz Sie können die zugrunde liegenden Dateisystemvorgänge, Leistung, Latenz und den Durchsatz überwachen.
gRPC RPC-Anzahl, ‑Status und ‑Latenz Detaillierte RPC-Statistiken für die serverseitige und clientseitige Kommunikation erfassen.
Verdichtungen Erfolgs- und Fehlerrate bei der Komprimierung, Komprimierungsverzögerung Die Leistung der Hintergrunddatenpflege wird visualisiert. Dabei liegt der Fokus auf den Erfolgs- und Fehlerraten bei der Komprimierung sowie auf der Komprimierungsverzögerung.
Aufteilungen, Zusammenführungen und Umzüge Anzahl der Aufteilungen, Zusammenführungen und Verschiebungen; Gruppengröße Behalten Sie die dynamische Verteilung von Daten im Blick, einschließlich Verzeichnisvorgängen (Aufteilungen, Zusammenführungen und Verschiebungen), der Größe von Datengruppen und potenziellen Hotspots.
Tablets Anzahl der Tabletten, Lastverteilung Detaillierte Einblicke in Tablet-Statistiken, ‑Vorgänge und ‑Lastverteilung sowie Identifizierung potenzieller Hotspots.
TrueTime Abweichungen, Unsicherheit, SLA-Verstöße Zustand und Zuverlässigkeit des Spanner Omni TrueTime-Dienstes überwachen, einschließlich Abweichung, Unsicherheit und SLA-Verstöße.
Freigegebenes Protokoll Schreib- und Sortierfehlerrate Leistung von freigegebenen Logs überwachen, insbesondere Schreib- und Sortierfehlerraten.

Im Folgenden sind einige der Diagramme aufgeführt, die in den Dashboards verfügbar sind:

  • Rechenkapazität (vCPU): Die Gesamtzahl der vCPUs, die für die Bereitstellung bereitgestellt wurden.

  • Arbeitsspeicherkapazität: Der gesamte physische Arbeitsspeicher, der für die Bereitstellung bereitgestellt wird.

  • Speicherkapazität: Die gesamte und verfügbare Speicherkapazität des Dateisystems.

  • Knotenstatus: Hier wird die Anzahl der Server im Deployment insgesamt und die Anzahl der fehlerhaften Server erfasst.

  • Compute Utilization (Compute-Auslastung): Der Prozentsatz der gesamten vCPU-Kapazität, die verwendet wird.

  • Memory Utilization (Arbeitsspeichernutzung): Gesamte Arbeitsspeichernutzung für die Bereitstellung. Die Nutzung ist hoch, da Spanner Omni den Leerlaufarbeitsspeicher für Cachezwecke verwendet.

  • Speicherauslastung: Der Prozentsatz der verwendeten Gesamtspeicherkapazität.

  • Verwendeter Speicher pro vCPU: Das Verhältnis des insgesamt verwendeten Speichers zur Gesamtzahl der vCPU.

  • Server: Eine detaillierte Tabelle mit Messwerten pro Server und Zone für die CPU-Auslastung, die Arbeitsspeicherauslastung, die Betriebszeit, die gesamte vCPU, den gesamten Arbeitsspeicher, den verwendeten Speicher und die Speicherkapazität.

Dashboard für Systemstatistiken

Das Systemstatistik-Dashboard konzentriert sich auf den Zustand und die Leistung der Datenbanken in der Bereitstellung. Dieses Dashboard enthält die folgenden Diagramme:

  • Übersicht zur CPU-Auslastung: Die gesamte CPU-Auslastung der Datenbank, aggregiert über die ausgewählten Server hinweg.

  • CPU-Auslastung nach Nutzer und System: Die Auslastung von CPU in der ausgewählten Datenbank, gruppiert nach Nutzer- und Systemaufgaben und Priorität.

  • CPU-Auslastung nach Vorgangstyp: Auslastung von CPU, gruppiert nach Vorgangstyp für die ausgewählte Datenbank, aggregiert über die ausgewählten Server hinweg.

  • CPU-Auslastung nach Vorgangstyp – hohe Priorität: Die Auslastung von CPU, gruppiert nach Vorgangstyp und gefiltert nach hoher Priorität für die ausgewählte Datenbank, aggregiert über die ausgewählten Server.

  • CPU-Auslastung nach Vorgangstyp – mittlere Priorität: Auslastung von CPU, gruppiert nach Vorgangstyp und gefiltert nach mittlerer Priorität für die ausgewählte Datenbank, aggregiert über die ausgewählten Server hinweg.

  • CPU-Auslastung nach Vorgangstyp – niedrige Priorität: Auslastung von CPU, gruppiert nach Vorgangstyp und gefiltert nach niedriger Priorität für die ausgewählte Datenbank, aggregiert über die ausgewählten Server hinweg.

  • Anfragelatenz (P50, P90, P99): Latenz in einer ausgewählten Datenbank, gruppiert nach Lese- und Schreibmethoden auf den ausgewählten Servern.

  • Anfragelatenz nach Methode (P50, P90, P99): Latenz in einer ausgewählten Datenbank, gruppiert nach API-Methoden auf den ausgewählten Servern.

  • Transaktionslatenz (P50, P90, P99): Anfragelatenz in einer ausgewählten Datenbank, gruppiert nach Transaktionstyp und Leader-Beteiligung auf den ausgewählten Servern.

  • Durchsatz: Lese- und Schreibdurchsatz in einer ausgewählten Datenbank auf ausgewählten Servern.

  • Durchsatz nach Methode: Der Durchsatz in einer ausgewählten Datenbank, gruppiert nach Methode auf ausgewählten Servern.

  • Vorgänge pro Sekunde: Vorgänge pro Sekunde in einer ausgewählten Datenbank, gruppiert nach Lese- und Schreibmethoden auf ausgewählten Servern.

  • Vorgänge pro Sekunde nach Methode: Vorgänge pro Sekunde in einer ausgewählten Datenbank, gruppiert nach Methoden auf ausgewählten Servern.

  • Speicherauslastung nach Datenbank: Nicht replizierte physische Byte, die von jeder Datenbank verwendet werden. Dieser Messwert ist auf dem Leader-Tablet jeder Gruppe verfügbar. Die tatsächliche Anzahl der replizierten physischen Bytes auf allen Tablets einer Gruppe kann je nach Status der Komprimierungen auf den einzelnen Tablets höher oder niedriger sein. Dieser Messwert gibt jedoch eine ungefähre Vorstellung davon, wie viel nicht replizierter physischer Speicherplatz von jeder Datenbank verwendet wird.

  • Wartezeit bei Sperren: Die Gesamtwartezeit bei Sperren für Sperrenkonflikte für die ausgewählte Datenbank in einem 5‑Minuten-Intervall.

  • Rate der abgebrochenen Transaktionen: Die Rate der abgebrochenen oder stornierten Transaktionen. Bei Konflikten zwischen Transaktionen kann es zu höheren Abbruchraten kommen.

  • Anzahl der Schemaobjekte: Anzahl der Schemaobjekte für die ausgewählte Datenbank.

  • Transaktionsteilnehmer: Verteilung der Anzahl der Transaktionsteilnehmer bei jedem Commit-Versuch für die Datenbank.

Dashboard mit Bereitstellungsstatistiken

Das Dashboard mit Deployment-Statistiken bietet weitere Einblicke in den Ressourcenverbrauch von Deployments. Dieses Dashboard enthält die folgenden Diagramme:

  • CPU-Auslastung: Aggregierte CPU-Auslastung für die ausgewählten Server.

  • Server-CPU-Auslastung: CPU-Auslastung für jeden ausgewählten Server.

  • CPU-Auslastung nach Prozess: CPU-Auslastung für jeden Prozess, aggregiert über die ausgewählten Server hinweg.

  • Speicherauslastung: Aggregierte Speicherauslastung für die ausgewählten Server. Hohe Werte sind zu erwarten, da Spanner Omni Daten im Arbeitsspeicher zwischenspeichert, den Spanner Omni bei Bedarf freigeben kann.

  • Server Memory utilization (Server-Arbeitsspeichernutzung): Arbeitsspeichernutzung für jeden der ausgewählten Server. Hohe Werte sind zu erwarten, da Spanner Omni Daten im Arbeitsspeicher zwischenspeichert, den Spanner Omni bei Bedarf freigeben kann.

  • Größe des residenten Arbeitsspeichers des Prozesses: Größe des residenten Arbeitsspeichers für jeden Prozess für ausgewählte Server.

  • Größe des virtuellen Arbeitsspeichers für Prozesse: Größe des virtuellen Arbeitsspeichers für jeden Prozess für ausgewählte Server.

  • Aufschlüsselung des Serverarbeitsspeichers: Arbeitsspeichernutzung nach Kategorie (Cache, fragmentiert, memtable_pinned, System, Updates, Sonstiges), aggregiert über die ausgewählten Server. Diese Erinnerung bezieht sich speziell auf den Prozess span_server.

  • Gesendete Netzwerkbyte: Gesendete Byte pro Schnittstelle, aggregiert über alle Server hinweg.

  • Vom Netzwerk empfangene Byte: Empfangene Byte pro Schnittstelle, aggregiert über alle Server hinweg.

  • Top 10 Servers By Network Sent Bytes (Top 10 Server nach gesendeten Netzwerkbytes): Die Top 10 Server nach gesendeten Netzwerkbytes (Tabellenansicht).

  • Top 10 Servers By Network Received Bytes (Top 10 Server nach vom Netzwerk empfangenen Bytes): Die 10 Server mit den meisten vom Netzwerk empfangenen Bytes (Tabellenansicht).

Spanner Omni-Dateisystem-Dashboard

Im Spanner Omni-Dateisystem-Dashboard werden die zugrunde liegenden Dateisystemvorgänge überwacht, die für die Leistung entscheidend sind, einschließlich Vorgangsraten, Latenz und Durchsatz. Dieses Dashboard enthält die folgenden Diagramme:

  • Diagramme für Dateivorgänge:

    • Vorgänge pro Sekunde: Erfasst die Gesamtrate der Dateivorgänge, gruppiert nach Vorgang.

    • Lokale und Remote-Vorgänge pro Sekunde: Hier wird die Rate der Dateivorgänge nach lokalem und Remote-Zugriff aufgeschlüsselt.

    • Operation Errors Per Second (Fehler bei Vorgängen pro Sekunde): Zeigt die Rate fehlgeschlagener Dateisystemvorgänge an, gruppiert nach Vorgang und Status.

  • Latenzgrafiken: Enthält Diagramme für die Latenz von P50, P90 und P99 für lokale und Remote-Dateivorgänge, gruppiert nach Vorgang.

  • Durchsatzdiagramme:

    • Lokaler und Remote-Lese- und ‑Schreibdurchsatz: Hier wird die Rate des Lese- und Schreibdurchsatzes nach lokalem und Remote-Zugriff aufgeschlüsselt.

    • Bytes pro Vorgang: Enthält P50- und P90-Bytes, die pro Vorgang für den lokalen und Remotezugriff übertragen werden.

  • Statistiken zum Dateisystem:

    • Total File system Size By Zone (Gesamtgröße des Dateisystems nach Zone): Zeigt die insgesamt bereitgestellte Dateisystemgröße an, gruppiert nach Spanner Omni-Zone.

    • File system Usage by Zone (Dateisystemnutzung nach Zone): Zeigt die aktuelle Größe des verwendeten Dateisystems an, gruppiert nach Spanner Omni-Zone.

gRPC-Dashboard

Im gRPC-Dashboard werden detaillierte RPC-Statistiken für alle Server in der Bereitstellung erfasst. Dieses Dashboard enthält die folgenden Diagramme:

  • Serverseitige Messwerte: Überwachen die Leistung von RPC aus der Perspektive des Servers.

    • RPC Latency Per Method (P50, P90, P99): Latenz pro RPC-Methode auf der Serverseite.

    • Server Sent Throughput Per Method (Durchsatz pro Methode für gesendete Server): Gesendete Byte pro Sekunde und Methode für ausgewählte Server.

    • Durchsatz gesendeter Server pro Prozess: Gesendete Byte pro Sekunde und Prozess für ausgewählte Server.

    • Server Received Throughput Per Method (Empfangener Serverdurchsatz nach Methode): Empfangene Byte pro Sekunde und Methode für ausgewählte Server.

    • Server Received Throughput Per Process (Empfangener Durchsatz pro Prozess auf dem Server): Empfangene Byte pro Sekunde pro Prozess für ausgewählte Server.

    • Anzahl der kanonischen Serverstatuscodes pro Methode: Häufigkeit des kanonischen Statuscodes pro Methode für ausgewählte Server.

    • Server Completed RPCs Per Method (Abgeschlossene Server-RPCs pro Methode): Rate der abgeschlossenen RPCs pro Methode für ausgewählte Server.

    • Server Active Channels (Aktive Serverkanäle): Die Gesamtzahl der seit dem Start der Anwendung erstellten gRPC-Kanäle auf Serverseite, die aktiv bleiben.

  • Clientseitige Messwerte: Hier wird die Leistung von RPC aus der Perspektive des Clients überwacht.

    • Client-Roundtrip-Latenz pro Methode (P50, P90, P99): Roundtrip-RPC-Latenz pro Methode, einschließlich Serverlatenz, Netzwerk- und Warteschlangenzeit.

    • Client-Durchsatz pro Methode: Gesendete Byte pro Sekunde und Methode für ausgewählte Server.

    • Vom Client gesendeter Durchsatz pro Prozess: Gesendete Byte pro Sekunde pro Prozess für ausgewählte Server.

    • Vom Client empfangener Durchsatz pro Methode: Empfangene Byte pro Sekunde pro Methode für ausgewählte Server.

    • Vom Client empfangener Durchsatz pro Prozess: Empfangene Byte pro Sekunde pro Prozess für ausgewählte Server.

    • Client Canonical Status Count Per Method (Anzahl der kanonischen Client-Statuscodes pro Methode): Häufigkeit des kanonischen Statuscodes pro Methode als gRPC-Client für ausgewählte Server.

    • Abgeschlossene Client-RPCs pro Methode: Rate der abgeschlossenen Client-RPCs pro Methode für ausgewählte Server.

Dashboard für Verdichtungen

Das Dashboard für die Komprimierung zeigt eine Visualisierung der Leistung von Hintergrundkomprimierungsaufgaben. Dieses Dashboard enthält die folgenden Diagramme:

  • Erfolgreiche und fehlgeschlagene Komprimierungen (letzte Stunde): Hier werden die Anzahl der erfolgreichen und fehlgeschlagenen Komprimierungen nach Komprimierungstyp und Server verfolgt.

  • Rate der Ausgabebyte bei Verdichtungen: Die Rate der Ausgabebyte bei Verdichtungen wird über ein 2-Minuten-Intervall hinweg erfasst, gruppiert nach Verdichtungstyp und Server.

  • Verteilung der Komprimierungseingabegröße: Eine Heatmap zeigt die Verteilung der Komprimierungseingabegrößen.

  • Compactions Input Size (Mean) (Durchschnittliche Größe der Verdichtungseingabe): Zeigt die durchschnittliche Größe der Verdichtungseingabe an, gruppiert nach Verdichtungstyp und Server.

  • Compactions Input Size (Percentile Estimates) (Geschätzte Perzentile für die Größe der Eingabe für die Verdichtung): Enthält geschätzte Perzentile (P50, P95, P99) für die Größe der Eingabe für die Verdichtung, gruppiert nach Verdichtungstyp und Server.

  • Verteilung der Verzögerung bei der Hauptverdichtung: Eine Heatmap zeigt die Verteilung der Verzögerung bei der Hauptverdichtung, aggregiert über alle Server hinweg.

  • Major Compaction Lag (Mean) Per Server (Durchschnittliche Verzögerung bei der Hauptverdichtung pro Server): Gibt den Durchschnitt der Verzögerung bei der Hauptverdichtung pro Server an.

  • Major Compaction Lag (Percentile Estimates) Per Server (Verzögerung bei der Hauptverdichtung (Perzentilschätzungen) pro Server): Bietet Perzentilschätzungen (P50, P90, P99) der Verzögerung bei der Hauptverdichtung pro Server.

Dashboard für Aufteilungen, Zusammenführungen und Umzüge

Im Dashboard für Splits, Merges und Moves wird die dynamische Verteilung von Daten im Cluster verfolgt, einschließlich Verzeichnisvorgängen und Gruppengrößen. Dieses Dashboard enthält die folgenden Diagramme:

  • Verteilung der Aufteilungsgröße: Die Größe der Verzeichnisaufteilung, einschließlich der Perzentile P50, P90, P99 und P100, aggregiert über die ausgewählten Server.

  • Verteilung der Gruppengröße: Alle für die Gruppe zugewiesenen Byte (persistent und im Arbeitsspeicher) mit den Perzentilen P50, P90, P99 und P100, aggregiert über die ausgewählten Server.

  • Verteilung der Gruppengröße im Arbeitsspeicher: Alle Byte, die für die In-Memory-Datenstrukturen der Gruppe zugewiesen sind, mit den P50-, P90-, P99- und P100-Perzentilen, aggregiert über die ausgewählten Server.

  • Gruppengröße nach Zone: Die Größen P50, P90, P99 und P100 für alle zugewiesenen Byte (persistent und im Arbeitsspeicher) für die Gruppe, gruppiert nach Spanner Omni-Zone.

  • Anzahl erfolgreicher interner Datenübertragungen: Anzahl der Übertragungen, Aufteilungen und Zusammenführungen von Verzeichnissen und Gruppen in einem Zeitraum von einer Stunde, gruppiert nach Initiator, Aktion und Übertragungstyp.

  • Anzahl der fehlgeschlagenen internen Datenübertragungen: Anzahl der Fehler bei versuchten Verzeichnis- und Gruppenübertragungen, ‑aufteilungen und ‑zusammenführungen innerhalb eines Zeitfensters von einer Stunde.

  • Nicht aufteilbare Fehler nach Grund und Typ: Rate nicht aufteilbarer Fehler, wobei überlastete Splits ignoriert werden, da der Bereich nicht aufteilbar war.

  • CPU-Nutzungswert des Spitzen-Splits: Die maximale CPU-Nutzungslast für alle Splits der einzelnen Datenbanken.

Tablet-Dashboard

Das Tablet-Dashboard bietet detaillierte Informationen zu Tablet-Statistiken, ‑Vorgängen und potenziellen Hotspots. Dieses Dashboard enthält die folgenden Diagramme:

  • Total Tablet Count (Gesamtzahl der Tablets): Die Gesamtzahl der Paxos-Tablets in der Bereitstellung.

  • Tablet Count By Zone (Anzahl der Tablets nach Zone): Die Anzahl der Tablets, gruppiert nach Spanner Omni-Zone.

  • Tablet Count By Server (Anzahl der Tablets nach Server): Die Anzahl der Tablets auf ausgewählten Servern.

  • Anzahl der Leader nach Zone: Die Anzahl der Leader-Tablets, gruppiert nach Spanner Omni-Zone.

  • Leader Count By Server (Anzahl der Leader-Tablets nach Server): Die Anzahl der Leader-Tablets auf ausgewählten Servern.

  • Nicht zugewiesene Tablets pro Zone: Die Anzahl der nicht zugewiesenen Tablets pro Zone.

  • Tablet Loads By Zone (Tablet-Ladevorgänge nach Zone): Die Anzahl der Tablet-Ladevorgänge, gruppiert nach Zone.

  • Tablet Unloads By Zone By Reason (Entladen von Tablets nach Zone nach Grund): Die Rate der Entladungen von Tablets pro Zone, kategorisiert nach dem Grund für die Entladung.

  • Maximale Tablet-Last für jeden Server: In einer Tabellenansicht wird die maximale Rechenlast für ein Tablet auf jedem Server angezeigt.

  • Anzahl der Hot-Tabellenreihen: Die Gesamtzahl der Hot-Tabellenreihen (Tabellenreihen, die einen Schwellenwert für die Rechenlast überschreiten).

  • Verteilung der Tablet-Last: Die Verteilung der Rechenlast pro Tablet mit P50- und P90-Perzentilschätzungen und dem genauen MAX-Wert.

TrueTime-Dashboard

Das TrueTime-Dashboard bietet Einblick in den Zustand und die Zuverlässigkeit des Spanner Omni TrueTime-Dienstes. Dieses Dashboard enthält die folgenden Diagramme:

  • TrueTime-Verfügbarkeit: Überwacht die allgemeine Verfügbarkeit des TrueTime-Dienstes.

  • P99-TrueTime-Drift: Erfasst das 99. Perzentil des TrueTime-Drifts.

  • P99-TrueTime-Unsicherheit: Hier wird das 99. Perzentil der TrueTime-Unsicherheit erfasst.

  • Verstöße gegen das Clock-SLA: Hier wird die Anzahl der Verstöße gegen das Service Level Agreement (SLA) für den Clock-Dienst angezeigt.

  • Anzahl der VM-Migrationen: Erfasst die Anzahl der virtuellen Maschinenmigrationen.

  • TrueTime-Abweichung auf dem Leader: Überwacht die TrueTime-Abweichung speziell auf den Leader-Knoten.

  • TrueTime-Soll- und ‑Ist-Steuerungs-ppm: Vergleicht die Soll- und Ist-Steuerungswerte in Parts per Million (ppm).

  • TrueTime-Steuerungsfehler: Hier wird der Fehler im TrueTime-Steuerungsmechanismus erfasst.

Dashboard für freigegebene Protokolle

Das Dashboard für freigegebene Logs ist ein spezielles Dashboard, mit dem Sie die Leistung und den Wiederherstellungsstatus von freigegebenen Logs im Blick behalten können. Dieses Dashboard enthält die folgenden Diagramme:

  • Shared Log Write Rate (Schreibvorgänge im freigegebenen Log): Anzahl der freigegebenen Logeinträge pro Sekunde, aggregiert und aufgeschlüsselt nach Datenbank.

  • Geschriebene Byte für freigegebene Logs: Die Anzahl der geschriebenen Byte für freigegebene Logs pro Sekunde (Durchsatz), aggregiert und aufgeschlüsselt nach Datenbank.

  • Schreibgeschwindigkeit für freigegebene Log-Batches: Freigegebene Log-Batches, die pro Sekunde geschrieben werden, aggregiert über die ausgewählten Server.

  • Verteilung der Batch-Schreiblatenz für freigegebene Protokolle: Die Verteilung der P50-, P90- und P99-Latenz für Batch-Schreibvorgänge für freigegebene Protokolle.

  • Verteilung der Anzahl der freigegebenen Log-Batch-Einträge: Die P50-, P90- und P99-Verteilung der Anzahl der Einträge in freigegebenen Log-Batches.

  • LogSort Request Rate (LogSort-Anfragerate): Die Rate der LogSort-Anfragen, aggregiert über die ausgewählten Server.

  • LogSort Sorting Error Rate (LogSort-Fehlerrate bei der Sortierung): Die Rate der LogSort-Sortierfehler, aggregiert über die ausgewählten Server.

  • Freigegebene Log-Leser in Bearbeitung: Die Gesamtzahl der freigegebenen Log-Leser, die an der Wiederherstellung des Tablets beteiligt sind.

Nächste Schritte