Monitora l'integrità e le prestazioni delle tue implementazioni di Spanner Omni con le dashboard Grafana. Queste dashboard visualizzano le metriche di Spanner Omni inserite in Prometheus, fornendo informazioni complete sullo stato operativo del tuo deployment. Ottieni visibilità sull'integrità complessiva del sistema, sul consumo di risorse e sui processi interni critici.
Inventario della dashboard
La tabella seguente fornisce un riepilogo generale dei dashboard disponibili:
| Dashboard | Metriche chiave | Scopo principale |
|---|---|---|
| Panoramica | QPS, latenza, velocità effettiva |
Monitora le prestazioni di deployment di alto livello, tra cui query al secondo
(QPS), latenza delle richieste e velocità effettiva dei dati.
|
| Insight sul sistema | CPU, memoria, tempo di attesa per il blocco |
Concentrati sul consumo di risorse e sull'integrità a livello di database (ad esempio,
CPU, memoria e tempo di attesa per il blocco) per i database selezionati.
|
| Informazioni sul deployment | CPU, memoria e utilizzo della rete |
Fornisci informazioni dettagliate sul consumo complessivo delle risorse di deployment e sulle statistiche di rete. |
| File system Spanner Omni | Operazioni sui file, latenza e velocità effettiva | Monitora le operazioni, le prestazioni, la latenza e il throughput del file system sottostante. |
| gRPC | Conteggio, stato e latenza di RPC |
Monitora statistiche RPC dettagliate per la comunicazione lato server e lato client.
|
| Compattazioni | Tasso di riuscita e non riuscita della compattazione, ritardo della compattazione | Visualizza il rendimento della manutenzione dei dati in background, concentrandoti su tassi di successo e di errore della compattazione e ritardo della compattazione. |
| Divisioni, unioni e spostamenti | Conteggio di divisioni, unioni e spostamenti; dimensione del gruppo | Monitora la distribuzione dinamica dei dati, incluse le operazioni di directory (divisioni, unioni e spostamenti), il dimensionamento dei gruppi di dati e i potenziali hotspot. |
| Tablet | Conteggio tablet, distribuzione del carico | Fornisci approfondimenti dettagliati su statistiche, operazioni e distribuzione del carico del tablet e identifica potenziali hotspot. |
| TrueTime | Deriva, incertezza, violazioni SLA | Monitora l'integrità e l'affidabilità del servizio Spanner Omni TrueTime, inclusi deriva, incertezza e violazioni SLA. |
| Log condiviso | Tasso di scrittura, tasso di errori di ordinamento | Monitora le prestazioni dei log condivisi, in particolare le velocità di scrittura e le percentuali di errore di ordinamento. |
Di seguito sono riportati alcuni dei grafici disponibili nelle dashboard:
Capacità di calcolo (vCPU): il numero totale di
vCPUsdi cui è stato eseguito il provisioning nel deployment.Capacità di memoria: la memoria fisica totale sottoposta a provisioning nel deployment.
Capacità di archiviazione: la capacità di archiviazione totale e disponibile del file system.
Stato nodo: monitora il conteggio dei server totali e non integri nel deployment.
Utilizzo di Compute: la percentuale della capacità totale di
vCPUin uso.Utilizzo della memoria: memoria totale utilizzata nel deployment. Prevedi un utilizzo elevato perché Spanner Omni utilizza la memoria inattiva per la cache.
Utilizzo dello spazio di archiviazione: la percentuale della capacità di archiviazione totale in uso.
Spazio di archiviazione utilizzato per vCPU: il rapporto tra lo spazio di archiviazione totale utilizzato e il numero totale di
vCPU.Server: una tabella dettagliata che mostra le metriche per server e per zona per l'utilizzo di
CPU, l'utilizzo della memoria, l'uptime, ilvCPUtotale, la memoria totale, lo spazio di archiviazione utilizzato e la capacità di archiviazione.
Dashboard degli insight sul sistema
La dashboard degli approfondimenti del sistema si concentra sull'integrità e sulle prestazioni dei database nel deployment. Questa dashboard include i seguenti grafici:
Panoramica dell'utilizzo della CPU: utilizzo complessivo del database
CPUaggregato nei server selezionati.Utilizzo della CPU per utente e sistema: utilizzo di
CPUnel database selezionato, raggruppato per attività utente e sistema e priorità.Utilizzo della CPU per tipo di operazione: utilizzo di
CPUraggruppato per tipo di operazione per il database selezionato aggregato nei server selezionati.Utilizzo della CPU per tipo di operazione - Priorità alta: utilizzo di
CPUraggruppato per tipo di operazione e filtrato per priorità alta per il database selezionato aggregato nei server selezionati.Utilizzo della CPU per tipo di operazione - Priorità media: utilizzo di
CPUraggruppato per tipo di operazione e filtrato in base alla priorità media per il database selezionato aggregato nei server selezionati.Utilizzo della CPU per tipo di operazione - Priorità bassa: utilizzo di
CPUraggruppato per tipo di operazione e filtrato per priorità bassa per il database selezionato aggregato nei server selezionati.Latenza richiesta (
P50,P90,P99): latenza all'interno di un database selezionato, raggruppata per metodi di lettura e scrittura nei server selezionati.Latenza richieste per metodo (
P50,P90,P99): latenza all'interno di un database selezionato, raggruppata per metodi API nei server selezionati.Latenza transazione (
P50,P90,P99): latenza delle richieste all'interno di un database selezionato, raggruppate per tipo di transazione e coinvolgimento del leader nei server selezionati.Throughput: throughput di lettura e scrittura all'interno di un database selezionato su server selezionati.
Throughput per metodo: throughput all'interno di un database selezionato raggruppato per metodo nei server selezionati.
Operazioni al secondo: operazioni al secondo all'interno di un database selezionato, raggruppate per metodi di lettura e scrittura nei server selezionati.
Operazioni al secondo per metodo: operazioni al secondo all'interno di un database selezionato raggruppate per metodi nei server selezionati.
Utilizzo dello spazio di archiviazione per database: byte fisici non replicati utilizzati da ogni database. Il tablet leader di ogni gruppo fornisce questa metrica. Il numero effettivo di byte fisici replicati in tutte le tabelle di un gruppo potrebbe essere superiore o inferiore a seconda dello stato delle compattazioni in ogni tabella, ma questa metrica fornisce un'idea approssimativa della quantità di spazio di archiviazione fisico non replicato utilizzato da ogni database.
Tempo di attesa per il blocco: tempo di attesa totale per il blocco per i conflitti di blocco per il database selezionato in un intervallo di 5 minuti.
Percentuale di transazioni interrotte: la percentuale di transazioni interrotte o annullate. I tassi di annullamento possono essere più elevati quando si verificano conflitti tra le transazioni.
Conteggio oggetti schema: numero di oggetti schema per il database selezionato.
Partecipanti alla transazione: distribuzione del numero di partecipanti alla transazione in ogni tentativo di commit per il database.
Dashboard degli approfondimenti sul deployment
La dashboard degli approfondimenti sul deployment fornisce ulteriori informazioni sul consumo delle risorse di deployment. Questa dashboard include i seguenti grafici:
Utilizzo CPU: utilizzo aggregato di
CPUper i server selezionati.Utilizzo CPU server: utilizzo
CPUper ogni server selezionato.Utilizzo CPU processo: utilizzo
CPUper ogni processo aggregato nei server selezionati.Utilizzo della memoria: utilizzo aggregato della memoria per i server selezionati. Prevedi valori elevati perché Spanner Omni memorizza nella cache i dati in memoria, che Spanner Omni può liberare se necessario.
Utilizzo della memoria del server: utilizzo della memoria per ciascuno dei server selezionati. Prevedi valori elevati perché Spanner Omni memorizza nella cache i dati in memoria, che Spanner Omni può liberare se necessario.
Dimensioni della memoria residente del processo: dimensioni della memoria residente per ogni processo per i server selezionati.
Dimensioni della memoria virtuale del processo: dimensioni della memoria virtuale per ogni processo per i server selezionati.
Suddivisione della memoria del server: utilizzo della memoria per categoria (cache, frammentata,
memtable_pinned, sistema, aggiornamenti, altro) aggregato nei server selezionati. Questa memoria è specifica per la proceduraspan_server.Byte di rete inviati: byte inviati per interfaccia aggregati su tutti i server.
Byte di rete ricevuti: byte ricevuti per interfaccia aggregati su tutti i server.
I 10 server principali per byte inviati dalla rete: i 10 server principali per byte inviati dalla rete (visualizzazione tabella).
I primi 10 server per byte di rete ricevuti: i primi 10 server per byte di rete ricevuti (visualizzazione tabella).
Dashboard del file system Spanner Omni
La dashboard del file system Spanner Omni monitora le operazioni del file system sottostanti critiche per le prestazioni, tra cui velocità delle operazioni, latenza e velocità effettiva. Questa dashboard include i seguenti grafici:
Grafici delle operazioni sui file:
Operazioni al secondo: monitora la frequenza totale delle operazioni sui file, raggruppate per operazione.
Operazioni locali e remote al secondo: monitora la velocità delle operazioni sui file, separata per accesso locale e remoto.
Errori di operazioni al secondo: mostra la frequenza delle operazioni del file system non riuscite, raggruppate per operazione e stato.
Grafici di latenza: includono grafici per la latenza di
P50,P90eP99per le operazioni sui file locali e remoti, raggruppate per operazione.Grafici della velocità effettiva:
Throughput di lettura e scrittura locale e remoto: monitora la velocità del throughput di lettura e scrittura, separato per accesso locale e remoto.
Byte per operazione: include
P50eP90byte trasferiti per operazione per l'accesso locale e remoto.
Statistiche del file system:
Dimensioni totali del file system per zona: mostra le dimensioni totali del file system di cui è stato eseguito il provisioning, raggruppate per zona Spanner Omni.
Utilizzo del file system per zona: mostra le dimensioni attuali del file system utilizzato, raggruppate per zona Spanner Omni.
Dashboard gRPC
La dashboard gRPC monitora statistiche RPC dettagliate per tutti i server all'interno del deployment. Questa dashboard include i seguenti grafici:
Metriche lato server: monitora le prestazioni di
RPCdal punto di vista del server.Latenza RPC per metodo (
P50,P90,P99): latenza per metodoRPCsul lato server.Velocità effettiva di invio del server per metodo: byte inviati al secondo per metodo per i server selezionati.
Throughput inviato dal server per processo: byte inviati al secondo per processo per i server selezionati.
Velocità effettiva di ricezione del server per metodo: byte ricevuti al secondo per metodo per i server selezionati.
Throughput ricevuto dal server per processo: byte ricevuti al secondo per processo per i server selezionati.
Conteggio dello stato canonico del server per metodo: tasso di occorrenza del codice di stato canonico per metodo per i server selezionati.
RPC completate per metodo del server: tasso di
RPCscompletate per metodo per i server selezionati.Server Active Channels: il numero totale di canali
gRPClato server creati dall'avvio dell'applicazione che rimangono attivi.
Metriche lato client: monitora il rendimento di
RPCdal punto di vista del cliente.Latenza round trip client per metodo (
P50,P90,P99): latenza round tripRPCper metodo, che include la latenza del server, della rete e il tempo di attesa in coda.Throughput inviato dal client per metodo: byte inviati al secondo per metodo per i server selezionati.
Throughput inviato dal client per processo: byte inviati al secondo per processo per i server selezionati.
Velocità effettiva di ricezione client per metodo: byte ricevuti al secondo per metodo per i server selezionati.
Throughput ricevuto dal client per processo: byte ricevuti al secondo per processo per i server selezionati.
Conteggio stato canonico client per metodo: tasso di occorrenza del codice di stato canonico per metodo come client
gRPCper i server selezionati.RPC completate dal client per metodo: tasso di
RPCscompletamento delle RPC del client per metodo per i server selezionati.
Dashboard delle compattazioni
La dashboard delle compattazioni mostra una visualizzazione del rendimento delle attività di compattazione in background. Questa dashboard include i seguenti grafici:
Compattazioni riuscite e non riuscite (ultima ora): monitora i conteggi riusciti e non riusciti dei tipi di compattazione raggruppati per tipo di compattazione e per server.
Velocità di byte di output delle compattazioni: monitora la velocità di byte di output delle compattazioni in un intervallo di 2 minuti, raggruppati per tipo di compattazione e per server.
Distribuzione delle dimensioni di input delle compressioni: una mappa termica mostra la distribuzione delle dimensioni di input delle compressioni.
Dimensioni input compattazioni (media): mostra le dimensioni medie dell'input di compattazione, raggruppate per tipo di compattazione e per server.
Dimensioni input compattazioni (stime percentile): fornisce stime percentile (
P50,P95,P99) delle dimensioni dell'input di compattazione, raggruppate per tipo di compattazione e per server.Distribuzione del ritardo di compattazione principale: una mappa termica mostra la distribuzione del ritardo di compattazione principale aggregato su tutti i server.
Ritardo compattazione principale (media) per server: mostra la media del ritardo di compattazione principale per server.
Ritardo di compattazione principale (stime percentile) per server: fornisce stime percentile (
P50,P90,P99) del ritardo di compattazione principale per server.
Dashboard di divisioni, fusioni e trasferimenti
La dashboard suddivisioni, unioni e spostamenti monitora la distribuzione dinamica dei dati nel cluster, incluse le operazioni di directory e il dimensionamento dei gruppi. Questa dashboard include i seguenti grafici:
Distribuzione delle dimensioni della suddivisione: le dimensioni della suddivisione della directory, inclusi i percentili
P50,P90,P99eP100, aggregati nei server selezionati.Distribuzione delle dimensioni del gruppo: tutti i byte allocati per il gruppo (persistenti e in memoria), con i percentili
P50,P90,P99eP100, aggregati nei server selezionati.Distribuzione delle dimensioni del gruppo in memoria: tutti i byte allocati per le strutture di dati in memoria del gruppo, con i percentili
P50,P90,P99eP100, aggregati nei server selezionati.Dimensioni gruppo per zona: le dimensioni di
P50,P90,P99eP100per tutti i byte allocati (permanenti e in memoria) per il gruppo, raggruppati per zona Spanner Omni.Numero di spostamenti interni di dati riusciti: conteggi di spostamenti, divisioni e unioni di directory e gruppi in un periodo di 1 ora, raggruppati per iniziatore, azione e tipo di spostamento.
Numero di spostamenti interni di dati non riusciti: conteggio degli errori nei tentativi di spostamento, divisione e unione di directory e gruppi in un periodo di 1 ora.
Errori non divisibili per motivo e tipo: tasso di errori non divisibili in cui le suddivisioni sovraccariche vengono ignorate perché l'intervallo non era divisibile.
Punteggio utilizzo CPU con suddivisioni massime: il carico di utilizzo massimo di
CPUin tutte le suddivisioni di ogni database.
Dashboard Tablet
La dashboard dei tablet fornisce informazioni dettagliate su statistiche, operazioni e potenziali hotspot dei tablet. Questa dashboard include i seguenti grafici:
Total Tablet Count: il numero totale di tablet Paxos nell'intero deployment.
Conteggio tablet per zona: il numero di tablet, raggruppati per zona Spanner Omni.
Conteggio tablet per server: il numero di tablet sui server selezionati.
Conteggio leader per zona: il conteggio dei tablet leader, raggruppati per zona Spanner Omni.
Conteggio leader per server: il conteggio dei tablet leader sui server selezionati.
Tablet non assegnati per zona: il numero di tablet non assegnati per zona.
Caricamenti di tablet per zona: il tasso di caricamenti di tablet raggruppati per zona.
Scarichi del tablet per zona per motivo: il tasso di scarichi del tablet per zona, classificati in base al motivo dello scarico.
Carico massimo del tablet per ogni server: una visualizzazione tabellare mostra il carico di calcolo massimo per un tablet su ogni server.
Conteggio tablet attivi: il conteggio totale dei tablet attivi (tablet che superano una soglia di carico di calcolo).
Distribuzione del carico del tablet: la distribuzione del carico di calcolo per tablet, che mostra le stime dei percentili
P50eP90e il valore esatto diMAX.
Dashboard TrueTime
La dashboard TrueTime offre visibilità sull'integrità e l'affidabilità del servizio Spanner Omni TrueTime. Questa dashboard include i seguenti grafici:
Disponibilità di TrueTime: monitora la disponibilità complessiva del servizio TrueTime.
Deriva TrueTime P99: monitora il 99° percentile della deriva TrueTime.
Incertezza TrueTime P99: monitora il 99° percentile dell'incertezza di TrueTime.
Violazioni SLA orologio: mostra il conteggio delle violazioni dell'accordo sul livello del servizio (SLA) dell'orologio.
Conteggi delle migrazioni di VM: monitora il numero di migrazioni di macchine virtuali.
Deriva di TrueTime sul leader: monitora la deriva di TrueTime in particolare sui nodi leader.
PPM di sterzata desiderati e effettivi di TrueTime: confronta i valori di sterzata in parti per milione (
ppm) desiderati ed effettivi.Errore di sterzata TrueTime: monitora l'errore nel meccanismo di sterzata TrueTime.
Dashboard del log condiviso
La dashboard dei log condivisi è una dashboard dedicata al monitoraggio delle prestazioni e dello stato di recupero dei log condivisi. Questa dashboard include i seguenti grafici:
Tasso di scrittura log condiviso: numero di voce di log condivise al secondo, aggregate e suddivise per database.
Byte di log condivisi scritti: byte di log condivisi scritti al secondo (velocità effettiva), aggregati e suddivisi per database.
Tasso di scrittura dei batch di log condivisi: batch di log condivisi scritti al secondo aggregati nei server selezionati.
Distribuzione della latenza di scrittura batch del log condiviso: la distribuzione della latenza
P50,P90eP99per le scritture batch del log condiviso.Distribuzione del conteggio delle voci dei batch di log condivisi: la distribuzione di
P50,P90eP99dei conteggi delle voci all'interno dei batch di log condivisi.Tasso di richieste LogSort: il tasso di richieste
LogSortaggregate nei server selezionati.Percentuale di errori di ordinamento LogSort: il tasso di errori di ordinamento
LogSortaggregati nei server selezionati.In Progress Shared Log Readers: il numero totale di lettori di log condivisi che sono impegnati nel recupero del tablet.
Passaggi successivi
Utilizza gli avvisi di Prometheus per monitorare Spanner Omni.
Aggiungere la crittografia a un deployment di Spanner Omni Kubernetes.
Aggiungi la crittografia a un deployment di VM Spanner Omni.