Métricas de monitoramento com suporte

Nesta página, listamos as métricas disponíveis para o cluster do Memorystore para Redis e descrevemos o que cada uma mede.

Métricas de backup

Esta seção lista e descreve as métricas de backup e importação.

Métricas no nível do cluster

Esta seção lista e descreve as métricas de backup e importação no nível do cluster.

Nome da métrica Descrição
redis.googleapis.com/cluster/backup/last_backup_start_time Essa métrica mostra o horário de início da última operação de backup.
redis.googleapis.com/cluster/backup/last_backup_status Essa métrica mostra se a tentativa de backup mais recente foi concluída com sucesso ou falhou. Os status são 1 para Success e 0 para Failed.
redis.googleapis.com/cluster/backup/last_backup_duration Essa métrica mostra a duração da última operação de backup (em milissegundos).
redis.googleapis.com/cluster/backup/last_backup_size Essa métrica mostra o tamanho do último backup (em bytes). Essa métrica é um indicador importante para monitorar a eficiência do backup e o planejamento da capacidade de armazenamento.
redis.googleapis.com/cluster/import/last_import_start_time Essa métrica mostra o horário de início da última operação de importação.
redis.googleapis.com/cluster/import/last_import_duration Essa métrica mostra a duração da última operação de importação (em milissegundos).

Métricas da autoridade certificadora (CA)

Esta seção lista as métricas associadas a autoridades de certificação (CA) gerenciadas pelo cliente.

Métricas no nível do cluster

Essas métricas oferecem uma visão geral de alto nível dos certificados associados às máquinas em um cluster.

Nome da métrica Descrição
redis.googleapis.com/cluster/security/rotate_tls_cert_count

Essa métrica mostra o status da rotação de certificados associados a máquinas em um cluster.

A métrica pode ter os seguintes status:

  • SUCCESS: o Memorystore para Redis Cluster girou o certificado.
  • FAILED: o Memorystore for Redis Cluster não fez a rotação do certificado porque ele não está disponível, o Memorystore for Redis Cluster não tem permissões para fazer a rotação do certificado ou ocorreu um erro interno.
  • SKIPPED: o cluster do Memorystore para Redis não fez a rotação do certificado porque não era necessário.

Métricas do Cloud Monitoring

Esta seção lista e descreve as métricas do Cloud Monitoring disponíveis para o cluster do Memorystore para Redis.

Métricas no nível do cluster

Essas métricas fornecem uma visão geral de alto nível da integridade e do desempenho geral de um cluster. Você pode usar as métricas para entender a capacidade e a utilização geral de um cluster, além de identificar possíveis gargalos ou áreas de melhoria.

Nome da métrica Descrição
redis.googleapis.com/cluster/clients/average_connected_clients Essa métrica mede o número médio de conexões de clientes ativas com um cluster em um período especificado. Ela pode ser usada para monitorar o escalonamento de conexões, identificar gargalos de aplicativos e garantir a estabilidade do cluster.
redis.googleapis.com/cluster/clients/maximum_connected_clients Essa métrica mostra o número máximo de conexões de clientes ativas em todos os nós de um cluster. É possível usar a métrica para monitorar a maior carga de conexão no cluster a qualquer momento. Isso é fundamental para garantir um alto desempenho do cluster, porque um grande número de conexões pode aumentar os tempos de resposta.
redis.googleapis.com/cluster/clients/total_connected_clients Essa métrica rastreia o número atual de conexões de cliente ativas em um cluster. Use-a para monitorar a carga do seu banco de dados e evitar limites de conexão.
redis.googleapis.com/cluster/stats/total_connections_received_count Essa métrica mostra o número cumulativo de conexões de clientes criadas em um cluster no último minuto. Você pode usar a métrica para analisar a carga de tráfego, garantir que os limites de conexão não sejam excedidos e determinar se é necessário escalonar o cluster.
redis.googleapis.com/cluster/stats/total_rejected_connections_count Essa métrica rastreia o número total de conexões com um cluster que são rejeitadas porque o limite de maxclients foi atingido.
redis.googleapis.com/cluster/commandstats/total_usec_count Essa métrica mede o tempo total de CPU consumido por cada comando. A métrica indica o total de microssegundos usados, o que fornece insights sobre a performance e a latência de um cluster.
redis.googleapis.com/cluster/commandstats/total_calls_count Essa métrica mede o número total de chamadas associadas a um comando específico em um nó de cluster em um minuto. Para identificar gargalos ou tráfego alto em comandos específicos, use a métrica para monitorar a taxa de transferência de comandos (comandos por minuto) em nós primários e de réplica.
redis.googleapis.com/cluster/cpu/average_utilization Essa métrica mostra o uso médio da CPU de um cluster (de 0,0 a 1,0). É possível usar a métrica para identificar recursos superdimensionados ou subutilizados, gerenciar limites de escalonamento automático e detectar gargalos de desempenho, com uma utilização ideal de 40% a 70%.
redis.googleapis.com/cluster/cpu/maximum_utilization

Essa métrica mostra o pico de uso da CPU em todos os nós de um cluster (de 0,0 a 1,0).

A métrica resume apenas os estados sys_main_thread e user_main_thread. Ele não inclui outros estados da CPU, como sys_children ou user_children, que estão disponíveis na métrica /cluster/node/cpu/utilization .

Verifique se a utilização da CPU não excede 0,8 segundo para o nó principal e 0,5 segundo para cada réplica designada como uma réplica de leitura. Para mais informações, consulte Práticas recomendadas de uso da CPU.

redis.googleapis.com/cluster/stats/average_expired_keys Essa métrica mede o número médio de eventos de expiração de chave para todos os nós principais de um cluster. Use a métrica para monitorar o número de chaves que estão expirando.
redis.googleapis.com/cluster/stats/maximum_expired_keys Essa métrica mede o número máximo de eventos de expiração de chave que estão ocorrendo em todos os nós principais de um cluster.
redis.googleapis.com/cluster/stats/total_expired_keys_count Essa métrica rastreia o número total de eventos de expiração de chave que estão ocorrendo em todos os nós principais de um cluster. É possível usar a métrica para monitorar o número de chaves que estão expirando.
redis.googleapis.com/cluster/stats/average_evicted_keys Essa métrica rastreia o número médio de chaves removidas devido a restrições de capacidade de memória nos fragmentos principais de um cluster.
redis.googleapis.com/cluster/stats/maximum_evicted_keys Essa métrica mostra o maior número de chaves removidas de um nó ou fragmento de um cluster primário devido à capacidade de memória.
redis.googleapis.com/cluster/stats/total_evicted_keys_count Essa métrica mostra o número total de chaves removidas por um nó de um cluster primário devido à capacidade de memória.
redis.googleapis.com/cluster/keyspace/total_keys Essa métrica mostra o número de chaves armazenadas em um cluster.
redis.googleapis.com/cluster/stats/average_keyspace_hits Essa métrica mostra o número médio de pesquisas bem-sucedidas de chaves em todos os nós de um cluster.
redis.googleapis.com/cluster/stats/maximum_keyspace_hits Essa métrica mostra o número máximo de pesquisas bem-sucedidas de chaves em um nó de cluster. Você pode usar a métrica para monitorar a performance do cluster e identificar possíveis hotspots nele.
redis.googleapis.com/cluster/stats/total_keyspace_hits_count Essa métrica rastreia o número cumulativo de pesquisas bem-sucedidas de chaves em todos os nós de um cluster.
redis.googleapis.com/cluster/stats/average_keyspace_misses Essa métrica mostra o número médio de pesquisas com falha de chaves em um cluster. Use-a para acompanhar a frequência com que as chaves são solicitadas, mas não são encontradas no cache.
redis.googleapis.com/cluster/stats/maximum_keyspace_misses Essa métrica mostra o número máximo de pesquisas com falha de chaves em um nó de cluster.
redis.googleapis.com/cluster/stats/total_keyspace_misses_count Essa métrica mostra o número total de pesquisas de chaves com falha em todos os nós do cluster.
redis.googleapis.com/cluster/memory/average_utilization Essa métrica mostra a utilização média da memória em um cluster (de 0,0 a 1,0). É possível usar a métrica para monitorar a capacidade do cluster e definir limites de alerta. Por exemplo, é possível definir um limite de alerta para notificar os usuários quando a memória média exceder uma porcentagem específica (por exemplo, 80%).
redis.googleapis.com/cluster/memory/maximum_utilization Essa métrica mostra a utilização máxima de memória em todos os nós do cluster (de 0,0 a 1,0). Use-a para identificar quando escalonar um cluster. Recomendamos monitorar o uso para garantir que ele permaneça abaixo de 100%. Em cargas de gravação altas, o desempenho pode diminuir se essa métrica atingir de 65% a 85%.
redis.googleapis.com/cluster/memory/total_used_memory Essa métrica mostra o uso total de memória de um cluster (em bytes). Você pode usar a métrica para monitorar a capacidade do cluster.
redis.googleapis.com/cluster/memory/size Essa métrica mede a RAM total, usada e disponível em todos os nós de um cluster. É possível usar a métrica para monitorar a capacidade do cluster e evitar falhas de nós.
redis.googleapis.com/cluster/replication/average_ack_lag Essa métrica mostra o atraso médio de confirmação (em segundos) das réplicas em um cluster.

O atraso de confirmação é um gargalo no nó principal de um cluster. Esse gargalo é causado pelas réplicas que não conseguem acompanhar as informações enviadas pelo nó principal. Quando isso acontece, o nó principal precisa aguardar o reconhecimento de que as réplicas receberam as informações. Isso pode diminuir a velocidade dos commits de transação e causar um impacto no desempenho do nó principal.
redis.googleapis.com/cluster/replication/maximum_ack_lag Essa métrica mostra o atraso máximo de confirmação (em segundos) de réplicas em um cluster.
redis.googleapis.com/cluster/replication/average_offset_diff Essa métrica mostra a diferença média de deslocamento de confirmação de replicação (em bytes) em um cluster.

A diferença de deslocamento de confirmação de replicação significa o número de bytes que não são replicados entre as réplicas e os clusters principais.
redis.googleapis.com/cluster/replication/maximum_offset_diff Essa métrica mostra a diferença máxima de deslocamento de replicação (em bytes) em um cluster.

A diferença de deslocamento de replicação significa o número de bytes que não são replicados entre as réplicas e os clusters principais.
redis.googleapis.com/cluster/stats/total_net_input_bytes_count Essa métrica mostra a contagem de bytes de rede de entrada que os endpoints de um cluster recebem.
redis.googleapis.com/cluster/stats/total_net_output_bytes_count Essa métrica mostra a contagem de bytes de rede de saída que os endpoints de um cluster enviam.

Métricas no nível do nó

Essas métricas oferecem insights detalhados sobre a integridade e a performance de nós individuais em um cluster. Use as métricas para resolver problemas com os nós e otimizar a performance deles.

Nome da métrica Descrição
redis.googleapis.com/cluster/node/clients/connected_clients Essa métrica indica o número de conexões de cliente ativas com um nó de cluster, excluindo conexões de réplica. Você pode usar a métrica para monitorar limites de conexão e identificar pontos de acesso em que um fragmento recebe tráfego desproporcional.
redis.googleapis.com/cluster/node/clients/blocked_clients Essa métrica mostra o número de conexões de cliente que um nó de cluster bloqueia. Um número alto ou em rápido aumento de conexões de clientes bloqueadas pode indicar que muitos clientes estão aguardando operações. Isso pode aumentar a latência.
redis.googleapis.com/cluster/node/server/uptime Essa métrica mede o tempo de atividade de um nó de cluster. Você pode usar a métrica para acompanhar por quanto tempo um servidor é executado continuamente sem uma reinicialização ou falha.
redis.googleapis.com/cluster/node/stats/connections_received_count Essa métrica rastreia o número total de conexões de cliente criadas em um nó de cluster em um período especificado. Use a métrica para monitorar o tráfego de conexão para nós individuais em um cluster. Como resultado, é possível analisar a distribuição de carga e identificar picos na atividade de conexão.
redis.googleapis.com/cluster/node/stats/rejected_connections_count Essa métrica mostra o número de conexões rejeitadas porque um nó de cluster atingiu o limite de maxclients. Use a métrica para identificar se um nó está sob alta pressão de conexão e recusando novas conexões porque não consegue processar mais.
redis.googleapis.com/cluster/node/commandstats/usec_count Essa métrica mostra o tempo total que cada comando consome em um nó de cluster. É possível usar a métrica para analisar a performance dos comandos, identificar comandos lentos e resolver problemas de latência no nível do nó.
redis.googleapis.com/cluster/node/commandstats/calls_count Essa métrica rastreia o número total de chamadas para um comando em um nó de cluster por minuto. Use a métrica para monitorar a distribuição de tráfego, identificar comandos muito usados e resolver gargalos em nós individuais.
redis.googleapis.com/cluster/node/cpu/utilization Essa métrica mostra a utilização da CPU para um nó de cluster (de 0,0 a 1,0).
redis.googleapis.com/cluster/node/stats/expired_keys_count Essa métrica mostra o número total de eventos de expiração em um nó de cluster. Use a métrica para monitorar a taxa em que as chaves são removidas do cluster porque o time to live (TTL) chega a zero.
redis.googleapis.com/cluster/node/stats/evicted_keys_count Essa métrica conta o número total de chaves que um nó de cluster remove porque o cluster atinge o limite máximo de memória. A métrica pode identificar se um cluster está com pressão de memória. Contagens altas ou crescentes de chaves removidas indicam que um cluster está ficando sem espaço. Como resultado, o cluster remove chaves para abrir espaço para novos dados.
redis.googleapis.com/cluster/node/keyspace/total_keys Essa métrica mede o número total de chaves que um nó de cluster armazena. A métrica oferece visibilidade da distribuição e do fragmentação de dados entre os nós.
redis.googleapis.com/cluster/node/stats/keyspace_hits_count Essa métrica rastreia o número de pesquisas de chaves bem-sucedidas em um nó de cluster. Use-a para monitorar a eficiência do nó ao recuperar dados na memória.
redis.googleapis.com/cluster/node/stats/keyspace_misses_count Essa métrica rastreia o número de pesquisas de chaves com falha em um nó de cluster.
redis.googleapis.com/cluster/node/memory/utilization Essa métrica rastreia a utilização da memória em um nó de cluster (de 0,0 a 1,0). É possível usar a métrica para evitar falhas de nós e garantir a estabilidade de um cluster.
redis.googleapis.com/cluster/node/memory/usage Essa métrica mede o uso da memória total de um nó de cluster.
redis.googleapis.com/cluster/node/stats/net_input_bytes_count Essa métrica mede o número total de bytes de rede recebidos por um nó de cluster. Você pode usar a métrica para monitorar a capacidade de processamento da rede, identificar possíveis gargalos e analisar picos de tráfego no nó.
redis.googleapis.com/cluster/node/stats/net_output_bytes_count Essa métrica mede o número total de bytes de rede de saída que um nó de cluster envia. É possível usar a métrica para monitorar o volume de saída de rede do nó para fins de ajuste de desempenho e planejamento de capacidade.
redis.googleapis.com/cluster/node/replication/offset Essa métrica mede os bytes de deslocamento de replicação de um nó de cluster. Antes de promover as réplicas de um cluster para clusters principais, use a métrica para verificar se as réplicas processaram todos os dados. Isso evita a perda de dados.
redis.googleapis.com/cluster/node/server/healthy Essa métrica determina se um nó de cluster está disponível e funcionando corretamente.
redis.googleapis.com/cluster/node/stats/evicted_clients_count Essa métrica rastreia o número total de clientes que o Memorystore for Redis Cluster desconecta porque a memória agregada consumida por todos os buffers de cliente excede um limite de memória predefinido. Você pode usar a métrica como um mecanismo de proteção para evitar que o uso da memória descontrolado pelos clientes esgote a memória do servidor e cause falhas.
redis.googleapis.com/cluster/node/clients/tracking_clients Essa métrica rastreia o número de clientes Redis ativos registrados para receber mensagens de rastreamento e invalidação do lado do servidor. É possível usar a métrica para monitorar e depurar implementações de cache do lado do cliente e garantir que o rastreamento do servidor esteja funcionando conforme o esperado.
redis.googleapis.com/cluster/node/clients/maxclients Essa métrica mostra o número máximo de conexões de cliente simultâneas que o Memorystore for Redis Cluster permite em um nó de cluster.
redis.googleapis.com/cluster/node/clients/recent_max_input_buffer Essa métrica informa o maior buffer de memória (em bytes) usado para processar um único comando de cliente recebido entre todas as conexões ativas. É possível usar a métrica para acompanhar a estabilidade da conexão e evitar o consumo excessivo de memória. Se o tamanho do buffer de entrada de um cliente específico atingir os limites de forma consistente, isso pode causar interrupções na rede ou conexões descartadas em todo o cluster.
redis.googleapis.com/cluster/node/clients/recent_max_output_buffer Essa métrica mede a maior lista de saída (em bytes) entre as conexões de cliente mais recentes a um servidor. Ela é um indicador vital da integridade do servidor porque identifica clientes que solicitam grandes quantidades de dados mais rápido do que o servidor pode enviar.
redis.googleapis.com/cluster/node/commandstats/rejected_calls_count A métrica mostra o número de comandos (chamadas) do Redis que um servidor rejeita antes de serem executados. Essas chamadas são acionadas por pré-condições, como erros de sintaxe no comando ou execução de comandos com restrição de memória quando a instância está sem memória (OOM).
redis.googleapis.com/cluster/node/commandstats/failed_calls_count Essa métrica rastreia o número de operações com falha em um nó de cluster. Use a métrica para avaliar se o aplicativo cliente transmite parâmetros inadequados ou está dessincronizado com o esquema do conjunto de dados. Além disso, é possível diagnosticar se um aumento nas falhas está correlacionado com a degradação do comando.
redis.googleapis.com/cluster/node/keyspace/keys_with_expiration Essa métrica rastreia o número de chaves ativas em um cluster que têm um time to live (TTL) ou um carimbo de data/hora de expiração definido. Use a métrica para monitorar limites de armazenamento em cache, uso da memória e gerenciamento de sessões.
redis.googleapis.com/cluster/node/memory/dataset_usage Essa métrica mede a quantidade de memória consumida por conjuntos de dados ou objetos de dados primários em um nó de cluster.
redis.googleapis.com/cluster/node/memory/mem_not_counted_for_evict

Essa métrica mostra a quantidade de memória que um servidor exclui quando avalia a memória necessária para a remoção de chaves.

Quando o Memorystore para Redis Cluster calcula se precisa desalojar chaves, ele compara a memória total alocada (used_memory) com o limite maxmemory configurado. No entanto, o valor de mem_not_counted_for_evict é subtraído dessa equação.

redis.googleapis.com/cluster/node/memory/number_of_cached_scripts Essa métrica rastreia o número total de scripts EVAL que um servidor armazena em cache em um nó de cluster. É possível usar a métrica para monitorar a sobrecarga associada aos scripts Lua no cluster.
redis.googleapis.com/cluster/node/memory/number_of_functions Essa métrica rastreia o número total de funções definidas em um nó de cluster.
redis.googleapis.com/cluster/node/memory/lua_usage Essa métrica rastreia o número de bytes que o Lua usa para scripts EVAL em um nó de cluster.
redis.googleapis.com/cluster/node/memory/replica_clients_usage

Essa métrica rastreia a quantidade de memória (em bytes) que os clientes de réplica consomem em um nó de cluster. A métrica mede a memória usada pelos clientes de réplica.

Como os buffers de réplica compartilham memória com o backlog de replicação, a métrica pode informar um valor de 0 quando as réplicas não acionam um aumento no uso da memória além do que é alocado para o backlog.

redis.googleapis.com/cluster/node/memory/normal_clients_usage Essa métrica rastreia a quantidade de memória (em bytes) que clientes não replicados usam em um nó de cluster. A métrica mede o consumo de memória de conexões de clientes não replicadas.
redis.googleapis.com/cluster/node/memory/peak_usage Essa métrica rastreia o pico de memória que o Memorystore para Redis Cluster consome em um nó do cluster. Ela mede a quantidade máxima de memória (em bytes) que o Memorystore para Redis Cluster usa desde a última vez que foi iniciado.
redis.googleapis.com/cluster/node/memory/rss_usage

Essa métrica rastreia o uso do tamanho do conjunto residente (RSS, na sigla em inglês) do Memorystore para Redis Cluster em um nó de cluster. A métrica representa o número de bytes alocados pelo Memorystore for Redis Cluster.

É fundamental monitorar o uso do RSS porque ele reflete o uso real da RAM física e pode detectar alta fragmentação da memória. Por exemplo, se o RSS se aproximar do limite do contêiner do cluster, isso poderá causar problemas de falta de memória.

redis.googleapis.com/cluster/node/memory/scripts_usage Essa métrica rastreia a sobrecarga de memória associada a scripts em um nó de cluster. Ela mede o número de bytes de sobrecarga de memória que a função EVAL usa. Essa memória é considerada parte do used_memory geral do cluster.
redis.googleapis.com/cluster/node/memory/maxmemory_policy Essa métrica rastreia a configuração da política de remoção para um nó de cluster. A métrica informa a configuração maxmemory-policy atual do nó, que determina como o Memorystore para Redis Cluster seleciona chaves para remoção quando atinge o limite maxmemory.
redis.googleapis.com/cluster/node/persistence/aof_enabled Essa métrica indica se a persistência de arquivo somente de anexação (AOF, na sigla em inglês) está ativada em um nó de cluster.
redis.googleapis.com/cluster/node/persistence/async_loading Essa métrica indica se o Memorystore para Redis Cluster carrega um conjunto de dados de replicação de forma assíncrona enquanto atende aos dados atuais. Ela rastreia o estado em que o Memorystore para Redis Cluster carrega o conjunto de dados. Isso ocorre quando a configuração repl-diskless-load está ativada e definida como swapdb.
redis.googleapis.com/cluster/node/persistence/loading Essa métrica indica se o Memorystore para Redis Cluster carrega um arquivo dump em um nó de cluster. É possível usar a métrica para avaliar se o Memorystore para Redis Cluster carrega dados de um armazenamento permanente, como um snapshot do banco de dados Redis (RDB) ou um arquivo AOF.
redis.googleapis.com/cluster/node/persistence/current_cow_peak

Essa métrica rastreia o uso da memória máximo associado a operações de cópia na gravação (COW, na sigla em inglês) durante um processo de fork secundário em um nó de cluster. Ela mede o tamanho máximo (em bytes) da memória COW enquanto um fork secundário é executado. Isso ocorre durante operações que envolvem a ramificação do processo, como a criação de um snapshot RDB ou a execução de uma reescrita AOF.

É importante monitorar o tamanho máximo de COW para o planejamento de capacidade e evitar problemas de falta de memória (OOM, na sigla em inglês), porque o uso total de memória do nó aumenta durante o processo de fork pela quantidade de dados modificados enquanto o fork está ativo.

redis.googleapis.com/cluster/node/persistence/current_cow_size

Essa métrica rastreia o tamanho atual da memória COW enquanto um processo de fork filho está ativo em um nó de cluster. A métrica mede o tamanho (em bytes) da memória copiada durante um processo de fork, como a criação de um instantâneo RDB ou a execução de uma reescrita de AOF.

Use a métrica para monitorar a sobrecarga de memória em tempo real de um fork em andamento.

redis.googleapis.com/cluster/node/persistence/rdb_last_bgsave_time_sec

Essa métrica rastreia a duração da operação de salvamento em segundo plano mais recente (BGSAVE) para um RDB em um nó de cluster. A métrica mede quanto tempo (em segundos) levou para concluir a última operação de salvamento do RDB.

Use a métrica para monitorar o impacto na performance das operações de persistência, principalmente durante eventos de manutenção ou escalonamento horizontal.

redis.googleapis.com/cluster/node/persistence/rdb_last_cow_size

Essa métrica rastreia o tamanho da memória COW durante a operação de salvamento do RDB mais recente em um nó de cluster. A métrica mede a quantidade de memória (em bytes) copiada enquanto o último snapshot RDB é criado em segundo plano.

É possível usar a métrica para depurar possíveis problemas com sincronizações completas durante a manutenção ou atualizações de configuração, porque ela fornece insights sobre a sobrecarga de memória do processo de persistência.

redis.googleapis.com/cluster/node/persistence/current_fork_percentage Essa métrica rastreia o progresso do processo de fork atual em um nó de cluster. Ela indica a porcentagem de conclusão das operações de fork ativas, como as usadas para snapshots de RDB ou reescritas de AOF.
redis.googleapis.com/cluster/node/persistence/aof_rewrite_in_progress Essa métrica fornece um status em tempo real (1 para verdadeiro e 0 para falso) sobre se o Memorystore for Redis Cluster executa uma reescrita de AOF em um nó de cluster. Use a métrica para determinar se as operações AOF em segundo plano contribuem para aumentos perceptíveis na latência ou no uso da memória. As operações de reescrita podem causar picos de carga transitórios.
redis.googleapis.com/cluster/node/persistence/aof_last_cow_size

Essa métrica rastreia o tamanho da memória COW usada durante a operação de reescrita de AOF mais recente em um nó de cluster. A métrica mede a quantidade de memória (em bytes) que o Memorystore for Redis Cluster copia enquanto realiza a última reescrita do AOF em segundo plano.

Use a métrica para monitorar o tamanho da memória COW durante as operações de persistência. Isso é fundamental para o planejamento de capacidade, porque o uso total de memória do nó aumenta durante o processo de fork pela quantidade de dados modificados enquanto o fork está ativo. Se você não gerenciar a memória COW, poderá ter problemas de falta de memória no cluster.

redis.googleapis.com/cluster/node/persistence/aof_last_rewrite_time_sec Essa métrica mede quanto tempo (em segundos) leva para a operação de reescrita de AOF em segundo plano mais recente ser concluída em um nó de cluster. Use a métrica para avaliar o impacto da persistência AOF em segundo plano na performance e entender a duração dos picos de carga temporários causados por operações de reescrita.
redis.googleapis.com/cluster/node/errorstats/errors_count Essa métrica oferece uma visão detalhada dos erros derivados da seção ERRORSTATS das estatísticas internas do cluster do Memorystore para Redis. Ela mede a mudança na contagem de erros em um intervalo.
redis.googleapis.com/cluster/node/stats/acl_access_denied_auths_count Essa métrica informa o número total de falhas de autenticação de acesso negado da lista de controle de acesso (ACL) em um intervalo.
redis.googleapis.com/cluster/node/stats/expire_cycle_cpu_millisecond_count Essa métrica mede a quantidade cumulativa de tempo de CPU gasto em ciclos de expiração ativos em um intervalo.
redis.googleapis.com/cluster/node/stats/expired_keys_percentage Essa métrica mostra a porcentagem estimada de chaves expiradas em um determinado momento. A métrica fornece insights sobre o processo de expiração. Se a porcentagem for consistentemente alta, talvez o Memorystore for Redis Cluster não aloque ciclos de CPU em segundo plano suficientes para acompanhar a taxa de expiração de chaves.
redis.googleapis.com/cluster/node/stats/expired_time_cap_reached_count Essa métrica mede a contagem cumulativa de ciclos que atingiram o limite de tempo em um intervalo. Um valor alto ou crescente para a métrica geralmente está relacionado ao uso da memória por chaves expiradas. Para manter a integridade do conjunto de dados, talvez sejam necessários mais ciclos de CPU em segundo plano.
redis.googleapis.com/cluster/node/stats/pubsub_channels Essa métrica mostra o número global de canais do Pub/Sub que têm assinaturas de clientes.
redis.googleapis.com/cluster/node/stats/pubsub_patterns Essa métrica mostra o número global de padrões do Pub/Sub que têm assinaturas de clientes.
redis.googleapis.com/cluster/node/stats/pubsubshard_channels Essa métrica mostra o número global de canais de fragmento do Pub/Sub que têm assinaturas de clientes.
redis.googleapis.com/cluster/node/stats/total_fork_count

Essa métrica mede a mudança no número total de forks em um intervalo. A métrica é um indicador principal da atividade em segundo plano do Memorystore for Redis Cluster.

É possível usar a métrica para monitorar a frequência de fork no planejamento de capacidade, já que cada processo de fork envolve memória COW, que aumenta o consumo de memória geral de um nó de cluster.

redis.googleapis.com/cluster/node/stats/tracking_total_keys Essa métrica mostra o número de chaves rastreadas pelo Memorystore para Redis Cluster. A métrica é um componente do recurso de rastreamento do lado do servidor, que permite aos clientes manter um cache local invalidado quando as chaves mudam no Memorystore for Redis Cluster.
redis.googleapis.com/cluster/node/stats/tracking_total_items Essa métrica mostra o número total de itens rastreados pelo Memorystore para Redis Cluster. Ela representa a soma de todos os clientes que assistem a cada chave.
redis.googleapis.com/cluster/node/stats/tracking_total_prefixes Essa métrica mostra o número de prefixos rastreados na tabela prefix do Memorystore para Redis Cluster.
redis.googleapis.com/cluster/node/stats/latest_fork_usec Essa métrica mostra a duração da operação de fork mais recente (em microssegundos).
redis.googleapis.com/cluster/node/replication/primary_sync_in_progress

Essa métrica mostra se um cluster principal está sincronizando com uma réplica. Um valor de 1 indica que a sincronização está em andamento. Um valor de 0 significa que o cluster não está sincronizando com a réplica.

Use a métrica para resolver problemas de consistência de dados e entender o progresso de eventos de escalonamento horizontal ou manutenção.

redis.googleapis.com/cluster/node/replication/sync_partial_ok_count Essa métrica mede o número de tentativas de resincronização parcial bem-sucedidas.
redis.googleapis.com/cluster/node/replication/sync_partial_err_count

Essa métrica mede o número de tentativas de resincronização parcial com falha.

É possível usar a métrica como um indicador da integridade da replicação. Quando uma ressincronização parcial falha, a réplica precisa fazer uma ressincronização completa. Isso envolve a criação de um snapshot do RDB no cluster primário e a transferência de todo o conjunto de dados pela rede.

redis.googleapis.com/cluster/node/replication/sync_full_count

Essa métrica mede a mudança no número de resincronizações completas que um cluster principal tem com uma réplica. Uma resincronização completa ocorre quando uma parcial falha. Isso acontece quando o backlog de replicação no cluster principal não é grande o suficiente para armazenar os dados que a réplica perdeu durante uma desconexão.

Você pode usar a métrica para diagnosticar problemas de integridade e capacidade de replicação do cluster.

redis.googleapis.com/cluster/node/memory/maxmemory

Essa métrica reflete a configuração maxmemory de um nó do cluster, que é a quantidade máxima de memória que o Memorystore for Redis Cluster pode consumir. Essa configuração determina quando o Memorystore para Redis Cluster começa a desalojar chaves, com base na configuração definida para maxmemory-policy.

É possível usar a métrica para planejamento de capacidade e solução de problemas de falta de memória (OOM), porque ela define o limite superior do uso da memória para armazenamento de dados e sobrecarga do servidor.

Para mais informações sobre as configurações maxmemory e maxmemory-policy, consulte Parâmetros de configuração modificáveis.

Métricas de replicação entre regiões

Nesta seção, listamos e descrevemos as métricas de replicação entre regiões.

Nome da métrica Descrição
redis.googleapis.com/cluster/cross_cluster_replication/secondary_replication_links Essa métrica mostra o número de links de fragmento entre os clusters principal e secundário. Em um grupo de replicação entre regiões, um cluster principal informa o número de links de replicação de CRR que tem com os clusters secundários do grupo. Para cada cluster secundário, esse número deve ser igual ao número de fragmentos. Se, inesperadamente, o número cair abaixo do número de fragmentos, isso vai identificar o número de fragmentos em que a replicação entre o replicador e o seguidor foi interrompida. Em um estado ideal, essa métrica deve ter o mesmo número que a contagem de fragmentos do cluster principal.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_maximum_replication_offset_diff Essa métrica mede a diferença máxima de deslocamento de replicação (em bytes) entre os shards primários e secundários (réplica) de um cluster em diferentes regiões.
redis.googleapis.com/cluster/cross_cluster_replication/secondary_average_replication_offset_diff Essa métrica mede a diferença média de deslocamento de replicação (em bytes) entre os shards principais e de réplica de um cluster em diferentes regiões. Valores altos para a métrica indicam um atraso na replicação, que pode ser resolvido pausando e retomando a replicação.

Métricas JSON

Esta seção lista métricas no nível do nó para documentos JSON.

Métricas no nível do nó

Essas métricas oferecem insights detalhados sobre o número total de documentos JSON e a quantidade de memória que eles consomem.

Nome da métrica Descrição
redis.googleapis.com/cluster/node/json/documents_count Essa métrica mede o número total de documentos JSON localizados em um nó de cluster. É possível usar a métrica para rastrear a distribuição e a capacidade de dados, porque ela mostra quantos documentos são indexados, excluídos ou mesclados no nível do nó.
redis.googleapis.com/cluster/node/json/used_memory Essa métrica mede a quantidade de memória (em bytes ou como uma porcentagem da memória disponível) que os documentos JSON consomem. Use a métrica para monitorar a capacidade, identificar nós vinculados à memória e acionar ações de escalonamento.

Métricas de persistência

Esta seção lista e descreve as métricas de persistência.

Métricas de persistência do RDB

Esta seção lista e descreve as métricas de persistência do RDB.

Métricas no nível do cluster

Esta seção lista e descreve as métricas de persistência de RDB no nível do cluster.

Nome da métrica Descrição
redis.googleapis.com/cluster/persistence/rdb_saves_count

Essa métrica rastreia o número cumulativo de vezes que um snapshot de persistência do RDB (também conhecido como salvamento do RDB) é feito em um nó de cluster. Use a métrica para monitorar a frequência e o sucesso dos snapshots de RDB por nó.

A métrica tem um campo status_code. Para verificar se um snapshot do RDB falhou, filtre o campo status_code pelo status 3 - INTERNAL_ERROR.

redis.googleapis.com/cluster/persistence/rdb_save_ages Essa métrica mostra a idade de um snapshot de distribuição para todos os nós em um cluster. Em caso de um incidente de recuperação, use a métrica para conferir o período de defasagem dos dados. O ideal é que a distribuição tenha valores com menos tempo de atraso (ou o mesmo tempo de atraso) que a frequência de snapshots.

Métricas no nível do nó

Nome da métrica Descrição
redis.googleapis.com/cluster/node/persistence/rdb_bgsave_in_progress Essa métrica indica se um salvamento em segundo plano de RDB (BGSAVE) está ativo em um nó de cluster. O status TRUE significa que o BGSAVE está ativo.
redis.googleapis.com/cluster/node/persistence/rdb_last_bgsave_status Essa métrica indica se a operação BGSAVE em um nó de cluster foi concluída ou encontrou um erro. Um status TRUE significa que a operação foi concluída.
redis.googleapis.com/cluster/node/persistence/rdb_saves_count Essa métrica rastreia o número cumulativo de snapshots de RDB criados em um nó de cluster. É possível usar a métrica para monitorar a frequência e o sucesso dos snapshots no nó.
redis.googleapis.com/cluster/node/persistence/rdb_last_save_age Essa métrica mede o tempo, em segundos, decorrido desde o último snapshot do RDB concluído. É possível usar a métrica para monitorar a defasagem dos dados de persistência do RDB em um nó de cluster.
redis.googleapis.com/cluster/node/persistence/rdb_next_save_time_until Essa métrica mede o tempo restante, em segundos, até que o próximo snapshot do RDB seja programado para ocorrer em um nó de cluster. Use a métrica para monitorar o cronograma de persistência do RDB e acompanhar quando o próximo snapshot automático será criado.
redis.googleapis.com/cluster/node/persistence/current_save_keys_total Essa métrica rastreia o número total de chaves processadas na operação de salvamento do RDB atual em um nó de cluster.

Métricas de persistência de AOF

Esta seção lista e descreve as métricas de persistência do AOF.

Métricas no nível do cluster

Esta seção lista e descreve as métricas de persistência de AOF no nível do cluster.

Nome da métrica Descrição
redis.googleapis.com/cluster/persistence/aof_fsync_lags

Essa métrica mede a diferença de tempo (ou atraso) para todos os nós em um cluster que passa entre a gravação de dados no AOF e quando esses dados são sincronizados com sucesso no armazenamento durável.

Quando o parâmetro appendfsync é definido como everysec, é possível usar a métrica para avaliar a integridade da persistência do cluster. O ideal é que a distribuição do atraso tenha valores com menos tempo de atraso (ou o mesmo tempo) do que a frequência de sincronização do AOF.

redis.googleapis.com/cluster/persistence/aof_rewrite_count

Essa métrica rastreia o número cumulativo de vezes que um nó de cluster aciona uma operação de reescrita de AOF. Você pode usar a métrica para diagnosticar problemas de desempenho, porque uma alta frequência de reescritas de AOF pode causar picos de latência ou pressão de memória no cluster.

A métrica tem um campo status_code. Para verificar se as reescritas de AOF falham, filtre esse campo pelo status 3 - INTERNAL_ERROR.

Métricas no nível do nó

Esta seção lista e descreve as métricas de persistência AOF no nível do nó.

Nome da métrica Descrição
redis.googleapis.com/cluster/node/persistence/aof_last_write_status Essa métrica mostra o status da última operação de gravação no arquivo AOF em um nó de cluster. Se o status for TRUE, a operação de gravação será bem-sucedida. Use a métrica para verificar se o Memorystore para Redis Cluster persiste os dados corretamente.
redis.googleapis.com/cluster/node/persistence/aof_last_bgrewrite_status Essa métrica mostra o status da última operação de bgrewrite AOF em um nó de cluster. Se o status for TRUE, a operação foi bem-sucedida.
redis.googleapis.com/cluster/node/persistence/aof_fsync_lag

Essa métrica mede a diferença de tempo (ou atraso) para um nó de cluster que passa entre a gravação de dados no AOF e quando esses dados são sincronizados com sucesso no armazenamento durável.

Quando o parâmetro appendfsync é definido como everysec, é possível usar a métrica para avaliar a integridade da persistência do nó. Se o processo de sincronização de dados levar mais de um segundo, a persistência vai ficar atrás dos dados recebidos, o que pode levar à degradação do desempenho ou à perda de dados em caso de falha.

redis.googleapis.com/cluster/node/persistence/aof_rewrites_count

Essa métrica rastreia o número cumulativo de vezes que um nó de cluster aciona uma operação de reescrita de AOF. Você pode usar a métrica para diagnosticar problemas de performance. Altas frequências de reescritas de AOF podem levar ao aumento da latência ou da pressão de memória no cluster.

A métrica tem um campo status_code. Para verificar se as reescritas de AOF falham, filtre esse campo pelo status 3 - INTERNAL_ERROR.

redis.googleapis.com/cluster/node/persistence/aof_fsync_errors_count Essa métrica rastreia o número cumulativo de vezes que a chamada de sistema fsync() do AOF falha em um nó do cluster. A métrica é aplicável somente a clusters ativados para AOF em que o parâmetro appendfsync está definido como everysec ou always.

Métricas comuns de persistência

Esta seção lista e descreve as métricas aplicáveis à persistência AOF e RDB.

Métricas no nível do nó

Esta seção lista e descreve as métricas de persistência AOF e RDB no nível do nó.

Nome da métrica Descrição
redis.googleapis.com/cluster/node/persistence/auto_restore_count

Essa métrica rastreia o número cumulativo de vezes que um nó de cluster é restaurado automaticamente de um arquivo dump de persistência (AOF ou RDB).

A métrica tem um campo status_code. Para verificar se as restaurações falham, filtre esse campo pelo status 3 - INTERNAL_ERROR.

Exemplos de casos de uso para métricas de persistência

Esta seção descreve exemplos de casos de uso para métricas de persistência AOF e RDB.

Verificar se as operações de gravação de AOF causam latência e pressão de memória

Suponha que você detecte um aumento na latência ou no uso da memória em um cluster ou um nó dentro do cluster. Se isso acontecer, verifique se o uso extra está relacionado à persistência de AOF.

As operações de reescrita de AOF podem acionar picos de carga temporários. Recomendamos que você inspecione a métrica aof_rewrites_count, porque ela fornece a contagem cumulativa de reescritas de AOF durante a vida útil do cluster ou do nó do cluster.

Suponha que essa métrica mostre que os incrementos na contagem de reescritas correspondem a aumentos na latência. Para reduzir a frequência de reescritas, diminua a taxa de gravação ou aumente a contagem de fragmentos.

Verificar se as operações de salvamento do RDB causam latência e pressão de memória

Suponha que você detecte um aumento na latência ou no uso da memória em um cluster ou um nó dentro dele. Se isso acontecer, verifique se o uso extra está relacionado à persistência do RDB.

As operações de salvamento do RDB podem gerar picos de carga temporários. Recomendamos que você inspecione a métrica rdb_saves_count, porque ela fornece a contagem cumulativa de salvamentos de RDB durante o ciclo de vida do cluster ou do nó do cluster.

Suponha que essa métrica mostre que os incrementos na contagem de salvamentos do RDB correspondem a aumentos de latência. Para diminuir a frequência dos salvamentos de RDB, aumente o intervalo de snapshots do RDB. Além disso, para reduzir os níveis de carga de base, escalonar horizontalmente o cluster.

Interpretar métricas do Memorystore for Redis Cluster

Muitas métricas pertencem às seguintes categorias: média, máximo e total.

Oferecemos variações média e máxima da mesma métrica para que você possa usar as duas e identificar pontos de destaque para essa família.

O valor total da métrica é independente das variações média e máxima da métrica. Esse valor fornece insights separados e não relacionados ao propósito das variações para pontos de acesso.

Entender as métricas de média e máxima

Suponha que você compare os valores das métricas average_keyspace_hits e maximum_keyspace_hits de um cluster. À medida que a diferença entre as duas métricas aumenta, uma diferença maior indica mais hotspots para hits no cluster. Um valor próximo entre as métricas indica que os hits estão distribuídos de maneira mais uniforme entre os nós do cluster.

Esse princípio se aplica a todas as métricas que têm as variações média e máxima da mesma métrica.

Exemplo de ponto de acesso

Se você comparar os valores das métricas average_keyspace_hits e maximum_keyspace_hits para todos os fragmentos em um cluster, poderá determinar em quais fragmentos ocorrem pontos de acesso. Por exemplo, suponha que os fragmentos em um cluster de seis fragmentos tenham o seguinte número de hits:

  • Fragmento 1: 2 hits
  • Fragmento 2: 2 hits
  • Fragmento 3: 2 hits
  • Fragmento 4: 2 hits
  • Fragmento 5: 2 hits
  • Fragmento 6: 8 hits

Neste exemplo, a métrica average_keyspace_hits retorna um valor de 3, mas a métrica maximum_keyspace_hits retorna um valor de 8. Os hits não são distribuídos uniformemente entre os fragmentos no cluster. O fragmento 6 é um ponto de acesso porque processa uma quantidade desproporcionalmente alta de tráfego.