added missing shard metrics, still lacking shard replication descriptions

j8-redis · slorello89 · commit 83473021beb7 · 2025-09-15T08:39:26.000-04:00
diff --git a/redis_enterprise/assets/dashboards/redis_enterprise_proxy-threads.json b/redis_enterprise/assets/dashboards/redis_enterprise_proxy-threads.json
@@ -1,5 +1,5 @@
 {
-  "title": "Redis Enterprise - Proxy Threads",
+  "title": "Redis Enterprise - Proxy Threads v2",
   "description": "Redis Enterprise Proxy Threads are the individual threads of the proxy process",
   "widgets": [
     {
@@ -57,13 +57,12 @@
               "title_size": "16",
               "title_align": "left",
               "show_legend": true,
-              "legend_layout": "auto",
+              "legend_layout": "vertical",
               "legend_columns": [
                 "avg",
                 "min",
                 "max",
-                "value",
-                "sum"
+                "value"
               ],
               "time": {},
               "type": "timeseries",
@@ -164,7 +163,7 @@
                     {
                       "data_source": "metrics",
                       "name": "query2",
-                      "query": "avg:rdse.redis_process_main_thread_cpu_system_seconds_total{$cluster,threadname:listener.*,mode:user} by {node}"
+                      "query": "sum:rdse2.namedprocess_namegroup_thread_cpu_seconds.count{$cluster,mode:user, threadname:listener}.as_rate()"
                     }
                   ],
                   "response_format": "timeseries",
@@ -218,8 +217,8 @@
                     {
                       "data_source": "metrics",
                       "name": "query1",
-                      "query": "avg:rdse.redis_process_open_fds{$cluster}",
-                      "aggregator": "avg"
+                      "query": "avg:rdse2.namedprocess_namegroup_open_filedesc{$cluster}",
+                      "aggregator": "last"
                     }
                   ],
                   "formulas": [
@@ -230,7 +229,7 @@
                 }
               ],
               "autoscale": true,
-              "precision": 2,
+              "precision": 0,
               "timeseries_background": {
                 "type": "area"
               }
@@ -256,8 +255,8 @@
                     {
                       "data_source": "metrics",
                       "name": "query1",
-                      "query": "avg:rdse.redis_process_max_fds{$cluster}",
-                      "aggregator": "avg"
+                      "query": "avg:rdse2.namedprocess_namegroup_open_filedesc{$cluster}",
+                      "aggregator": "max"
                     }
                   ],
                   "formulas": [
@@ -268,7 +267,7 @@
                 }
               ],
               "autoscale": true,
-              "precision": 2,
+              "precision": 0,
               "timeseries_background": {
                 "type": "area"
               }
@@ -294,7 +293,7 @@
                     {
                       "data_source": "metrics",
                       "name": "query1",
-                      "query": "avg:rdse.redis_process_resident_memory_bytes{$cluster}",
+                      "query": "avg:rdse2.redis_server_allocator_resident{$cluster}",
                       "aggregator": "avg"
                     }
                   ],
@@ -350,7 +349,7 @@
               "title_size": "16",
               "title_align": "left",
               "show_legend": true,
-              "legend_layout": "horizontal",
+              "legend_layout": "auto",
               "legend_columns": [
                 "avg",
                 "min",
diff --git a/redis_enterprise/datadog_checks/redis_enterprise/metrics.py b/redis_enterprise/datadog_checks/redis_enterprise/metrics.py
@@ -178,6 +178,44 @@
     'database_syncer_total_responses': 'database_syncer_total_responses',
 }
 
+REDIS_SHARD_REPLICATION = {
+    'redis_crdt_backlog_histlen': 'redis_crdt_backlog_histlen',
+    'redis_crdt_backlog_idx': 'redis_crdt_backlog_idx',
+    'redis_crdt_backlog_master_offset': 'redis_crdt_backlog_master_offset',
+    'redis_crdt_backlog_offset': 'redis_crdt_backlog_offset',
+    'redis_crdt_backlog_refs': 'redis_crdt_backlog_refs',
+    'redis_crdt_backlog_size': 'redis_crdt_backlog_size',
+    'redis_crdt_clock': 'redis_crdt_clock',
+    'redis_crdt_effect_reqs': 'redis_crdt_effect_reqs',
+    'redis_crdt_gc_attempted': 'redis_crdt_gc_attempted',
+    'redis_crdt_gc_collected': 'redis_crdt_gc_collected',
+    'redis_crdt_gc_elements_attempted': 'redis_crdt_gc_elements_attempted',
+    'redis_crdt_gc_elements_collected': 'redis_crdt_gc_elements_collected',
+    'redis_crdt_gc_pending': 'redis_crdt_gc_pending',
+    'redis_crdt_gc_skipped': 'redis_crdt_gc_skipped',
+    'redis_crdt_key_headers': 'redis_crdt_key_headers',
+    'redis_crdt_list_trimmed_vertices': 'redis_crdt_list_trimmed_vertices',
+    'redis_crdt_merge_reqs': 'redis_crdt_merge_reqs',
+    'redis_crdt_oom_latch': 'redis_crdt_oom_latch',
+    'redis_crdt_ovc_filtered_effect_reqs': 'redis_crdt_ovc_filtered_effect_reqs',
+    'redis_crdt_peer_dst_id': 'redis_crdt_peer_dst_id',
+    'redis_crdt_peer_id': 'redis_crdt_peer_id',
+    'redis_crdt_peer_lag': 'redis_crdt_peer_lag',
+    'redis_crdt_peer_offset': 'redis_crdt_peer_offset',
+    'redis_crdt_peer_peer_state': 'redis_crdt_peer_peer_state',
+    'redis_crdt_pending_list_trimmed_vertices': 'redis_crdt_pending_list_trimmed_vertices',
+    'redis_crdt_raw_dbsize': 'redis_crdt_raw_dbsize',
+    'redis_crdt_replica_config_version': 'redis_crdt_replica_config_version',
+    'redis_crdt_replica_max_ops_lag': 'redis_crdt_replica_max_ops_lag',
+    'redis_crdt_replica_min_ops_lag': 'redis_crdt_replica_min_ops_lag',
+    'redis_crdt_replica_shards': 'redis_crdt_replica_shards',
+    'redis_crdt_replica_slot_coverage_by_any_ovc': 'redis_crdt_replica_slot_coverage_by_any_ovc',
+    'redis_crdt_replica_slot_coverage_by_only_ovc': 'redis_crdt_replica_slot_coverage_by_only_ovc',
+    'redis_crdt_replica_slots': 'redis_crdt_replica_slots',
+    'redis_crdt_stale_replica': 'redis_crdt_stale_replica',
+    'redis_crdt_ts_key_headers': 'redis_crdt_ts_key_headers',
+}
+
 REDIS_LDAP = {
     'directory_cache_hits': 'directory_cache_hits',
     'directory_cache_miss_then_hits': 'directory_cache_miss_then_hits',
@@ -358,64 +396,6 @@
     'node_pressure_memory_waiting_seconds_total': 'node_pressure_memory_waiting_seconds_total',
 }
 
-REDIS_PROXY = {
-    'listener_acc_latency': 'listener_acc_latency',
-    'listener_acc_latency_max': 'listener_acc_latency_max',
-    'listener_acc_other_latency': 'listener_acc_other_latency',
-    'listener_acc_other_latency_max': 'listener_acc_other_latency_max',
-    'listener_acc_read_latency': 'listener_acc_read_latency',
-    'listener_acc_read_latency_max': 'listener_acc_read_latency_max',
-    'listener_acc_write_latency': 'listener_acc_write_latency',
-    'listener_acc_write_latency_max': 'listener_acc_write_latency_max',
-    'listener_auth_cmds': 'listener_auth_cmds',
-    'listener_auth_cmds_max': 'listener_auth_cmds_max',
-    'listener_auth_errors': 'listener_auth_errors',
-    'listener_auth_errors_max': 'listener_auth_errors_max',
-    'listener_cmd_flush': 'listener_cmd_flush',
-    'listener_cmd_flush_max': 'listener_cmd_flush_max',
-    'listener_cmd_get': 'listener_cmd_get',
-    'listener_cmd_get_max': 'listener_cmd_get_max',
-    'listener_cmd_set': 'listener_cmd_set',
-    'listener_cmd_set_max': 'listener_cmd_set_max',
-    'listener_cmd_touch': 'listener_cmd_touch',
-    'listener_cmd_touch_max': 'listener_cmd_touch_max',
-    'listener_conns': 'listener_conns',
-    'listener_egress_bytes': 'listener_egress_bytes',
-    'listener_egress_bytes_max': 'listener_egress_bytes_max',
-    'listener_ingress_bytes': 'listener_ingress_bytes',
-    'listener_ingress_bytes_max': 'listener_ingress_bytes_max',
-    'listener_last_req_time': 'listener_last_req_time',
-    'listener_last_res_time': 'listener_last_res_time',
-    'listener_max_connections_exceeded': 'listener_max_connections_exceeded',
-    'listener_max_connections_exceeded_max': 'listener_max_connections_exceeded_max',
-    'listener_monitor_sessions_count': 'listener_monitor_sessions_count',
-    'listener_other_req': 'listener_other_req',
-    'listener_other_req_max': 'listener_other_req_max',
-    'listener_other_res': 'listener_other_res',
-    'listener_other_res_max': 'listener_other_res_max',
-    'listener_other_started_res': 'listener_other_started_res',
-    'listener_other_started_res_max': 'listener_other_started_res_max',
-    'listener_read_req': 'listener_read_req',
-    'listener_read_req_max': 'listener_read_req_max',
-    'listener_read_res': 'listener_read_res',
-    'listener_read_res_max': 'listener_read_res_max',
-    'listener_read_started_res': 'listener_read_started_res',
-    'listener_read_started_res_max': 'listener_read_started_res_max',
-    'listener_total_connections_received': 'listener_total_connections_received',
-    'listener_total_connections_received_max': 'listener_total_connections_received_max',
-    'listener_total_req': 'listener_total_req',
-    'listener_total_req_max': 'listener_total_req_max',
-    'listener_total_res': 'listener_total_res',
-    'listener_total_res_max': 'listener_total_res_max',
-    'listener_total_started_res': 'listener_total_started_res',
-    'listener_total_started_res_max': 'listener_total_started_res_max',
-    'listener_write_req': 'listener_write_req',
-    'listener_write_req_max': 'listener_write_req_max',
-    'listener_write_res': 'listener_write_res',
-    'listener_write_res_max': 'listener_write_res_max',
-    'listener_write_started_res': 'listener_write_started_res',
-    'listener_write_started_res_max': 'listener_write_started_res_max',
-}
 
 DEFAULT_METRICS = [
     REDIS_CLUSTER,
@@ -427,6 +407,7 @@
 
 ADDITIONAL_METRICS = {
     'REDIS2.REPLICATION': REDIS_REPLICATION,
+    'REDIS2.SHARDREPL': REDIS_SHARD_REPLICATION,
     'REDIS2.LDAP': REDIS_LDAP,
     'REDIS2.NETWORK': REDIS_NETWORK,
     'REDIS2.MEMORY': REDIS_MEMORY,
diff --git a/redis_enterprise/metadata.csv b/redis_enterprise/metadata.csv
@@ -285,6 +285,56 @@ rdse2.promhttp_metric_handler_requests_in_flight,gauge,30,request,,Current numbe
 rdse2.promhttp_metric_handler_requests_total,gauge,30,request,,Total number of scrapes by HTTP status code.,1,redis_enterprise_veetwo,promhttp_metric_handler_requests_total,
 rdse2.proxy_accepted_connections,connection,30,connection,,Number of incoming accepted client connections,1,redis_enterprise_veetwo,proxy_accepted_connections,
 rdse2.proxy_dispatch_failures,gauge,30,second,,Number of client closed due to failure to be dispatched to workers,1,redis_enterprise_veetwo,proxy_dispatch_failures,
+rdse2.redis_server_active_defrag_running,gauge,30,status,,Automatic memory defragmentation current aggressiveness (% cpu),1,redis_enterprise_veetwo,redis_server_active_defrag_running,
+rdse2.redis_server_allocator_active,gauge,30,byte,,Total used memory, including external fragmentation,1,redis_enterprise_veetwo,redis_server_allocator_active,
+rdse2.redis_server_allocator_allocated,gauge,30,byte,,Total allocated memory,1,redis_enterprise_veetwo,redis_server_allocator_allocated,
+rdse2.redis_server_allocator_resident,gauge,30,byte,,Total resident memory (RSS),1,redis_enterprise_veetwo,redis_server_allocator_resident,
+rdse2.redis_server_aof_last_cow_size,gauge,30,byte,,Last AOFR, CopyOnWrite memory,1,redis_enterprise_veetwo,redis_server_aof_last_cow_size,
+rdse2.redis_server_aof_rewrite_in_progress,gauge,30,status,,The number of simultaneous AOF rewrites that are in progress,1,redis_enterprise_veetwo,redis_server_aof_rewrite_in_progress,
+rdse2.redis_server_aof_rewrites,gauge,30,event,,Number of AOF rewrites this process executed,1,redis_enterprise_veetwo,redis_server_aof_rewrites,
+rdse2.redis_server_aof_delayed_fsync,gauge,30,event,,Number of times an AOF fsync caused delays in the main Redis thread (inducing latency); this can indicate that the disk is slow or overloaded,1,redis_enterprise_veetwo,redis_server_aof_delayed_fsync,
+rdse2.redis_server_blocked_clients,gauge,30,connection,,Count the clients waiting on a blocking call,1,redis_enterprise_veetwo,redis_server_blocked_clients,
+rdse2.redis_server_connected_clients,gauge,30,connection,,Number of client connections to the specific shard,1,redis_enterprise_veetwo,redis_server_connected_clients,
+rdse2.redis_server_connected_slaves,gauge,30,connection,,Number of connected replicas,1,redis_enterprise_veetwo,redis_server_connected_slaves,
+rdse2.redis_server_db0_avg_ttl,gauge,30,time,,Average TTL of all volatile keys,1,redis_enterprise_veetwo,redis_server_db0_avg_ttl,
+rdse2.redis_server_expired_keys,gauge,30,key,,Total count of volatile keys,1,redis_enterprise_veetwo,redis_server_expired_keys,
+rdse2.redis_server_db0_keys,gauge,30,key,,Total key count,1,redis_enterprise_veetwo,redis_server_db0_keys,
+rdse2.redis_server_evicted_keys,gauge,30,key,,Keys evicted so far (since restart),1,redis_enterprise_veetwo,redis_server_evicted_keys,
+rdse2.redis_server_expire_cycle_cpu_milliseconds,gauge,30,ms,,The cumulative amount of time spent on active expiry cycles,1,redis_enterprise_veetwo,redis_server_expire_cycle_cpu_milliseconds,
+rdse2.redis_server_expired_keys,gauge,30,key,,Keys expired so far (since restart),1,redis_enterprise_veetwo,redis_server_expired_keys,
+rdse2.redis_server_forwarding_state,gauge,30,status,,Shard forwarding state (on or off),1,redis_enterprise_veetwo,redis_server_forwarding_state,
+rdse2.redis_server_keys_trimmed,gauge,30,key,,The number of keys that were trimmed in the current or last resharding process,1,redis_enterprise_veetwo,redis_server_keys_trimmed,
+rdse2.redis_server_keyspace_read_hits,gauge,30,hits,,Number of read operations accessing an existing keyspace,1,redis_enterprise_veetwo,redis_server_keyspace_read_hits,
+rdse2.redis_server_keyspace_read_misses,gauge,30,miss,,Number of read operations accessing a non-existing keyspace,1,redis_enterprise_veetwo,redis_server_keyspace_read_misses,
+rdse2.redis_server_keyspace_write_hits,gauge,30,hit,,Number of write operations accessing an existing keyspace,1,redis_enterprise_veetwo,redis_server_keyspace_write_hits,
+rdse2.redis_server_keyspace_write_misses,gauge,30,miss,,Number of write operations accessing a non-existing keyspace,1,redis_enterprise_veetwo,redis_server_keyspace_write_misses,
+rdse2.redis_server_master_link_status,gauge,30,status,,Indicates if the replica is connected to its master,1,redis_enterprise_veetwo,redis_server_master_link_status,
+rdse2.redis_server_master_repl_offset,gauge,30,byte,,Number of bytes sent to replicas by the shard; calculate the throughput for a time period by comparing the value at different times,1,redis_enterprise_veetwo,redis_server_master_repl_offset,
+rdse2.redis_server_master_sync_in_progress,gauge,30,status,,The master shard is synchronizing (1 true,1,redis_enterprise_veetwo,redis_server_master_sync_in_progress,
+rdse2.redis_server_max_process_mem,gauge,30,byte,,Current memory limit configured by redis_mgr according to node free memory,1,redis_enterprise_veetwo,redis_server_max_process_mem,
+rdse2.redis_server_maxmemory,gauge,30,byte,,Current memory limit configured by redis_mgr according to database memory limits,1,redis_enterprise_veetwo,redis_server_maxmemory,
+rdse2.redis_server_mem_aof_buffer,gauge,30,byte,,Current size of AOF buffer,1,redis_enterprise_veetwo,redis_server_mem_aof_buffer,
+rdse2.redis_server_mem_clients_normal,gauge,30,session,,Current memory used for input and output buffers of non-replica clients,1,redis_enterprise_veetwo,redis_server_mem_clients_normal,
+rdse2.redis_server_mem_clients_slaves,gauge,30,session,,Current memory used for input and output buffers of replica clients,1,redis_enterprise_veetwo,redis_server_mem_clients_slaves,
+rdse2.redis_server_mem_fragmentation_ratio,gauge,30,percent,,Memory fragmentation ratio (1.3 means 30% overhead),1,redis_enterprise_veetwo,redis_server_mem_fragmentation_ratio,
+rdse2.redis_server_mem_not_counted_for_evict,gauge,30,byte,,Portion of used_memory (in bytes) that's not counted for eviction and OOM error,1,redis_enterprise_veetwo,redis_server_mem_not_counted_for_evict,
+rdse2.redis_server_mem_replication_backlog,gauge,30,byte,,Size of replication backlog,1,redis_enterprise_veetwo,redis_server_mem_replication_backlog,
+rdse2.redis_server_module_fork_in_progress,gauge,30,status,,A binary value that indicates if there is an active fork spawned by a module (1) or not (0),1,redis_enterprise_veetwo,redis_server_module_fork_in_progress,
+rdse2.namedprocess_namegroup_cpu_seconds_total,count,30,second,,Shard process CPU usage percentage,1,redis_enterprise_veetwo,namedprocess_namegroup_cpu_seconds_total,
+rdse2.namedprocess_namegroup_thread_cpu_seconds_total,count,30,second,,Shard main thread CPU time spent in seconds,1,redis_enterprise_veetwo,namedprocess_namegroup_thread_cpu_seconds_total,
+rdse2.namedprocess_namegroup_open_filedesc,gauge,30,inode,,Shard number of open file descriptors,1,redis_enterprise_veetwo,namedprocess_namegroup_open_filedesc,
+rdse2.namedprocess_namegroup_memory_bytes,gauge,30,byte,,Shard memory size in bytes,1,redis_enterprise_veetwo,namedprocess_namegroup_memory_bytes,
+rdse2.namedprocess_namegroup_oldest_start_time_seconds,gauge,30,second,,Shard start time of the process since unix epoch in seconds,1,redis_enterprise_veetwo,namedprocess_namegroup_oldest_start_time_seconds,
+rdse2.redis_server_rdb_bgsave_in_progress,gauge,30,status,,Indication if bgsave is currently in progress,1,redis_enterprise_veetwo,redis_server_rdb_bgsave_in_progress,
+rdse2.redis_server_rdb_last_cow_size,gauge,30,byte,,Last bgsave (or SYNC fork) used CopyOnWrite memory,1,redis_enterprise_veetwo,redis_server_rdb_last_cow_size,
+rdse2.redis_server_rdb_saves,gauge,30,event,,Total count of bgsaves since the process was restarted (including replica fullsync and persistence),1,redis_enterprise_veetwo,redis_server_rdb_saves,
+rdse2.redis_server_repl_touch_bytes,gauge,30,byte,,Number of bytes sent to replicas as TOUCH commands by the shard as a result of a READ command that was processed; calculate the throughput for a time period by comparing the value at different times,1,redis_enterprise_veetwo,redis_server_repl_touch_bytes,
+rdse2.redis_server_total_commands_processed,gauge,30,connection,,Number of commands processed by the shard; calculate the number of commands for a time period by comparing the value at different times,1,redis_enterprise_veetwo,redis_server_total_commands_processed,
+rdse2.redis_server_total_connections_received,gauge,30,connection,,Number of connections received by the shard; calculate the number of connections for a time period by comparing the value at different times,1,redis_enterprise_veetwo,redis_server_total_connections_received,
+rdse2.redis_server_total_net_input_bytes,gauge,30,byte,,Number of bytes received by the shard; calculate the throughput for a time period by comparing the value at different times,1,redis_enterprise_veetwo,redis_server_total_net_input_bytes,
+rdse2.redis_server_total_net_output_bytes,gauge,30,byte,,Number of bytes sent by the shard; calculate the throughput for a time period by comparing the value at different times,1,redis_enterprise_veetwo,redis_server_total_net_output_bytes,
+rdse2.redis_server_up,gauge,30,status,,Shard is up and running,1,redis_enterprise_veetwo,redis_server_up,
+rdse2.redis_server_used_memory,gauge,30,byte,,Memory used by shard (in BigRedis this includes flash) (bytes),1,redis_enterprise_veetwo,redis_server_used_memory,
 rdse2.statsd_exporter_build_info,gauge,30,second,,"A metric with a constant '1' value labeled by version, revision, branch, and goversion from which statsd_exporter was built.",1,redis_enterprise_veetwo,statsd_exporter_build_info,
 rdse2.statsd_exporter_event_queue_flushed_total,gauge,30,event,,Number of times events were flushed to exporter,1,redis_enterprise_veetwo,statsd_exporter_event_queue_flushed_total,
 rdse2.statsd_exporter_events_total,gauge,30,event,,The total number of StatsD events seen.,1,redis_enterprise_veetwo,statsd_exporter_events_total,
diff --git a/redis_enterprise/tests/support.py b/redis_enterprise/tests/support.py