Skip to content

*: update table format for docs PDF display #16467

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
wants to merge 4 commits into
base: release-6.5
Choose a base branch
from
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
26 changes: 13 additions & 13 deletions br/br-monitoring-and-alert.md
Original file line number Diff line number Diff line change
Expand Up @@ -27,28 +27,28 @@ summary: 了解备份恢复的监控告警。

| 指标 | 类型 | 说明 |
|-------------------------------------------------------|-----------|-------------------------------------------------------------------------------------------------------------------------------------------------|
| **tikv_log_backup_interal_actor_acting_duration_sec** | Histogram | 处理内部各种消息事件的耗时。<br/>`message :: TaskType` |
| **tikv_log_backup_initial_scan_reason** | Counter | 触发增量扫的原因统计。主要是 Leader 迁移或者 Region Version 变更。<br/> `reason :: {"leader-changed", "region-changed", "retry"}` |
| **tikv_log_backup_event_handle_duration_sec** | Histogram | 处理 KV Event 的耗时。和 `tikv_log_backup_on_event_duration_seconds` 相比,这个指标还包含了一些内部转化消耗的时间。 <br/>`stage :: {"to_stream_event", "save_to_temp_file"}` |
| **tikv_log_backup_interal_actor_acting_duration_sec** | Histogram | 处理内部各种消息事件的耗时。`message :: TaskType` |
| **tikv_log_backup_initial_scan_reason** | Counter | 触发增量扫的原因统计。主要是 Leader 迁移或者 Region Version 变更。`reason :: {"leader-changed", "region-changed", "retry"}` |
| **tikv_log_backup_event_handle_duration_sec** | Histogram | 处理 KV Event 的耗时。和 `tikv_log_backup_on_event_duration_seconds` 相比,这个指标还包含了一些内部转化消耗的时间。`stage :: {"to_stream_event", "save_to_temp_file"}` |
| **tikv_log_backup_handle_kv_batch** | Histogram | 由 RaftStore 发送的 KV 对的 Batch 大小统计,统计数据为 Region 级别。 |
| **tikv_log_backup_initial_scan_disk_read** | Counter | 增量扫期间,从硬盘读取的数据量的大小。在 Linux 系统下,这个信息来自于 procfs,是实际从 block device 读取的数据量的大小;配置项 `initial-scan-rate-limit` 也是施加于这个数值上。 |
| **tikv_log_backup_incremental_scan_bytes** | Histogram | 增量扫期间,实际产生的 KV 对的大小。因为压缩和读放大的缘故,这个数值和 `tikv_log_backup_initial_scan_disk_read` 不一定相同。 |
| **tikv_log_backup_skip_kv_count** | Counter | 日志备份期间,因为对备份没有帮助而被跳过的 Raft Event 数量。 |
| **tikv_log_backup_errors** | Counter | 日志备份期间,遇到的可以重试或可以忽略的错误。 <br/>`type :: ErrorType` |
| **tikv_log_backup_fatal_errors** | Counter | 日志备份期间,遇到的不可重试或不可忽略的错误。当该类错误出现的时候,日志备份任务会被暂停。 <br/>`type :: ErrorType` |
| **tikv_log_backup_errors** | Counter | 日志备份期间,遇到的可以重试或可以忽略的错误。`type :: ErrorType` |
| **tikv_log_backup_fatal_errors** | Counter | 日志备份期间,遇到的不可重试或不可忽略的错误。当该类错误出现的时候,日志备份任务会被暂停。 `type :: ErrorType` |
| **tikv_log_backup_heap_memory** | Gauge | 日志备份期间,增量扫发现的、尚未被消费的事件占用的内存。 |
| **tikv_log_backup_on_event_duration_seconds** | Histogram | 将 KV Event 保存到临时文件各个阶段的耗时。 <br/>`stage :: {"write_to_tempfile", "syscall_write"}` |
| **tikv_log_backup_store_checkpoint_ts** | Gauge | Store 级别的 Checkpoint TS,已经弃用。其含义更加接近于 Store 当前注册的 GC Safepoint。 <br/>`task :: string` |
| **tidb_log_backup_last_checkpoint** | Gauge | 全局 Checkpoint TS,表示日志备份功能中已经备份的时间点。 <br/>`task :: string` |
| **tikv_log_backup_flush_duration_sec** | Histogram | 将本地临时文件移动到外部存储的耗时。<br/>`stage :: {"generate_metadata", "save_files", "clear_temp_files"}` |
| **tikv_log_backup_on_event_duration_seconds** | Histogram | 将 KV Event 保存到临时文件各个阶段的耗时。 `stage :: {"write_to_tempfile", "syscall_write"}` |
| **tikv_log_backup_store_checkpoint_ts** | Gauge | Store 级别的 Checkpoint TS,已经弃用。其含义更加接近于 Store 当前注册的 GC Safepoint。`task :: string` |
| **tidb_log_backup_last_checkpoint** | Gauge | 全局 Checkpoint TS,表示日志备份功能中已经备份的时间点。 `task :: string` |
| **tikv_log_backup_flush_duration_sec** | Histogram | 将本地临时文件移动到外部存储的耗时。`stage :: {"generate_metadata", "save_files", "clear_temp_files"}` |
| **tikv_log_backup_flush_file_size** | Histogram | 备份产生的文件的大小统计。 |
| **tikv_log_backup_initial_scan_duration_sec** | Histogram | 增量扫的整体耗时统计。 |
| **tikv_log_backup_skip_retry_observe** | Counter | 在日志备份过程中,遇到的可忽略错误的统计,即放弃 retry 的原因。 <br/>`reason :: {"region-absent", "not-leader", "stale-command"}` |
| **tikv_log_backup_initial_scan_operations** | Counter | 增量扫过程中,RocksDB 相关的操作统计。<br/>`cf :: {"default", "write", "lock"}, op :: RocksDBOP` |
| **tikv_log_backup_skip_retry_observe** | Counter | 在日志备份过程中,遇到的可忽略错误的统计,即放弃 retry 的原因。`reason :: {"region-absent", "not-leader", "stale-command"}` |
| **tikv_log_backup_initial_scan_operations** | Counter | 增量扫过程中,RocksDB 相关的操作统计。`cf :: {"default", "write", "lock"}, op :: RocksDBOP` |
| **tikv_log_backup_enabled** | Counter | 日志备份功能是否开启,若值大于 0,表示开启 |
| **tikv_log_backup_observed_region** | Gauge | 被监听的 Region 数量 |
| **tikv_log_backup_task_status** | Gauge | 日志备份任务状态,0-Running 1-Paused 2-Error <br/>`task :: string` |
| **tikv_log_backup_pending_initial_scan** | Gauge | 尚未执行的增量扫的统计。<br/>`stage :: {"queuing", "executing"}` |
| **tikv_log_backup_task_status** | Gauge | 日志备份任务状态,0-Running 1-Paused 2-Error`task :: string` |
| **tikv_log_backup_pending_initial_scan** | Gauge | 尚未执行的增量扫的统计。`stage :: {"queuing", "executing"}` |

### 日志备份告警

Expand Down
28 changes: 19 additions & 9 deletions clinic/clinic-collect-sql-query-plan.md
Original file line number Diff line number Diff line change
Expand Up @@ -77,15 +77,25 @@ SELECT * FROM test.t1;SELECT * FROM test.t2;

全量数据采集的输出结果包含以下集群现场信息:

| 序号 | 采集内容 | 调用的 Diag collector | 输出文件 |
| :--- | :--- | :--- | :--- |
| 1 | TiDB 配置信息 | `config` | `tidb.toml` |
| 2 | TiDB Session 系统变量 | `plan_replayer` | `plan_replayer.zip/variables.toml` |
| 3 | TiDB 执行计划绑定信息 (SQL Binding) | `sql_bind` | `sql_bind/global_bind.csv` |
| 4 | `sql-statement` 中所包含的表结构 | `plan_replayer` | `plan_replayer.zip/schema/<db.table>.schema.txt` |
| 5 | `sql-statement` 中所包含表的统计信息 | `plan_replayer` | `plan_replayer.zip/stats/<db.table>.json` |
| 6 | `EXPLAIN sql-statement` 的结果 | `explain` | `explain/sql0` |
| 7 | 默认采集的集群信息<ul><li>集群基础信息</li><li>Diag 本次采集记录</li></ul> | default | `cluster.json`,`meta.yaml`,`$collectid_diag_audit.log` |
+------+--------------------------+----------------------+-----------------------------------+
| 序号 | 采集内容 | 调用的 Diag collector | 输出文件 |
+======+==========================+======================+===================================+
| 1 | TiDB 配置信息 | `config` | `tidb.toml` |
+------+--------------------------+----------------------+-----------------------------------+
| 2 | TiDB Session 系统变量 | `plan_replayer` | `plan_replayer.zip/variables.toml`|
+------+--------------------------+----------------------+-----------------------------------+
| 3 | TiDB 执行计划绑定信息 (SQL Binding) | `sql_bind` | `sql_bind/global_bind.csv` |
+------+--------------------------+----------------------+-----------------------------------+
| 4 | `sql-statement` 中所包含的表结构 | `plan_replayer` | `plan_replayer.zip/schema/<db.table>.schema.txt` |
+------+--------------------------+----------------------+-----------------------------------+
| 5 | `sql-statement` 中所包含表的统计信息 | `plan_replayer` | `plan_replayer.zip/stats/<db.table>.json` |
+------+--------------------------+----------------------+-----------------------------------+
| 6 | `EXPLAIN sql-statement` 的结果 | `explain` | `explain/sql0` |
+------+--------------------------+----------------------+-----------------------------------+
| 7 | 默认采集的集群信息 | default | `cluster.json`,`meta.yaml`,`$collectid_diag_audit.log` |
| | - 集群基础信息 | | |
| | - Diag 本次采集记录 | | |
+------+--------------------------+----------------------+-----------------------------------+

### 自定义数据采集

Expand Down
Loading