流量下线排查清单

从重启服务到按 logid 和时间戳追链路的最小步骤

Posted by BY on April 25, 2026

原始内容只有 4 条排查动作,这里把它整理成一条更容易回看的最小链路。

1. 先做一次受控重启

第一步先重启相关服务,主要不是为了“碰运气恢复”,而是为了减少历史长连接干扰判断。

这一步想解决的问题是:

  • 是否有旧连接长期不释放
  • 当前现象是不是被历史状态放大了

2. 先从日志确认请求有没有进来

原始记录里写的是“排查 log 调用接口”,回看时可以理解成:

  • 先确认流量是否真的到达入口
  • 先找到对应接口、模块或网关层的调用日志

如果这一步就没有日志,后面的排查重点就更偏网络入口、路由或上游调用侧。

3. 用 netstat 看连接来源

netstat -antp

原始笔记里强调的是“查看 src ip”。
所以这一步的核心是确认:

  • 连接是否真的建立
  • 来源 IP 是否符合预期
  • 是否存在异常来源或连接模式

4. 用唯一标识串起全链路

原始记录里保留了两个关键字段:

  • logid
  • timestamp

真正有价值的是这个排查思路:

  1. 先拿到一次确定有问题的请求标识
  2. 再按 logid、时间戳去查相关模块
  3. 对比链路在哪一段中断、超时或被丢弃

5. 最小回看版步骤

以后再遇到“流量像是下线了”的问题,可以先按下面顺序做:

  1. 重启服务,去掉历史长连接干扰
  2. 查入口日志,确认请求是否到达
  3. netstat -antp 看连接与来源 IP
  4. logid 和时间戳串联各模块日志