English服务热线:400-610-7333
首页  >  资讯动态  >  IT服务快讯
15 分钟搞定业务宕机!运维必备排查指南(附实操命令) 2026-03-11 19:53  消息来源:CSDN 博客

业务崩了!”“用户全在投诉!”——作为运维人,宕机应急就像家常便饭,但每延迟 1 分钟恢复,都可能造成损失。其实不用慌,掌握定范围 + 分层查的核心逻辑,15 分钟就能定位问题、恢复业务!

本文整理一线实战精华,聚焦最实用的排查步骤、命令和案例,新手能直接套用,老手可快速参考。

一、3 分钟应急:先圈范围,不做无用功

排查前别盲目敲命令,先花 3 分钟明确 3 个问题,快速缩小排查半径:

1.   影响谁?:单个用户 / 特定地区 / 全量用户?(地区性问题优先查 CDN / 运营商)

2.   哪块崩?:全站 / 特定模块(支付 / 登录)/ 前端 / 后端?(模块问题聚焦对应服务)

3.   怎么崩?:持续宕机 / 间歇性波动?是否发生在流量高峰 / 版本更新后?(高峰优先查资源,更新后查配置)

举例:仅深圳用户无法下单,1 小时前调整过 CDN → 直接锁定 CDN 区域节点,省一半时间!

二、10 分钟分层排查:6 大维度,逐一突破

网络系统应用数据外部依赖安全设备顺序排查,不遗漏关键节点,每个维度控制 1-2 分钟实操。

(一)网络层:1 分钟判 “通不通”

核心验证链路和端口,命令直接复制用:

·          服务器连通性:ping -c 4 服务器IP/域名(Request timeout = 不通)

·          路由定位:traceroute 服务器IP(某一跳超时 = 故障节点)

·          端口测试:telnet 服务器IP 端口(如 8080Connection refused = 端口未开)

·          接口验证:curl -I 接口地址(200 = 正常,4xx/5xx = 异常)

常见问题:防火墙封禁端口、运营商波动临时放行端口或切换备用线路。

(二)系统层:2 分钟查 “够不够”

资源耗尽是宕机头号原因,重点看 CPU / 内存 / 磁盘:

·          CPU / 负载:top(按 P 排序,%CPU>90%= 过载)、uptime(负载值 > CPU 核心数 = 压力大)

·          内存:free -havailable 接近 0 = 内存不足)

·          磁盘:df -h(分区使用率 > 85%= 预警,>95%= 满了)、du -sh /data/*(定位大文件)

·          日志:journalctl -n 100 /var/log/messages(搜 OOM/disk full = 关键报错)

应急处理:杀无用进程(kill -9 进程ID)、清理旧日志(echo "" > 日志文件)。

(三)应用层:2 分钟验 “活不活”

服务异常常报 503,重点查进程 / 端口 / 日志:

·          服务状态:systemctl status 服务名(如 nginxactive = 正常)

·          进程检查:ps -ef | grep 服务名(无结果 = 进程未启动)

·          端口监听:ss -tulnp | grep 端口(无结果 = 端口未监听)

·          日志 / 健康检查:tail -f /var/log/应用.log(搜 ERROR)、curl -v http://localhost:端口/healthUP = 正常)

常见问题:进程崩溃、端口冲突重启服务、释放端口。

(四)数据层:2 分钟看 “撑不撑”

数据库 / Redis 故障直接卡业务,重点查连通性和性能:

·          MySQL

·          登录测试:mysql -u用户名 -p -hIP(登录失败 = 服务停 / 密码错)

·          阻塞 / 慢查询:mysql -e "show full processlist;"Locked = 阻塞,时间 > 60s = 慢查询)

·          Redis

·          连通性:redis-cli -h IP pingPONG = 正常)

·          慢日志:redis-cli -h IP slowlog get 5(定位慢命令)

应急处理:杀阻塞进程(kill 数据库进程ID)、临时扩容 数据库连接 数(set global max_connections=2000)。

(五)外部依赖:1 分钟核 “联不联”

第三方接口 / CDN/DNS 故障易被忽略:

·          第三方 APIcurl -I 接口地址(响应超时 / 5xx = 第三方故障)

·          DNS 解析:nslookup 域名(解析错误 IP = 劫持 / 配置错)

·          CDNcurl -v 域名 | grep cacheHIT = 命中,节点故障则刷新缓存)

应急方案:切换备用接口、临时换 DNS(如 223.5.5.5)。

(六)安全设备:1 分钟查 “拦不拦”

403 大概率是误拦:

·          防火墙:iptables -L -n(查 DROP 规则)、firewall-cmd --list-ports(确认端口放行)

·          WAF/IPS:联系安全团队查拦截日志临时加白合法 IP / 请求。

三、2 分钟 信息 收集:为复盘留依据

排查时同步收集这些信息,后续复盘更高效:

1.   用户报错截图(含错误码、时间)

2.   系统 / 应用日志关键片段

3.   CPU / 内存 / 磁盘 / 网络监控数据

4.   服务 / 数据库 / 第三方接口状态记录

四、事后关键:3 步避免重复踩坑

1.   根源复盘:明确是资源 / 配置 / 代码 / 第三方问题,划分责任;

2.   监控优化:核心指标(CPU / 连接数 / 接口响应时间)设告警(短信 / 钉钉);

3.   脚本沉淀:常用排查命令写成脚本(如系统资源检查脚本),一键执行。

总结

宕机排查的核心不是记多少命令,而是先定范围,再分层突破。按本文流程,15 分钟内就能定位 80% 以上的故障。收藏这份指南,下次宕机直接套用,从容解决问题!

 

 

 

 

服务热线:400-610-7333 | 邮箱:service@gpos.cn | 电话:8610-82564561/71 | 传真:8610-82564561-8025 | 京ICP备18017976号 | 京公网安备 11010802036102号北京金支点技术服务有限公司保留所有权利 | Copyright © 2005-2026 Beijing Golden Point Outsourcing Service Co., Ltd. All Rights Reserved.