其他

Linux磁盘健康检测指南：用smartctl查看SMART信息全解析

悠悠楠杉

2025-08-01

0 评论

212 阅读

正在检测是否收录...

08/01

一、为什么需要关注磁盘SMART信息

上周公司的文件服务器突然出现异常卡顿，当我用dmesg查看内核日志时，发现一行触目惊心的警告："/dev/sda: I/O error, dev sda, sector 19438271"。这是典型的磁盘物理损坏征兆，而实际上SMART（Self-Monitoring, Analysis and Reporting Technology）早在三个月前就通过Reallocated_Sector_Ct参数发出了预警。这个惨痛教训让我深刻意识到——定期检查磁盘SMART信息不是可选项，而是运维人员的必修课。

二、smartctl工具安装与基本使用

1. 安装smartmontools

在主流Linux发行版中安装非常简单：bash

Debian/Ubuntu

sudo apt install smartmontools -y

RHEL/CentOS

sudo yum install smartmontools

安装完成后建议将服务设为开机启动：
bash sudo systemctl enable smartd

2. 检测磁盘支持情况

不是所有磁盘都支持SMART，首先需要确认：
bash sudo smartctl -i /dev/sda
关键看输出中是否包含："SMART support is: Available"和"SMART support is: Enabled"

3. 启用SMART监控

对于未自动启用的磁盘（常见于旧式SATA设备）：
bash sudo smartctl -s on /dev/sda

三、解读SMART健康报告

执行完整检测（约2-5分钟）：
bash sudo smartctl -H /dev/sda
健康状态显示为"PASSED"或"FAILED"，但这只是总体结论。更重要的信息藏在属性明细中：

bash sudo smartctl -A /dev/sda

几个需要特别关注的参数：
- Reallocated_Sector_Ct：重映射扇区数（>0即预警）
- Current_Pending_Sector：待重映射扇区（突然增加很危险）
- UDMA_CRC_Error_Count：数据线接触不良计数
- Temperature_Celsius：温度异常可能加速老化

四、自动化监控方案

1. 配置smartd守护进程

编辑/etc/smartd.conf添加：
/dev/sda -a -o on -S on -n standby,10 -s (S/../.././02|L/../../7/03) -m admin@example.com
这条配置表示：
- -a：监控所有属性
- -m：邮件报警
- -s：每天2点短检测，每周日3点长检测

2. 使用cron定时任务

每周生成详细报告：
bash 0 3 * * 0 smartctl -x /dev/sda > /var/log/smart-report-$(date +\%Y\%m\%d).log

五、实战故障排查案例

案例1：间歇性IO错误

某次MySQL查询超时，检查SMART发现：
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 8
这表示有8个扇区等待重映射，立即执行离线修复：
bash sudo smartctl -t offline /dev/sda

案例2：RAID阵列异常

硬件RAID卡可能屏蔽SMART信息，需要附加参数：
bash sudo smartctl -d megaraid,0 -a /dev/sda

六、进阶技巧与注意事项

NVMe磁盘特殊处理：
bash sudo smartctl -d nvme -a /dev/nvme0n1
重点关注Percentage Used和Media and Data Integrity Errors
测试参数解读：

- short：基本电气测试（2分钟）
- long：全面表面扫描（数小时）
- conveyance：运输损坏检测（5-15分钟）

历史数据对比：
bash sudo smartctl -l selftest /dev/sda
比较历次测试结果的变化趋势

七、总结建议

新磁盘首次使用建议执行long测试建立基准数据
企业级环境建议部署Prometheus+grafana实现可视化监控
当Reallocated_Sector_Ct超过磁盘容量的0.1%时应考虑更换

"磁盘从不是突然损坏的，它们只是把故障征兆藏在SMART数据里，等待有心人发现。" —— 某数据中心运维老兵

通过定期检查这些"数字脉搏"，我们完全可以在灾难发生前从容迁移数据。记住，对待存储设备就要像对待体检报告一样——忽略警告信号迟早要付出代价。

smartctl命令 Linux磁盘健康检测 SMART监控硬盘故障预警磁盘诊断工具

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/34495/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权