其他

Python精确计算文件磁盘占用空间的秘密

悠悠楠杉

2026-02-10

0 评论

3 阅读

正在检测是否收录...

02/10

正文：
在日常开发中，我们经常需要了解文件的实际磁盘占用情况。有趣的是，文件在磁盘上占用的空间往往大于其实际大小。这是因为文件系统使用"簇"（Windows）或"块"（Linux/macOS）作为最小存储单元。即使文件只有1字节，它也会占用整个簇的空间。

让我们通过一个实际场景来理解这个问题。假设你创建了一个仅包含"Hello"文本的小文件：
python with open('small_file.txt', 'w') as f: f.write('Hello')
在Windows系统中，使用默认NTFS文件系统（簇大小4KB）时，这个5字节的文件实际会占用4,096字节的磁盘空间。而在Linux的ext4文件系统（块大小4KB）上，它同样会占用4,096字节。

那么如何用Python精确计算这个值呢？不同操作系统需要不同的处理方法：

import os
import sys

def get_disk_usage(path):
    """计算文件实际磁盘占用空间（字节）"""
    if sys.platform == 'win32':
        return _windows_disk_usage(path)
    else:
        return _unix_disk_usage(path)

def _windows_disk_usage(path):
    """Windows系统实现"""
    import ctypes
    import ctypes.wintypes
    
    # 获取文件所在驱动器
    drive = os.path.abspath(path)[:3]
    
    # 调用Windows API获取簇大小
    sectors_per_cluster = ctypes.wintypes.DWORD()
    bytes_per_sector = ctypes.wintypes.DWORD()
    ctypes.windll.kernel32.GetDiskFreeSpaceW(
        ctypes.c_wchar_p(drive),
        ctypes.byref(sectors_per_cluster),
        ctypes.byref(bytes_per_sector),
        None, None
    )
    
    cluster_size = sectors_per_cluster.value * bytes_per_sector.value
    file_size = os.path.getsize(path)
    
    # 计算占用簇数：向上取整
    clusters = (file_size + cluster_size - 1) // cluster_size
    return clusters * cluster_size

def _unix_disk_usage(path):
    """Unix系统实现（Linux/macOS）"""
    stat = os.stat(path)
    # st_blocks以512字节为单位统计
    return stat.st_blocks * 512

这个实现的核心在于：
1. Windows系统：通过GetDiskFreeSpaceWAPI获取簇大小，再计算文件占用的完整簇数
2. Unix系统：直接使用st_blocks统计值（以512字节块为单位）
3. 跨平台兼容：自动检测操作系统并选择合适的方法

让我们测试一下这个函数的效果：python

创建测试文件

with open('test_file.dat', 'wb') as f:
f.write(b'0' * 1025) # 1025字节文件

print(f"逻辑大小: {os.path.getsize('testfile.dat')}字节") print(f"实际占用: {getdiskusage('testfile.dat')}字节")
在4KB簇大小的系统上，你会看到：
逻辑大小: 1025字节
实际占用: 4096字节
这个差异源于文件系统的存储机制。当文件大小超过一个簇时，系统会分配新的完整簇。因此1025字节的文件需要两个簇（但实际只占用第一个簇的4096字节，因为1025<4096？这里需要澄清）。

理解这个机制对以下场景特别重要：
- 磁盘空间监控：精确计算大量小文件的实际占用
- 存储优化：避免因簇大小不当造成的空间浪费
- 云存储计费：了解实际存储成本

实际应用中，我们还可以扩展这个函数来处理目录：
python def get_directory_size(path): total = 0 for dirpath, dirnames, filenames in os.walk(path): for f in filenames: fp = os.path.join(dirpath, f) total += get_disk_usage(fp) return total
这个方法比简单的os.path.getsize递归更准确，因为它考虑了每个文件的实际磁盘占用而非逻辑大小。

最后要注意的是，不同文件系统的默认簇/块大小：
- NTFS（Windows）：通常4KB
- APFS（macOS）：通常4KB
- ext4（Linux）：通常4KB
- FAT32：可配置为512B-32KB

掌握这些知识后，你将能更精确地管理磁盘空间，避免存储计算中的"隐藏成本"。特别是在处理数百万个小文件的场景中，这种精确计算可能为你节省大量存储成本和运维时间。

Python 跨平台计算文件系统磁盘空间簇大小

朗读