其他

Python医疗数据处理实战：DICOM文件读取全解析

悠悠楠杉

2025-07-30

0 评论

146 阅读

正在检测是否收录...

07/30

Python医疗数据处理实战：DICOM文件读取全解析

在医疗信息化飞速发展的今天，DICOM（Digital Imaging and Communications in Medicine）作为医学影像的标准格式，已成为放射科、CT、MRI等设备输出的通用数据载体。本文将带您深入探索如何用Python高效处理这些专业医疗数据。

一、DICOM文件基础知识

DICOM文件远不止是普通的图像文件——它是一个包含多维数据的容器。除了像素数据外，每个DICOM文件都包含：

患者信息（匿名化处理需特别注意）
设备参数（如CT的kVp值）
影像几何特征（像素间距、切片厚度）
临床检查信息（检查日期、机构名称）

python import pydicom ds = pydicom.dcmread("CT_001.dcm") print(f"模态类型: {ds.Modality}") # 输出如CT/MR print(f"矩阵尺寸: {ds.Rows}x{ds.Columns}")

二、Python处理DICOM的四大核心库

1. pydicom - 基础操作

python

读取像素数据并转换为NumPy数组

pixelarray = ds.pixelarray
print(f"像素值范围: {pixelarray.min()}~{pixelarray.max()}")

访问元数据

print(f"患者年龄: {ds.PatientAge}") # 格式如'045Y'

2. SimpleITK - 高级影像处理

python import SimpleITK as sitk image = sitk.ReadImage("MR_002.dcm") spacing = image.GetSpacing() # 获取物理间距(mm) sitk.Show(image) # 交互式查看器

3. GDCM - 处理压缩DICOM

python from pydicom.encaps import decode_data_sequence compressed_pixel_data = ds.PixelData uncompressed = decode_data_sequence(compressed_pixel_data)

4. DicomTools - 临床专用工具

python from dicom_tools.anonymizer import Anonymizer anon = Anonymizer(keep=["StudyDescription"]) anon.anonymize("original.dcm", "anonymous.dcm")

三、实战：构建DICOM处理流水线

1. 批量读取与元数据提取

python
import pandas as pd
from pathlib import Path

dicomdir = Path("/data/CTstudy")
meta_list = []

for dcmfile in dicomdir.glob("*.dcm"):
ds = pydicom.dcmread(dcm_file)
meta_list.append({
"InstanceNumber": int(ds.InstanceNumber),
"SliceThickness": float(ds.SliceThickness),
"AcquisitionDate": ds.AcquisitionDate
})

df = pd.DataFrame(metalist).sortvalues("InstanceNumber")

2. 窗宽窗位调整（医学影像专用）

python
def applywindow(image, windowcenter, windowwidth): minval = windowcenter - windowwidth//2
maxval = windowcenter + windowwidth//2 return np.clip(image, minval, max_val)

lungwindow = applywindow(pixel_array, 600, 1600)

3. 三维重建预处理

python

排序切片并构建3D体积

slices = [pydicom.dcmread(f) for f in sortedfiles] volume = np.stack([s.pixelarray for s in slices], axis=0)

重采样到各向同性

from skimage.transform import resize
newshape = (256, 256, 256) resampled = resize(volume, newshape, order=3)

四、医疗数据特殊处理技巧

1. 匿名化处理

python def anonymize_dicom(ds): tags_to_remove = [ (0x0010, 0x0010), # PatientName (0x0010, 0x0020), # PatientID (0x0008, 0x0020) # StudyDate ] for tag in tags_to_remove: if tag in ds: del ds[tag] return ds

2. 单位标准化

python

将不同设备的HU值标准化

def normalize_hu(volume):
volume[volume < -1000] = -1000
volume = (volume + 1000) / 3000 # 0-1范围
return volume.astype(np.float32)

五、性能优化方案

1. 多线程批处理

python
from concurrent.futures import ThreadPoolExecutor

def processfile(path): ds = pydicom.dcmread(path) return ds.pixelarray

with ThreadPoolExecutor() as executor:
results = list(executor.map(processfile, dicomfiles))

2. 内存映射处理大文件

python ds = pydicom.dcmread("large.dcm", defer_size="1KB") pixel_data = ds.pixel_array # 仅在访问时加载

六、临床研究应用实例

1. 肺结节检测数据准备

python def extract_patches(volume, nodule_centers, patch_size=64): patches = [] for center in nodule_centers: x,y,z = center patch = volume[ z-patch_size//2 : z+patch_size//2, y-patch_size//2 : y+patch_size//2, x-patch_size//2 : x+patch_size//2 ] patches.append(patch) return np.array(patches)

2. DICOM-RT结构解析

python rtstruct = pydicom.dcmread("RTstruct.dcm") roi_contours = [] for roi in rtstruct.StructureSetROISequence: contour_data = [ s.ContourData for s in rtstruct.ROIContourSequence[roi.ROINumber-1].ContourSequence ] roi_contours.append({ "name": roi.ROIName, "contours": contour_data })

通过本文介绍的技术路线，我们能够构建完整的医疗影像处理流程。需要注意的是，在实际临床应用中：
1. 必须遵守HIPAA等数据隐私法规
2. 医学影像的数值解释需要专业临床知识
3. 关键算法应通过FDA等医疗设备认证

建议开发时与临床医生保持紧密协作，确保技术方案既符合工程规范，又能满足实际临床需求。完整的DICOM处理示例代码已托管在GitHub仓库供参考。

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/34365/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

Python医疗数据处理实战：DICOM文件读取全解析

Python医疗数据处理实战：DICOM文件读取全解析

一、DICOM文件基础知识

二、Python处理DICOM的四大核心库

1. pydicom - 基础操作

读取像素数据并转换为NumPy数组

访问元数据

2. SimpleITK - 高级影像处理

3. GDCM - 处理压缩DICOM

4. DicomTools - 临床专用工具

三、实战：构建DICOM处理流水线

1. 批量读取与元数据提取

2. 窗宽窗位调整（医学影像专用）

3. 三维重建预处理

排序切片并构建3D体积

重采样到各向同性

四、医疗数据特殊处理技巧

1. 匿名化处理

2. 单位标准化

将不同设备的HU值标准化

五、性能优化方案

1. 多线程批处理

2. 内存映射处理大文件

六、临床研究应用实例

1. 肺结节检测数据准备

2. DICOM-RT结构解析

人生倒计时