其他

Python操作PDF全攻略：从文本提取到文件生成

悠悠楠杉

2025-12-15

0 评论

34 阅读

正在检测是否收录...

12/15

正文：

在数字化办公场景中，PDF文件处理是开发者经常面临的挑战。Python凭借丰富的库生态，提供了多种专业的PDF操作解决方案。本文将深入解析4种主流技术方案，并附可直接运行的代码示例。

一、文本提取：pdfplumber精准定位

对于需要精确提取文字和表格的场景，pdfplumber库表现出色。它不仅能识别常规文本，还能处理复杂的多栏排版：


import pdfplumber

with pdfplumber.open("contract.pdf") as pdf:
    for page in pdf.pages:
        # 提取当前页所有文本
        print(page.extract_text())
        
        # 提取表格数据（自动识别）
        for table in page.extract_tables():
            for row in table:
                print("|".join(row))

该库特别适合处理扫描件转文字的场景，通过page.crop()方法可以精准划定提取区域，避免获取无关内容。

二、基础读取：PyPDF2快速入门

PyPDF2是处理PDF的瑞士军刀，适合基础操作：


from PyPDF2 import PdfReader

reader = PdfReader("report.pdf")
meta = reader.metadata  # 获取文档属性
print(f"作者：{meta.author}")

# 逐页提取文本
for page in reader.pages:
    text = page.extract_text()
    print(text[:200])  # 打印前200字符

注意：PyPDF2的文本提取精度有限，复杂版式可能出现乱序。但对合并/拆分PDF等文件级操作非常高效：


merger = PdfMerger()
merger.append("file1.pdf")
merger.append("file2.pdf")
merger.write("merged.pdf")

三、PDF生成：ReportLab专业排版

需要动态生成PDF时，ReportLab提供完整的排版解决方案：


from reportlab.lib.pagesizes import A4
from reportlab.pdfgen import canvas

c = canvas.Canvas("invoice.pdf", pagesize=A4)
c.setFont("Helvetica", 12)
c.drawString(100, 750, "正式发票")
c.drawImage("logo.png", 400, 780, width=100, height=50)

# 绘制表格
y_position = 700
for item in invoice_items:
    c.drawString(100, y_position, item["name"])
    c.drawRightString(500, y_position, f"¥{item['price']}")
    y_position -= 20

c.save()

通过platypus模块还能实现自动分页、样式继承等高级功能，适合生成企业级文档。

四、OCR增强：pytesseract处理扫描件

当处理扫描版PDF时，需要结合OCR技术：


import pytesseract
from pdf2image import convert_from_path

pages = convert_from_path("scanned.pdf", 300)  # 300DPI转换
for i, page in enumerate(pages):
    text = pytesseract.image_to_string(page, lang='chi_sim')
    with open(f"page_{i}.txt", "w") as f:
        f.write(text)

建议配合OpenCV进行图像预处理（降噪、二值化等），可显著提升识别准确率。

实战建议

混合使用多个库：用pdfplumber提取内容，用ReportLab生成新文件
处理加密PDF：PyPDF2.PdfReader("file.pdf", password="1234")
批量处理：结合os模块实现文件夹遍历
性能优化：大文件处理时使用lazy_load模式

通过合理组合这些工具，可以构建完整的PDF处理流水线，实现合同解析、报表生成等企业级应用。注意不同库对中文的支持程度，建议实际测试后再决定技术方案。

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/41428/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权