其他

Python爬虫怎样抓取表格数据

悠悠楠杉

2025-11-16

0 评论

56 阅读

正在检测是否收录...

11/16

当我们打开一个包含表格的网页时，浏览器会将HTML代码渲染成可视化的表格。而Python爬虫的任务，就是从原始HTML中识别出这些<table>标签，并将其内容准确地转化为结构化数据。实现这一过程的核心思路是：发送HTTP请求获取网页源码 → 解析HTML文档 → 定位目标表格 → 提取行列数据 → 转换为可用格式（如DataFrame）。

首先，我们需要安装必要的依赖库。最常用的组合是requests用于发起网络请求，BeautifulSoup用于解析HTML，以及pandas用于数据整理与导出。通过命令pip install requests beautifulsoup4 pandas lxml即可完成安装。其中lxml作为解析器，性能优于内置的html.parser，尤其适合处理复杂的表格结构。

以抓取某统计局发布的季度GDP数据表为例，我们先用requests获取页面内容：

python
import requests
from bs4 import BeautifulSoup
import pandas as pd

url = "https://example.com/gdp-data"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
}
response = requests.get(url, headers=headers)
response.encoding = 'utf-8' # 防止中文乱码
soup = BeautifulSoup(response.text, 'lxml')

接下来的关键步骤是定位表格。多数网页中可能存在多个<table>元素，因此不能简单地直接提取第一个。建议通过查看网页源码，寻找具有唯一性特征的属性，如class名称或id。例如：

python table = soup.find('table', {'class': 'data-table'})

一旦找到目标表格，就可以遍历其行与单元格。通常表格由<tr>表示行，<td>或<th>表示单元格。我们可以逐行读取内容，构建二维列表：

python rows = table.find_all('tr') data = [] for row in rows: cols = row.find_all(['td', 'th']) clean_cols = [col.get_text(strip=True) for col in cols] if clean_cols: data.append(clean_cols)

此时data是一个嵌套列表，可以直接传入pandas构造DataFrame：

python df = pd.DataFrame(data[1:], columns=data[0]) # 第一行为表头

这一步完成后，表格数据就已经被成功结构化。你可以进一步清洗数据，比如去除空行、转换数值类型、处理合并单元格等问题。对于跨行跨列的复杂表格，可能需要额外逻辑判断rowspan和colspan属性。

值得一提的是，部分网站采用JavaScript动态渲染表格，此时requests无法获取完整HTML。这类情况需借助Selenium模拟浏览器行为：

python
from selenium import webdriver
from selenium.webdriver.common.by import By

driver = webdriver.Chrome()
driver.get(url)
tableelement = driver.findelement(By.CLASSNAME, 'data-table') html = tableelement.get_attribute('outerHTML')
driver.quit()

soup = BeautifulSoup(html, 'lxml')

此外，pandas本身提供了read_html()函数，能自动识别页面中的所有表格并返回DataFrame列表，极大简化了流程：

python tables = pd.read_html(url, encoding='utf-8') df = tables[0] # 选择第一个表格

但该方法对页面编码和JS加载较为敏感，实际项目中常配合requests使用：

python dfs = pd.read_html(response.text)

最终，可将结果保存为CSV、Excel或数据库，便于后续分析：

python df.to_csv('gdp_data.csv', index=False, encoding='utf_8_sig')

在整个抓取过程中，务必遵守robots.txt协议，控制请求频率，避免对服务器造成压力。同时注意版权与数据使用规范，合法合规地利用公开信息。

掌握这些方法后，无论是教育数据、医疗统计还是市场报价，你都能快速构建专属的数据采集流水线，让信息真正为你所用。

Pandas Python爬虫表格数据抓取 BeautifulSoup requests HTML解析

朗读