其他

动态数据抓取实战：如何从TfL自行车开放API获取实时CSV数据

悠悠楠杉

2025-09-08

0 评论

68 阅读

正在检测是否收录...

09/08

本文深度解析伦敦交通局(TfL)自行车数据的动态加载机制，通过Python实现自动化CSV抓取的全流程方案，涵盖反爬策略应对、JSON解析等实用技巧。

一、动态数据背后的技术困局

当我们在TfL官网查看自行车租赁实时数据时，会发现传统BeautifulSoup抓取方式完全失效——页面源代码中根本找不到站点的可用自行车数量。这是因为TfL采用动态加载技术，数据通过JavaScript异步请求获取。

"上周尝试用常规方法抓取时，我盯着空空如也的HTML发了半小时呆，"伦敦交通数据分析师马克回忆道，"直到用Chrome开发者工具检查Network流量，才发现数据藏在api.tfl.gov.uk的JSON响应里。"

二、逆向工程实战四步走

1. 锁定真实数据源

按F12打开浏览器开发者工具：
- 切换到Network选项卡
- 勾选"JS"和"XHR"筛选器
- 搜索包含"BikePoint"的关键词请求
- 发现核心API端点：https://api.tfl.gov.uk/BikePoint

2. 构造Python请求头

python
import requests

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)',
'Accept': 'application/json'
}
response = requests.get('https://api.tfl.gov.uk/BikePoint', headers=headers)

3. 处理动态分页陷阱

TfL的API采用分块加载机制，需追加查询参数：
python params = { 'page': 1, 'perPage': 100 # 每页最大记录数 }

4. JSON到CSV的优雅转换

使用pandas处理嵌套JSON结构：python
import pandas as pd

df = pd.jsonnormalize( response.json(), meta=['id', 'commonName'], recordpath=['additionalProperties']
)
df.tocsv('tflbikes.csv', index=False)

三、六大核心字段解析

从抓取的原始数据中提炼出关键维度：

| 字段名 | 说明 | 示例值 |
|--------|------|--------|
| installed | 车站是否启用 | True |
| locked | 车站是否锁定 | False |
| nbBikes | 可用自行车数 | 23 |
| nbEmptyDocks | 空桩位数 | 5 |
| lastCommunicationTime | 最后更新时间 | 2023-08-20T14:30:00Z |

四、生产环境优化方案

指数退避重试机制：当API返回429状态码时自动延迟python
from time import sleep

def makerequest(url, retries=3): for attempt in range(retries): try: response = requests.get(url) if response.statuscode == 429:
sleep(2 ** attempt) # 指数级等待
continue
return response
except Exception as e:
print(f"Attempt {attempt} failed: {str(e)}")

数据质量校验：验证时间戳连续性
python df['lastCommunicationTime'] = pd.to_datetime(df['lastCommunicationTime']) time_diff = df['lastCommunicationTime'].diff().dt.total_seconds() assert (time_diff[1:] < 3600).all() # 确保数据更新间隔小于1小时
自动化调度：通过Apache Airflow设置每日增量抓取python
from airflow import DAG
from airflow.operators.python_operator import PythonOperator

dag = DAG('tflbikescraper', schedule_interval='@daily')

def scrape_task():
# 抓取逻辑实现

PythonOperator(
taskid='dailyscrape',
pythoncallable=scrapetask,
dag=dag
)

五、数据应用的想象空间

成功获取的CSV数据可支撑多种分析场景：
- 供需预测模型：基于历史数据预测各站点用车高峰时段
- 调运路线优化：根据实时空满桩位计算最优自行车调度路径
- 城市规划参考：分析骑行热点区域辅助自行车道建设决策

"我们曾发现伦敦塔桥站每周五晚8点会出现自行车荒，"TfL运维团队负责人透露，"通过动态抓取数据调整了调度方案，现在该站点的车辆满足率提升了37%。"

动态加载数据清洗 Python爬虫 Web Scraping TfL API 交通大数据

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/38124/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权