其他

如何用Python抓取YahooFinance历史财报数据

悠悠楠杉

2025-11-14

0 评论

98 阅读

正在检测是否收录...

11/14

如何用Python抓取Yahoo Finance历史财报数据

在投资分析和财务建模中，获取企业历史财报数据是至关重要的一步。虽然Yahoo Finance提供了丰富的财经信息界面，但其官方API并不直接开放财报数据的访问权限。这使得许多分析师和开发者不得不通过模拟网页请求的方式，从公开页面中提取所需内容。本文将详细介绍如何使用Python编写脚本，模拟浏览器行为抓取Yahoo Finance上的历史财报数据，并将其结构化处理以供后续分析。

首先，我们需要明确目标：从Yahoo Finance的企业财报页面（例如苹果公司AAPL）中提取季度或年度的损益表、资产负债表和现金流量表的历史数据。这些数据通常以HTML表格形式展示在/financials、/balance-sheet和/cash-flow等子页面上。由于Yahoo对频繁请求有反爬机制，因此我们在设计爬虫时必须注重请求频率控制与User-Agent伪装。

我们选择使用requests库发起HTTP请求，并结合BeautifulSoup进行HTML解析。为了更真实地模拟人类浏览行为，我们在请求头中设置常见的浏览器标识：

python
import requests
from bs4 import BeautifulSoup
import time
import random

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
'Accept-Language': 'en-US,en;q=0.9',
'Accept-Encoding': 'gzip, deflate, br',
'Connection': 'keep-alive',
'Referer': 'https://finance.yahoo.com/'
}

接下来定义一个函数用于获取指定股票代码的财报页面内容：

python def fetch_financial_data(symbol, section='financials'): url = f"https://finance.yahoo.com/quote/{symbol}/{section}?p={symbol}" try: response = requests.get(url, headers=headers) response.raise_for_status() return response.text except requests.RequestException as e: print(f"请求失败: {e}") return None

当成功获取页面后，使用BeautifulSoup解析DOM结构。财报数据通常嵌套在特定的div容器内，类名为W(100%) Maw(1280px)，而具体的表格行则位于tr标签中。我们可以通过遍历表头识别年份，再逐行提取科目名称与对应数值：

python
def parseincomestatement(html):
soup = BeautifulSoup(html, 'html.parser')
data = {}
tables = soup.findall('div', class='Mstart(a) Mend(a)')

for table in tables:
    rows = table.find_all('tr')
    for row in rows:
        cols = row.find_all('td')
        if len(cols) > 1:
            label = cols[0].get_text(strip=True)
            values = [col.get_text(strip=True) for col in cols[1:]]
            data[label] = values
return data

实际运行时，建议加入随机延时以避免触发IP封锁：

python symbols = ['AAPL', 'MSFT', 'GOOGL'] for symbol in symbols: html = fetch_financial_data(symbol, 'financials') if html: financials = parse_income_statement(html) print(f"{symbol} 最近收入: {financials.get('Total Revenue', 'N/A')}") time.sleep(random.uniform(2, 5))

值得注意的是，Yahoo Finance近年来逐步采用JavaScript动态渲染，部分数据可能无法通过静态抓取获得。此时可考虑引入Selenium驱动真实浏览器加载页面，尽管会牺牲一定效率，但能确保数据完整性。

此外，在处理返回数据时，应统一货币单位（如百万美元）、清理特殊字符（如“B”代表十亿、“M”代表百万），并转换为浮点数便于后续计算。对于缺失值或非数字字段，需建立合理的填充或跳过逻辑。

最终，我们可以将清洗后的数据保存为CSV或JSON格式，集成进本地数据库或分析平台。整个流程不仅适用于单次研究，也可封装为自动化任务，定期更新关注企业的财务表现。

在整个开发过程中，遵守网站的robots.txt规则、限制请求频率、不用于商业批量采集，是每位技术使用者应有的责任。合理利用公开数据资源，才能真正服务于价值发现与理性投资决策。

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/38546/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

如何用Python抓取YahooFinance历史财报数据

如何用Python抓取Yahoo Finance历史财报数据

人生倒计时