其他

Python正则表达式保姆式教学：从基础到进阶

悠悠楠杉

2025-07-02

0 评论

127 阅读

正在检测是否收录...

07/02

1. 基础入门：了解正则表达式的基本构成

正则表达式由普通字符和特殊字符（称为元字符）组成。普通字符包括字母、数字等；特殊字符如.（任意单个字符）、*（前一个字符出现0次或多次）、+（前一个字符出现1次或多次）、|（逻辑或操作）等，它们拥有特定的含义。

2. 编译正则表达式：使用`re.compile()`

python import re pattern = re.compile(r'\d+') # 编译一个匹配一个或多个数字的表达式 match = pattern.match('12345') # 在字符串中寻找匹配的项 print(match.group()) # 输出: 12345

3. 模式匹配：`match()`、`search()`和`findall()`的区别

match()：从字符串起始位置开始匹配。
search()：扫描整个字符串并返回第一个匹配项。
findall()：返回字符串中所有匹配项的列表。

python pattern = re.compile(r'\w+') # 匹配单词字符（字母、数字、下划线） print(pattern.findall('Hello 123, how are you?')) # 输出: ['Hello', '123', 'how', 'are', 'you']

4. 分组与捕获：使用圆括号`()`

python pattern = re.compile(r'(\d+)\s(\w+)') # 分组匹配，\d+为数字，\w+为单词字符，两者分别捕获为两个组 match = pattern.match('123 Hello') # 匹配并捕获数字和单词字符部分 print(match.groups()) # 输出: ('123', 'Hello')

5. 进阶应用：复杂模式与断言的使用

a. 零宽断言：`(?=...)`、`(?!...)`等，用于检查某部分内容是否出现但不消耗字符。

b. 反向引用：`\1`、`\2`等，用于匹配与之前捕获的组相同的文本。

c. 非贪婪模式：在`*`、`+`后加`?`，使匹配尽可能少的字符。

python pattern = re.compile(r'<(\w+)>') # 匹配HTML标签名称的非贪婪模式示例（只匹配<标签>） match = pattern.match('<a>hello</a>') # 匹配到'<a>'但不会继续匹配'hello'后的内容 print(match.group(1)) # 输出: a，即只捕获了'a'部分而不包括'>'之前的任何内容。

6. 正则表达式的性能优化与调试技巧

使用原始字符串（在字符串前加r前缀）以避免转义字符的额外处理。
对于复杂模式，使用非贪婪模式可以减少回溯次数，提高效率。
使用re.X标志（忽略空白和注释），使模式更易读且在调试时有助于识别问题。 python pattern = re.compile(r'(\d+)\s+(\w+)', re.X) # 使用re.X标志提高可读性并有利于调试 ### 7. 实际案例分析假设你需要在一段文本中提取所有邮箱地址，你可以使用如下正则表达式： python import re text = '我的邮箱是example@gmail.com, 你的是test_user@example.com吧!' pattern = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b') matches = pattern.findall(text) print(matches) # 输出: ['example@gmail.com', 'test_user@example.com'] 通过这个例子可以看到，正则表达式在处理特定格式的文本数据时非常高效且强大。 ## 结语本教程通过详尽的步骤和示例代码，从基础到进阶地介绍了Python中正则表达式的使用方法和技巧。希望你能通过这些内容，更好地掌握并应用这一强大的工具来处理你的文本数据和开发需求。

性能优化示例代码模式匹配 Python正则表达式基础语法高级应用查找与替换

朗读

版权属于：

至尊技术网

本文链接：

https://www.zzwws.cn/archives/31489/（转载时请注明本文出处及文章链接）

作品采用：

《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

Python正则表达式保姆式教学：从基础到进阶

1. 基础入门：了解正则表达式的基本构成

2. 编译正则表达式：使用re.compile()

3. 模式匹配：match()、search()和findall()的区别

4. 分组与捕获：使用圆括号()

5. 进阶应用：复杂模式与断言的使用

a. 零宽断言：(?=...)、(?!...)等，用于检查某部分内容是否出现但不消耗字符。

b. 反向引用：\1、\2等，用于匹配与之前捕获的组相同的文本。

c. 非贪婪模式：在*、+后加?，使匹配尽可能少的字符。