其他

正则表达式拆分url实例代码

悠悠楠杉

2025-06-10

0 评论

26 阅读

正在检测是否收录...

06/10

：使用正则表达式从文本中提取URL。

分析URL：从URL中提取标题、关键词、描述等元信息（如果这些信息是可用的）。

第一步：使用正则表达式拆分URL

首先，我们定义一个正则表达式来匹配和提取URL。此正则表达式适用于大多数URL，但请根据实际需求调整：

```python
import re

示例文本包含URL

text = "欢迎访问我们的网站：https://example.com/page?title=article-title&keywords=keyword1,keyword2&description=This+is+a+great+article+about+web+development. 继续阅读更多内容..."

使用正则表达式提取URL

urls = re.findall(r'https?://\S+', text)
```

第二步：从URL中提取标题、关键词和描述

这里假设URL的查询字符串部分包含title、keywords和description等参数，我们可以通过正则表达式进一步解析这些参数：

```python
def extractmetadatafromurl(url): queryparams = dict(re.findall(r'([\w-]+)=([\w,%s]+)', url[url.find('?')+1:])) # 提取查询参数
return queryparams.get('title', ''), queryparams.get('keywords', ''), query_params.get('description', '')

示例URL的元数据提取

title, keywords, description = extractmetadatafrom_url(urls[0]) # 假设urls[0]是我们要分析的URL
```

```python
def generatearticle(title, keywords, description):
return f"""# {title}

Keywords: {', '.join(keywords)}

{description}

继续阅读更多内容..."""

article = generatearticle(title, keywords, description)
print(markdownarticle)
```

完整代码示例整合：

将以上代码整合到一个Python脚本中：
```python
import re

def extractmetadatafromurl(url): queryparams = dict(re.findall(r'([\w-]+)=([\w,%s]+)', url[url.find('?')+1:])) # 提取查询参数并处理空格转加号问题
return queryparams.get('title', ''), queryparams.get('keywords', ''), query_params.get('description', '') # 返回元数据，默认为空字符串如果无该信息或参数错误

article(title, keywords, description): # 生成Markdown文章函数定义不变
return f"""# {title}
Keywords: {', '.join(keywords)}
{description}
继续阅读更多内容...""" # 增加描述前添加一个空行以保持格式整洁

text = "欢迎访问我们的网站：https://example.com/page?title=article-title&keywords=keyword1,keyword2&description=This+is+a+great+article+about+web+development. 继续阅读更多内容..." # 示例文本包含URL不变
urls = re.findall(r'https?://\S+', text) # 继续使用上一步的正则表达式提取URL
if urls: # 如果成功找到URL
title, keywords, description = extractmetadatafromurl(urls[0]) # 提取元数据
print(generate
else: # 如果没有找到URL，则打印提示信息
print("未找到有效的URL")
```

这里假设URL的查询字符串部分包含title

朗读

分享

分享到QQ 分享到微博

赞（0）

版权属于：
至尊技术网

本文链接：
https://www.zzwws.cn/archives/29308/（转载时请注明本文出处及文章链接）

作品采用：
《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权

至尊技术网