其他

XML中的空格完全解读：从基础到实战的深度剖析

悠悠楠杉

2025-06-19

0 评论

126 阅读

正在检测是否收录...

06/19

当我们第一次接触XML文档时，往往会把空格当作无关紧要的存在。直到某天发现格式化后的XPath查询突然失效，或是BeautifulSoup解析结果多出莫名的换行符时，才意识到这些"透明"的空白字符竟是如此狡猾。

一、XML空格的三种物理形态

普通空格（U+0020）：最常见的空格形式
制表符（U+0009）：开发者最头疼的"隐形杀手"
换行符（U+000A/U+000D）：在CDATA区块中会制造惊喜

xml  <code> Hello World </code>

二、xml:space属性的双面性

这个看似简单的属性实际暗藏玄机：
xml <poem xml:space="preserve"> 床前明月光  </poem>
实践中的坑点：
- 继承性：子元素默认继承父元素的xml:space设置
- 浏览器差异：Firefox会忽略未声明xml:space的空白节点

三、解析器的"选择性失明"

测试不同解析器对同一段XML的处理差异：
python from xml.dom import minidom doc = minidom.parseString("<a> </a>") print(doc.firstChild.childNodes) # 输出Text节点而非空列表

Java的DOM解析器更会玩花样——通过设置DocumentBuilderFactory.setIgnoringElementContentWhitespace(true)，可以让空格节点凭空消失。

四、XPath查询的空白迷局

当你在XPath中查询text()时：
xpath //book/title/text() # 可能捕获到纯空格节点
解决方案是过滤：
xpath //book/title/text()[normalize-space()]

五、实战中的空格清洁方案

预处理阶段：使用正则表达式\s{2,}压缩连续空格
解析阶段：配置解析器忽略无关空白（如lxml的removeblanktext）
序列化阶段：设置pretty_print=False关闭格式化空格

java // Java的JAXB解决方案 marshaller.setProperty(Marshaller.JAXB_FORMATTED_OUTPUT, false);

六、特殊场景的终极对决

处理混合内容时的经典难题：
xml <para>This is <em>important</em>!</para>
DOM解析后会得到三个节点：
1. "This is "（包含尾随空格）
2. 元素
3. "!"文本节点

此时XPath的string()函数反而比text()更可靠。

结语

XML空格处理保留空格 xml:space属性 DOM空格节点 XPath空格处理

朗读

分享

分享到QQ 分享到微博

赞（0）

版权属于：
至尊技术网

本文链接：
https://www.zzwws.cn/archives/30232/（转载时请注明本文出处及文章链接）

作品采用：
《署名-非商业性使用-相同方式共享 4.0 国际 (CC BY-NC-SA 4.0)》许可协议授权