2025-08-15 VisionTransformer必读系列:图像分类综述(三)MLP、ConvMixer与架构分析 VisionTransformer必读系列:图像分类综述(三)MLP、ConvMixer与架构分析 一、从Transformer到MLP:架构的简化与重构当Vision Transformer(ViT)证明纯注意力机制可处理图像任务后,研究者开始反思:是否所有组件都必要?2021年涌现的MLP架构(如MLP-Mixer、ResMLP)给出了答案——去掉自注意力,仅用MLP层也能实现竞争力。核心发现 Token混合替代注意力:MLP-Mixer通过"channel-mixing MLP"和"token-mixing MLP"分别实现跨通道与空间位置的信息交互,其计算效率优于ViT。 参数共享的潜力:ResMLP证明,即使共享空间投影权重,模型性能下降不足1%,但显存占用减少30%。 数据依赖性的削弱:MLP架构在中小规模数据集(如ImageNet-1k)表现接近ViT,但在需要长程建模的任务(如分割)上仍有差距。 思考:MLP的成功暗示视觉任务可能更依赖基础特征交互,而非复杂的动态权重分配。二、ConvMixer:当卷积遇见ViTConvMixer的诞生源于一个尖锐问题:"ViT的优势真的来自注意力吗?" 通过极端实验设计,它证明: 深度可分离卷积等价于ViT的patch emb... 2025年08月15日 7 阅读 0 评论