MAKE MAE GREAT AGAIN

实际上我没有看过MAE的paper，本次用的是比较新的pixio模型，当然基本架构都差不多，pixio的效果也更好。
pixio repo：https://github.com/facebookresearch/pixio

模型性能

在monodepth和semantic任务上测试结果超过或与dinov3持平，但是结构更加简单，只是对MAE进行了简单但暴力的改进。

作者没有开源decoder权重，我冻结vith16的encoder，在imagenet1k上训练了decoder。
分辨率为224224，由于patchsize为16，所以图片会被分成1414个patch，patch之间割裂感比较强。

说实话我觉得已经超越了普通人类的水平了，甚至有些过拟合的迹象
于是使用了自己的手机图片进行了测试

怎么说呢，嗯~~，确实强得很可怕，在语义方面比我手机里自带的AI修图要强很多

我有一个大胆的想法：让pixio先推理做high-level处理，然后用AI修图工具做low-level处理。
不过自己试了一下，效果一般哈哈

项目 > 生成模型之旅

#生成模型

MAKE MAE GREAT AGAIN

http://www.wsgbxx.com/2026/02/11/MAE/

Author

wsgbxx

Posted on

February 11, 2026

Licensed under