您知道不?现在有一种叫「嫁接」的技术超厉害!能在小计算预算下通过编辑预训练 Diffusion Transformers 搞出新的模型架构设计,可太牛了这事!既能减少计算量还能保持模型质量咱赶紧详细瞧瞧这神秘的技术!
嫁接技术登场
在机器学习领域模型训练动辄就需要大量计算资源,预算有限可咋整?这嫁接技术就应运而生!它不用从头开始训练模型,而是直接对预训练的 DiTs 下手,替换里面某些算子,像 MLP ,一下子就能搞出新的混合架构,牛得很!就好比搭积木,换几个积木块就能有新造型。在实际案例中,研究者用这个技术在合理花费下成功探索新架构。
轻量级调优玩法
有了新架构后,还得做个轻量级调优。由于集成多个新算子容易误差传播,就用有限的数据来调优。像在一些实际实验里,通过这方式减少了因为新算子带来的误差。打个比方说,这就如同给新车子调试零件,让它能跑得更稳。而且通过轻量级调优,为后面的模型高质量输出奠定了基础。
架构重构实例
研究中做了个案例研究,把嫁接技术用到 DiT - XL/2 上,将每对序列 Transformer 模块转化成并行模块。这一操作就像给房子重新装修布局。最后居然发现就算替换 DiT - XL/2 里所有 MHA 或 MLP 层,只用 10% 的训练数据就能恢复竞争性能,太神奇了。并且这说明嫁接技术在重构架构方面潜力巨大。
自嫁接的作用
为了研究新架构设计,还搞了个自嫁接。啥是自嫁接?就是把现有算子换成相同类型但权重随机初始化的算子,计算图结构不变,但计算过程改变。就好比人换了思考方式,不过身体结构还是那样。通过分析选择特定于算子的回归目标,还能实现高质量初始化,对研究意义明显。
新算子的实验
研究还引入了 Hyena - X 和 Hyena - Y 这俩新的高效门控卷积算子,它们是 MHA 的直接替代品。实验表明,50% 交错替换比例下,SWA、Hyena - X/Y 和 Mamba - 2 等替代方案 FID 分数和基线差距不大,但 100% 替换就不行了,性能会急剧恶化,这说明部分层才适合嫁接。不过,一些区域局部性会失真,可能是 LoRA 适应力和合成数据质量问题。
嫁接应用成果
在文生图 DiTs 里,这嫁接技术可是立下大功。构建的混合架构不仅显著加速,而且生成质量损失极小。这在实际应用里,那可是非常实用。打个比方,给游戏做场景图时,速度快质量又好,这不得大受欢迎。由此可见嫁接技术前景一片光明!
大家想想看,要是以后把嫁接技术用在更多地方,还能开发出啥样的模型架构?