您当前所在位置: 主页 > 信息平台

探索新模型架构设计的「嫁接」技术,机器学习架构设计很关键

发布时间:2025-06-10 18:06|栏目: 信息平台 |浏览次数:

您知道不?现在有一种叫「嫁接」的技术超厉害!能在小计算预算下通过编辑预训练 Diffusion Transformers 搞出新的模型架构设计,可太牛了这事!既能减少计算量还能保持模型质量咱赶紧详细瞧瞧这神秘的技术!

嫁接技术登场

_李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了_李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了

在机器学习领域模型训练动辄就需要大量计算资源,预算有限可咋整?这嫁接技术就应运而生!它不用从头开始训练模型,而是直接对预训练的 DiTs 下手,替换里面某些算子,像 MLP ,一下子就能搞出新的混合架构,牛得很!就好比搭积木,换几个积木块就能有新造型。在实际案例中,研究者用这个技术在合理花费下成功探索新架构。

李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了_李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了_

轻量级调优玩法

有了新架构后,还得做个轻量级调优。由于集成多个新算子容易误差传播,就用有限的数据来调优。像在一些实际实验里,通过这方式减少了因为新算子带来的误差。打个比方说,这就如同给新车子调试零件,让它能跑得更稳。而且通过轻量级调优,为后面的模型高质量输出奠定了基础。

架构重构实例

研究中做了个案例研究,把嫁接技术用到 DiT - XL/2 上,将每对序列 Transformer 模块转化成并行模块。这一操作就像给房子重新装修布局。最后居然发现就算替换 DiT - XL/2 里所有 MHA 或 MLP 层,只用 10% 的训练数据就能恢复竞争性能,太神奇了。并且这说明嫁接技术在重构架构方面潜力巨大。

自嫁接的作用

_李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了_李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了

为了研究新架构设计,还搞了个自嫁接。啥是自嫁接?就是把现有算子换成相同类型但权重随机初始化的算子,计算图结构不变,但计算过程改变。就好比人换了思考方式,不过身体结构还是那样。通过分析选择特定于算子的回归目标,还能实现高质量初始化,对研究意义明显。

_李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了_李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了

新算子的实验

研究还引入了 Hyena - X 和 Hyena - Y 这俩新的高效门控卷积算子,它们是 MHA 的直接替代品。实验表明,50% 交错替换比例下,SWA、Hyena - X/Y 和 Mamba - 2 等替代方案 FID 分数和基线差距不大,但 100% 替换就不行了,性能会急剧恶化,这说明部分层才适合嫁接。不过,一些区域局部性会失真,可能是 LoRA 适应力和合成数据质量问题。

李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了_李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了_

嫁接应用成果

在文生图 DiTs 里,这嫁接技术可是立下大功。构建的混合架构不仅显著加速,而且生成质量损失极小。这在实际应用里,那可是非常实用。打个比方,给游戏做场景图时,速度快质量又好,这不得大受欢迎。由此可见嫁接技术前景一片光明!

_李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了_李飞飞团队DiT设计新思路:不重训直接「嫁接」,质量还提高了

大家想想看,要是以后把嫁接技术用在更多地方,还能开发出啥样的模型架构?

Copyright © 2002-2025 大连市同乐中小企业商会 版权所有 Powered by EyouCms
电话:15556325500 地址:大连市中山区独立街31号远达大厦B座1802室 备案号:辽ICP备16005699号-1
网站地图