在NIAH任务评估中,DroPE模型的召回率高达74.92%,大幅超越了传统的RoPE缩放方法。 即使在大规模的Llama2-7B模型上,仅使用0.5%的预训练预算进行重新校准,DroPE也能在长上下文问答和总结任务中展现出卓越的性能。
更难得的是,PoPE不仅性能能打,落地成本还极低。团队用Triton定制了 Flash ...
长文本能力对语言模型(LM,Language Model)尤为重要,试想,如果 LM 可以处理无限长度的输入文本,我们可以预先把所有参考资料都喂给 LM,或许 LM 在应对人类的提问时就会变得无所不能。 但是,LM 通常只在较短窗长下进行训练,可能产生过拟合,只学习到指定 ...
而在近期 LSTM 之父 Jürgen Schmidhuber 的 USI & SUPSI 瑞士 AI 实验室团队的一项新研究中,分析表明,当前流行的旋转位置嵌入(RoPE)方法中的 what 与 where 是纠缠在一起的。这种纠缠会损害模型性能,特别是当决策需要对这两个因素进行独立匹配时。
7 天on MSN
清华领衔突破:GRAPE框架为AI位置编码开启“数学统一”新篇章
研究团队从群论中汲取灵感,创新性地将"群作用"概念引入位置编码领域。该数学工具擅长描述对称变换规律,例如正方形的四种旋转方式保持图形不变性。基于这一理论突破,GRAPE框架构建出乘法与加法两大编码体系,分别对应旋转与平移两种空间变换方式。
研究团队深入分析后发现,问题的根源在于现有AI视频生成系统的三个致命缺陷。第一个缺陷就像给导演戴上了时间限制的"紧箍咒",它只能记住固定长度的时间片段,一旦超过这个限制就彻底"失忆"。第二个缺陷是反应迟钝,当你给出新指令时,它需要很长时间来"消化理解 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果