返回顶部
AiGoe.com 首页 AI快讯

NeurIPS 2025 最佳论文揭晓:阿里通义千问靠“门控注意力”摘下中国唯一大奖 ...

AI快讯 2025-11-29 14:22 53人浏览 0人回复
摘要

全球 AI 顶会 NeurIPS 2025 今晚公布获奖名单,阿里巴巴通义千问团队凭《Attention Gating Makes Better Foundation Models》拿下最佳论文奖,成为 4 篇获奖论文中唯一中国面孔。本届大会共收稿 2 万篇,录取率仅 25 ...

 全球 AI 顶会 NeurIPS 2025 今晚公布获奖名单,阿里巴巴通义千问团队凭《Attention Gating Makes Better Foundation Models》拿下最佳论文奖,成为 4 篇获奖论文中唯一中国面孔。本届大会共收稿 2 万篇,录取率仅 25%,竞争强度创历史新高。

论文核心是一把“滑动门”:在标准注意力后加一层可学习的门控,实时决定哪些头、哪些 token 继续参与下游计算。实验显示,1.7 B 稠密模型与 15 B MoE 模型在 3.5 T tokens 上训练,**参数只增 1 %,困惑度降 0.2,MMLU 涨 2 分**,Pile 各子域均取得一致提升。团队解释,门控相当于给注意力做“安检”,无效信息被拦在 FFN 之前,计算效率与鲁棒性同步提高。

该机制已装进即将发布的 Qwen3-Next,阿里同时把代码与 1.7 B 实验模型开源至 GitHub,供社区二次验证。通义千问表示,下一步将把门控思路扩展到多模态与长文本,让“会自己过滤的注意力”成为下一代大模型的标准组件。

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号