返回顶部
热门问答 更多热门问答
技术文章 更多技术文章

优刻得抢先接入DeepSeek-V3.2-Exp

[复制链接]
admin 显示全部楼层 发表于 2025-9-30 17:30:18 |阅读模式 打印 上一主题 下一主题
9月29日晚,DeepSeek-V3.2-Exp模型正式发布。优刻得模型服务平台UModelVerse极速完成接入,作为AI应用开发者,无需关注底层算力资源调度、基础环境的模型部署,UModelVerse控制台全面覆盖从模型训练到应用上线的全流程,轻松实现业务模型的快速落地与迭代,欢迎登陆体验!



优刻得抢先接入DeepSeek-V3.2-Exp

优刻得抢先接入DeepSeek-V3.2-Exp


UModelVerse控制台模型广场
官方表示DeepSeek-V3.2-Exp是一个实验性(Experimental)的版本,是迈向新一代架构的中间步骤。V3.2-Exp在V3.1-Terminus的基础上引入了DeepSeek Sparse Attention(一种稀疏注意力机制),针对长文本的训练和推理效率进行了探索性的优化和验证。
稀疏注意力机制(DSA)
DeepSeek Sparse Attention(DSA)首次实现了细粒度稀疏注意力机制,在几乎不影响模型输出效果的前提下,实现了长文本训练和推理效率的大幅提升。

优刻得抢先接入DeepSeek-V3.2-Exp

优刻得抢先接入DeepSeek-V3.2-Exp

V3.1-Terminus和V3.2-Exp在BrowseComp和SWE Verified上的强化学习训练曲线,实线和虚线分别表示准确率和平均输出tokens

优刻得抢先接入DeepSeek-V3.2-Exp

优刻得抢先接入DeepSeek-V3.2-Exp

V3.1-Terminus和V3.2-Exp推理成本对比
与之前模型最大的不同在于,DSA不再要求每个Token关注序列中的所有其他Token,而是引入了一个名为「闪电索引器」(lightning indexer)的高效组件。这个索引器能以极快的速度判断,对于当前正在处理的Token,序列中哪些历史Token是最重要的。随后,模型仅从这些关键Token中筛选出少量(例如Top-k,取2048个)进行精细计算,从而在处理长文本时显著提升效率。更重要的是,这种设计在实现效率飞跃的同时,并未牺牲模型的核心性能。

优刻得抢先接入DeepSeek-V3.2-Exp

优刻得抢先接入DeepSeek-V3.2-Exp

DeepSeek-V3.2-Exp的注意力架构
根据官方公布的评测结果,在与前代模型V3.1-Terminus严格对齐的训练设置下,V3.2-Exp在各大公开基准测试中的表现与前者基本持平。

优刻得抢先接入DeepSeek-V3.2-Exp

优刻得抢先接入DeepSeek-V3.2-Exp

V3.1-Terminus和V3.2-Exp在各基准下测评对比
此外,为支持社区研究,DeepSeek还开源了新模型研究中设计和实现的GPU 算子,包括TileLang和CUDA两种版本。官方团队建议在进行研究性实验时,优先使用基于TileLang的版本,以便于调试和快速迭代。
得益于新模型服务成本的大幅降低,官方API价格也相应下调,新价格即刻生效。在新的价格政策下,开发者调用DeepSeek API的成本将降低50%以上。

登录UModelVerse一键调用
步骤一:注册并登录UCloud云平台

步骤二:实名认证
使用模型服务前用户需要完成实名认证。

步骤三:创建API Key
进入UModelVerse-API Key管理。


点击左上角创建一个Key,新用户注册免费50万tokens。

步骤四:发送请求

优刻得抢先接入DeepSeek-V3.2-Exp

优刻得抢先接入DeepSeek-V3.2-Exp

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号