返回顶部
AiGoe.com 首页 AI快讯

腾讯发布 Youtu-Embedding:助力企业级智能服务

AI快讯 2025-10-14 20:06 9人浏览 0人回复
摘要

近日,腾讯优图实验室正式开源了一款名为 Youtu-Embedding 的文本表示模型,旨在提升企业级智能客服和知识库管理等领域的效率。该模型通过精确提取信息,避免了大模型在特定领域中的误导性生成问题。这一问题常常出 ...

 近日,腾讯优图实验室正式开源了一款名为 Youtu-Embedding 的文本表示模型,旨在提升企业级智能客服和知识库管理等领域的效率。该模型通过精确提取信息,避免了大模型在特定领域中的误导性生成问题。这一问题常常出现在企业级应用中,尤其是当用户询问特定问题时,模型可能会根据通用语料生成不相关的答案。

Youtu-Embedding 能够有效应对模型在不同领域表现不佳的现象。模型在通用语料上训练良好,但在法律、医疗等专业领域的应用效果却可能大打折扣。腾讯针对这一痛点,从零开始训练该模型,利用了高达3万亿 Token 的中英文语料,为模型的语言理解能力奠定了坚实基础。此外,腾讯还提供了丰富的人工标注数据,确保模型在真实业务场景中的适用性。

为了让模型更好地理解用户的真实意图,腾讯引入了大规模弱监督训练。通过这种训练方式,Youtu-Embedding 能够识别不同表述但相似意图的句子,进而在语义空间中建立准确的映射关系。比如,用户询问 “这款产品保修多久?” 和 “坏了可以免费修吗?” 两个问题,虽然表达方式不同,但都在问保修政策。

在多任务训练方面,腾讯设计了一套创新的微调框架,确保模型能够适应不同的任务需求。模型采用统一的数据格式和差异化的损失函数,能够有效提升文本相似度、检索和分类等任务的能力。同时,动态采样机制让模型在训练过程中合理分配精力,从而在各类任务中均衡发展。

Youtu-Embedding 已经在中文语义评测基准 CMTEB 上取得了77.46的高分,成为表现最优秀的中文语义模型之一。这款模型适用于多种应用场景,包括智能问答、内容推荐和知识管理等,特别是在构建检索增强生成系统(RAG)中显示出极大的潜力。

腾讯优图实验室持续致力于开源技术的发展,除了 Youtu-Embedding 之外,还推出了 Youtu-Agent 和 Youtu-GraphRAG 等项目,为开发者提供了更多的工具和资源,以促进 AI 应用的快速发展。

项目:https://github.com/TencentCloudADP/youtu-embedding

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号