返回顶部
AiGoe.com 首页 AI快讯

粤语数字化里程碑!广州大学发布 AI-DimSum 多模态语料库平台

AI快讯 2025-12-8 15:43 54人浏览 0人回复
摘要

12月6日至7日,第十届语言服务高级论坛在广州大学举行。会上,粤语语料库建设与大模型评测实验室重磅发布了其研发的AI-DimSum 多模态粤语语料库平台,标志着在全球拥有上亿用户的粤语在数字化发展中迈入新阶段。突破 ...

 12月6日至7日,第十届语言服务高级论坛在广州大学举行。会上,粤语语料库建设与大模型评测实验室重磅发布了其研发的 AI-DimSum 多模态粤语语料库平台,标志着在全球拥有上亿用户的粤语在数字化发展中迈入新阶段。

突破低资源困境 广州大学教授齐佳音介绍,粤语在网络世界中属于“低资源语言”。该平台围绕“数字中文建设”和“大湾区文化数字化”需求,构建了一个基于岭南文化、面向AI应用的多模态语料数据生态系统,遵循“标准先行、数据可溯、服务可用”原则。

一体化、模块化基础设施 AI-DimSum平台由语料采集、标注、大模型对接、确权检索、质量评估、管理及应用商店等七个子系统构成,实现了从数据采集到模型接入与应用发布的一体化、模块化流程。

海量语料支撑 该语料库汇聚了丰富的多模态资源,为AI训练提供坚实基础:

  • 文本:超过100万字(涵盖新闻、文学等)。

  • 音视频:完成3000小时高保真语音标注及1TB以上音视频资料。

  • 影视:包含《功夫熊猫》《大圣归来》《外来媳妇本地郎》等带有粤语字幕与标注的作品。

  • 评测:构建了超过20万道粤语大模型内容安全多模态评测题。

该平台的发布将极大提升粤语在大模型时代的应用能力和文化传承价值。

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号