返回顶部
AiGoe.com 首页 AI快讯

谷歌发布 FACTS 基准:AI 模型准确性面临70% 天花板挑战

AI快讯 2025-12-11 18:41 56人浏览 0人回复
摘要

近日,谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件,旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。该基准套件提供了一种全面的评估框架,特别适用于法律、金融和医疗等行业,其 ...

 近日,谷歌的 FACTS 团队与数据科学单位 Kaggle 联合发布了 FACTS 基准套件,旨在填补当前 AI 模型评估中对事实准确性缺乏标准化的空白。该基准套件提供了一种全面的评估框架,特别适用于法律、金融和医疗等行业,其中准确性至关重要。

FACTS 基准将 “事实性” 定义为两个独特的操作场景:一是 “上下文事实性”,即依据提供的数据生成准确响应;二是 “世界知识事实性”,即从记忆或网络中检索信息。初步结果显示,包括 Gemini3Pro、GPT-5和 Claude4.5Opus 在内的所有模型,在这一基准测试中均未能突破70% 的准确率。

FACTS 基准不仅限于简单的问答题,而是由四个不同的测试组成,模拟开发人员在生产中遇到的真实失败模式。这些测试包括:参数基准(内部知识)、搜索基准(工具使用)、多模态基准(视觉)和上下文基准。谷歌已向公众发布了3513个示例,而 Kaggle 则保留了一部分私有数据,以防开发人员在测试数据上进行训练。

根据初步测试结果,Gemini3Pro 以68.8% 的综合 FACTS 得分领先,其次是 Gemini2.5Pro(62.1%)和 OpenAI 的 GPT-5(61.8%)。特别是在 “搜索” 基准测试中,Gemini3Pro 的得分高达83.8%,而在 “参数” 测试中仅为76.4%。这表明,企业在构建知识检索增强生成(RAG)系统时,应将模型与搜索工具或向量数据库结合使用,以提高准确性。

然而,值得关注的是,在多模态任务中的表现普遍较低,即使是领先的 Gemini2.5Pro,在该类别中也仅得到了46.9% 的准确率。这一数据表明,当前的多模态 AI 在无人监督的数据提取上尚未成熟,企业在产品开发中需谨慎对待。

本文暂无评论,快来抢沙发!

推荐阅读
热门问答
AiGoe.com 成立于2014年8月,是目前国内优秀的开源技术社区,拥有超过300万会员,形成了由开源软件库、代码分享、资讯、协作翻译、讨论区和博客等几大频道内容,为IT开发者提供了一个发现、使用、并交流开源技术的平台。
  • 官方手机版

  • 微信公众号

  • 商务合作

  • Powered by Discuz! X3.5 | Copyright © 2001-2020, Tencent Cloud. |
  • | 营业执照 | |星点互联科技有限公司|鲁ICP备19001237号-21|鲁公网安备 4236902302000354号