前两天OpenAI刚宣布说要封禁中国地区的API调用,第二天,全球著名开源平台Hugging Face(笑脸)发布了一个AI开源大模型排行榜单,直接宣告:中国AI大模型全球排名第一。 这下就有意思了,梳理整件事情,我也来谈谈我的看法。 从这份开源大模型排行榜可以看到,阿里通义千问大模型 Qwen2-72B 再次登顶,成为全球开源大模型排行榜的NO.1!排名第二是的脸书的llama3。而让人震惊的是,阿里之前开源的Qwen1.5基础和Chat版本也都上榜了。
也就是说,这份榜单的前10名中,阿里就占了4个,这份榜单,直接让中国的AI开源大模型扬眉吐气。
肯定有人问了,为什么没有百度的大模型呢?因为百度的AI大模型不开源啊,人家也测不了,只能测开源的,所以最后的结论是阿里的AI大模型排第一。 值得一提的是,这次他们的评测流程也发生巨大变化: Hugging Face提出了更有挑战性的V2榜单,基于未受污染、高质量数据集的新基准,运用可靠的度量标准。V2榜单涵盖的一般任务包括:知识测试、短文本和长文本的理解推理、复杂的数学能力,以及与人类偏好高度相关的任务如指令遵循。榜单内的测试集,更难、更好、更快、更强对模型的考察也更有说服力。 因为之前的V1榜单,被过度使用,而且题目相对简单,一些新近出现的模型出现数据污染迹象;所以老的评测方法不用了。
而且这次他们用了整整300块英伟达H100显卡,对全球100多个主流开源大模型都做了测试。也就是说,截止到目前,Hugging Face是全球最权威的开源模型榜单了。
英伟达H100显卡,在日本大概21.6万元一个(国内不让卖),那300块H100是多少钱?看来Hugging Face还挺有钱的,能搞到这么多资源。 同时Hugging Face的联合创始人Clem还发了推特(现在叫X):阿里最新开源的通义千问Qwen2-72B指令微调版本卫冕冠军,继续位列全球开源模型排行榜第一名。
中国在全球开源大模型领域处于领导地位!!这条推特也印证了Hugging Face官方对阿里AI开源大模型是认可的。 Hugging Face自己本身也是一家开源模型库网站平台,它是大模型时代的“github”,对于做AI的人来说,Hugging Face就是个宝藏库,里面超多好用的东西,所以他搞的开源模型排行榜很有公信力。 国内很多公司也是这样模式,搞榜单,增强自己权威性。当年,某公司搞了个自媒体排行榜,在科技自媒体领域,卢松松也荣幸有了排名,然后就接到广告了,可以说对双方都有好处,其实我一直很感激它呢。
好了,上面有些揣测的意思,接下来我也谈谈我的看法: (1)这份榜单的意义是什么?相当于给国内很多套壳AI工具的企业打了一针兴奋剂,意思是就告诉诸位:除了OpenAI之外,我们自己的AI工具也可以用。
自从OpenAI屏蔽中国使用API接口后,中国那些大模型企业瞬间就兴奋起来了,因为没办法用OpenAI做套壳应用了,但对国内AI大模型是利好消息。而这份榜单的推出,也是对OpenAI封禁最好的回应。 我们应该感谢OpenAI的封禁啊! (2)目前中国的AI实力到底如何?美国的AI因为有芯片、算力、人才等因素的影响,所以美国的AI更侧重于底层架构。上层建筑你随便怎么用,但地基必须是我的。 而中国的因为老美的出口管制,所以我们大部分的AI应用侧重于“应用层面”,比如应用到医疗、港口、矿场等领域。当然我们普通人接触最多少还是用AI写文章、写论文。比如松松最近就用AI智能体给客户写行业文章,也算是AI应用的一种吧。
而中国AI的格局已初步形成: 以AI开源为主的阿里,同时还不断投资各种AI大模型,C端层面以通义系类、百炼平台为主。以闭源为主的百度,能力未知。C端层面以文心一言、萝卜快跑为主。
两家巨头,阿里和百度走了两条截然相反的路。 那目前中国的AI实力到底如何呢?我感觉目前还没人说到清楚,有一点是可以肯定的,就靠用户量和收入说话。在应用层面、盈利模式、用户体量三个维度去判断的。 写作最后:目前中国的AI实力还是可以的,只是很多人不认可,而这次的排行榜阿里用实力告诉大伙,中国AI技术并不比国外的差,甚至还遥遥领先。 现在AI开源大模型阿里已经的排名第一了,虽然OpenAI不让你用,但相信在不久的将来,会有越来越的人使用阿里的通义千问Qwen2-72B。 希望阿里也能顶住压力,砥砺前行,更上一层楼吧。
|