人工智能是不是走错了方向?
今天读了一遍文章,是中国工程院院士、中国科学院计算技术研究所研究员--孙凝晖在十四届全国人大常委会专题讲座上的讲稿《人工智能与智能计算的发展》,现摘要如下:背景:2022年11月30日,OpenAI公司推出一款人工智能对话聊天机器人ChatGPT,其出色的自然语言生成能力引起了全世界范围的广泛关注,2个月突破1亿用户,国内外随即掀起了一场大模型浪潮,Gemini、文心一言、Copilot、LLaMA、SAM、SORA等各种大模型如雨后春笋般涌现,2022年也被誉为大模型元年。人工智能领域近年来正在迎来一场由生成式人工智能大模型引领的爆发式发展。一、计算技术发展简介
计算技术的发展历史大致可分为四个阶段,算盘的出现标志着人类进入第一代——机械计算时代,第二代——电子计算的标志是出现电子器件与电子计算机,互联网的出现使我们进入第三代——网络计算,当前人类社会正在进入第四阶段——智能计算。
从1946年世界上第一台电子计算机ENIAC诞生到二十一世纪的今天,已经形成了五类成功的平台型计算系统。当前各领域各种类型的应用,都可以由这五类平台型计算装置支撑。
第一类是高性能计算平台,解决了国家核心部门的科学与工程计算问题;
第二类是企业计算平台,又称服务器,用于企业级的数据管理、事务处理,当前像百度、阿里和腾讯这些互联网公司的计算平台都属于这一类;
第三类是个人电脑平台,以桌面应用的形式出现,人们通过桌面应用与个人电脑交互;
第四类是智能手机,主要特点是移动便携,手机通过网络连接数据中心,以互联网应用为主,它们分布式地部署在数据中心和手机终端;
第五类是嵌入式计算机,嵌入到工业装备和军事设备,通过实时的控制,保障在确定时间内完成特定任务。这五类装置几乎覆盖了我们信息社会的方方面面,长期以来人们追求的
以智能计算应用为中心的第六类平台型计算系统尚未形成。
现代计算技术的发展大致可以划分为三个时代。一是IT1.0又称电子计算时代(1950-1970),基本特征是以“机”为中心。计算技术的基本架构形成,随着集成电路工艺的进步,基本计算单元的尺度快速微缩,晶体管密度、计算性能和可靠性不断提升,计算机在科学工程计算、企业数据处理中得到了广泛应用。二是 IT2.0又称网络计算时代(1980-2020),以“人”为中心。互联网将人使用的终端与后台的数据中心连接,互联网应用通过智能终端与人进行交互。以亚马逊等为代表的互联网公司提出了云计算的思想,将后台的算力封装成一个公共服务租借给第三方用户,形成了云计算与大数据产业。三是 IT3.0又称智能计算时代,始于2020年,与IT2.0相比增加了“物”的概念,即物理世界的各种端侧设备,被数字化、网络化和智能化,实现“人-机-物”三元融合。智能计算时代,除了互联网以外,还有数据基础设施,支撑各类终端通过端边云实现万物互联,终端、物端、边缘、云都嵌入AI,提供与ChatGPT类似的大模型智能服务,最终实现有计算的地方就有AI智能。智能计算带来了巨量的数据、人工智能算法的突破和对算力的爆发性需求。
二、智能计算发展简介
智能计算包括人工智能技术与它的计算载体,大致历经了四个阶段,分别为通用计算装置、逻辑推理专家系统、深度学习计算系统、大模型计算系统。智能计算的起点是通用自动计算装置(1946年)。艾伦·图灵(Alan Turing)和冯·诺依曼(John von Neumann)等科学家,一开始都希望能够模拟人脑处理知识的过程,发明像人脑一样思考的机器,虽未能实现,但却解决了计算的自动化问题。
智能计算发展的第二阶段是逻辑推理专家系统(1990年)。
E.A.费根鲍姆(Edward Albert Feigenbaum)等符号智能学派的科学家以逻辑和推理能力自动化为主要目标,提出了能够将知识符号进行逻辑推理的专家系统。例如我国以通用计算平台为基础,将智能任务变成人工智能算法,将硬件和系统软件都接入通用计算平台,并催生了曙光、汉王、科大讯飞等一批骨干企业。
直到2014年左右,智能计算进阶到第三阶段——深度学习计算系统。以杰弗里·辛顿(Geoffrey Hinton)等为代表的连接智能学派,以学习能力自动化为目标,发明了深度学习等新AI算法。通过深度神经元网络的自动学习,大幅提升了模型统计归纳的能力,在模式识别等应用效果上取得了巨大突破,某些场景的识别精度甚至超越了人类。例如通过大量的数据训练让AI以庞大的基础数据和参数来判断某些场景的选择,应用于人脸识别、语音识别、自动驾驶等领域。
智能计算发展的第四阶段是大模型计算系统(2020年)。
2020年,AI从“小模型+判别式”转向“大模型+生成式”,从传统的人脸识别、目标检测、文本分类,升级到如今的文本生成、3D数字人生成、图像生成、语音生成、视频生成。例如大语言模型在对话系统领域的一个典型应用是OpenAI公司的ChatGPT。
大模型的特点是以“大”取胜,其中有三层含义,
(1)参数大,GPT-3就有1700亿个参数;
(2)训练数据大,ChatGPT大约用了3000亿个单词,570GB训练数据;
(3)算力需求大,GPT-3大约用了上万块V100 GPU进行训练。
大模型的出现带来了三个变革。一是技术上的规模定律(Scaling Law),
即很多AI模型的精度在参数规模超过某个阈值后模型能力快速提升,其原因在科学界还不是非常清楚,有很大的争议。AI模型的性能与模型参数规模、数据集大小、算力总量三个变量成“对数线性关系”,因此可以通过增大模型的规模来不断提高模型的性能。
二是产业上算力需求爆炸式增长,千亿参数规模大模型的训练通常需要在数千乃至数万GPU卡上训练2-3个月时间,急剧增加的算力需求带动相关算力企业超高速发展,英伟达的市值接近两万亿美元。
三是社会上冲击劳动力市场,北京大学国家发展研究院与智联招聘联合发布的《AI大模型对我国劳动力市场潜在影响研究》报告指出,受影响最大的20个职业中财会、销售、文书位于前列,需要与人打交道并提供服务的体力劳动型工作,如人力资源、行政、后勤等反而相对更安全。
人工智能的技术前沿将朝着以下四个方向发展。第一个前沿方向为多模态大模型。从人类视角出发,人类智能是天然多模态的,人拥有眼、耳、鼻、舌、身、嘴(语言),从AI视角出发,视觉,听觉等也都可以建模为token的序列,可采取与大语言模型相同的方法进行学习,并进一步与语言中的语义进行对齐,实现多模态对齐的智能能力。
第二个前沿方向为视频生成大模型。OpenAI于2024年2月15日发布文生视频模型SORA,将视频生成时长从几秒钟大幅提升到一分钟,且在分辨率、画面真实度、时序一致性等方面都有显著提升。SORA的最大意义是它具备了世界模型的基本特征,即人类观察世界并进一步预测世界的能力。世界模型是建立在理解世界的基本物理常识(如,水往低处流等)之上,然后观察并预测下一秒将要发生什么事件。虽然SORA要成为世界模型仍然存在很多问题,但可以认为SORA学会了画面想象力和分钟级未来预测能力,这是世界模型的基础特征。
第三个前沿方向为具身智能。具身智能指有身体并支持与物理世界进行交互的智能体,如机器人、无人车等,通过多模态大模型处理多种传感数据输入,由大模型生成运动指令对智能体进行驱动,替代传统基于规则或者数学公式的运动驱动方式,实现虚拟和现实的深度融合。
第四个前沿方向是AI4R(AI for Research)成为科学发现与技术发明的主要范式。相较于人类,人工智能在记忆力、高维复杂、全视野、推理深度、猜想等方面具有较大优势,是否能以AI为主进行一些科学发现和技术发明,大幅提升人类科学发现的效率,比如主动发现物理学规律、预测蛋白质结构、设计高性能芯片、高效合成新药等。
最后,通用人工智能(Artificial General Intelligence,简称AGI)。从物理学的视角看,物理学是对宏观世界有了透彻理解后,从量子物理起步开启了对微观世界的理解。智能世界与物理世界一样,都是具有巨大复杂度的研究对象,AI大模型仍然是通过数据驱动等研究宏观世界的方法,提高机器的智能水平,对智能宏观世界理解并不够,直接到神经系统微观世界寻找答案是困难的。
三、人工智能的安全风险
首先是互联网虚假信息泛滥。一是数字分身。
二是伪造视频,尤其是伪造领导人视频引起国际争端,扰乱选举秩序,或引起突发舆情事件。
三是伪造新闻,主要通过虚假新闻自动生成牟取非法利益。
四是换脸变声,用于诈骗。五是生成不雅图片,特别是针对公众人物。
其次,AI大模型面临严重可信问题。这些问题包括:(1)“一本正经胡说八道”的事实性错误;(2)以西方价值观叙事,输出政治偏见和错误言论;(3)易被诱导,输出错误知识和有害内容;(4)数据安全问题加重,大模型成为重要敏感数据的诱捕器。
除了技术手段外,人工智能安全保障需要相关立法工作。我国应加快推进《人工智能法》出台,构建人工智能治理体系,确保人工智能的发展和应用遵循人类共同价值观,创造有利于人工智能开发的环境,建立合理流程、问责机等。
四、中国智能计算发展困境困境一为美国在AI核心能力上长期处于领先地位,中国处于跟踪模式。困境二为高端算力产品禁售,高端芯片工艺长期被卡。A100,H100,B200等高端智算芯片对华禁售。国内可满足规模量产的工艺节点落后国际先进水平2-3代,核心算力芯片的性能落后国际先进水平2-3代。困境三为国内智能计算生态孱弱,AI开发框架渗透率不足。一是研发人员不足。二是开发工具不足。三是资金投入不足。四是AI开发框架TensorFlow占据工业类市场。困境四为AI应用于行业时成本、门槛居高不下。最后,我国在AI领域的人才数量与实际需求相比也明显不足。
五、中国如何发展智能计算的道路选择总体来说,我国应发展用得起、安全可信的人工智能技术,消除我国信息贫困人口、并造福“一带一路”国家;低门槛地赋能各行各业,让我国的优势产业保持竞争力,让相对落后的产业能够大幅地缩小差距。选择一:统一技术体系走闭源封闭,还是开源开放的道路? 支撑智能计算产业的是一个相互紧耦合的技术体系,即由一系列技术标准和知识产权将材料、器件、工艺、芯片、整机、系统软件、应用软件等密切联系在一起的技术整体。我国发展智能计算技术体系存在三条道路:一是追赶兼容美国主导的A体系。这条道路较为现实。由于在算力方面美国对我国工艺和芯片带宽的限制,在算法方面国内生态林立很难形成统一,生态成熟度严重受限,在数据方面中文高质量数据匮乏,这些因素会使得追赶者与领先者的差距很难缩小,一些时候还会进一步拉大。
二是构建专用封闭的B体系。在军事、气象、司法等专用领域构建企业封闭生态,基于国产成熟工艺生产芯片,相对于底座大模型更加关注特定领域垂直类大模型,训练大模型更多采用领域专有高质量数据等。这条道路易于形成完整可控的技术体系与生态,我国一些大型骨干企业走的是这条道路,它的缺点是封闭,无法凝聚国内大多数力量,也很难实现全球化。
三是全球共建开源开放的C体系。用开源打破生态垄断,降低企业拥有核心技术的门槛,让每个企业都能低成本地做自己的芯片,形成智能芯片的汪洋大海,满足无处不在的智能需求。用开放形成统一的技术体系,我国企业与全球化力量联合起来共建基于国际标准的统一智能计算软件栈。
选择二:拼算法模型,还是拼新型基础设施?
人工智能技术要赋能各行各业,具有典型的长尾效应。我国80%的中小微企业,需要的是低门槛、低价格的智能服务。因此,我国智能计算产业必须建立在新的数据空间基础设施之上,其中关键是我国应率先实现智能要素即数据、算力、算法的全面基础设施化。这项工作可比肩二十世纪初美国信息高速公路计划(即信息基础设施建设)对互联网产业的历史作用。
信息社会最核心的生产力是网络空间(Cyberspace)。从数据空间看,人工智能的本质是数据的百炼成钢,大模型就是对互联网全量数据进行深度加工后的产物。智能计算的一个核心特征就是用数值计算、数据分析、人工智能等算法,在算力池中加工海量数据件,得到智能模型,再嵌入到信息世界、物理世界的各个过程中。我国政府已经前瞻性地提前布局了新型基础设施,在世界各国竞争中抢占了先机。首先,数据已成为国家战略信息资源。数据具有资源要素与价值加工两重属性,数据的资源要素属性包括生产、获取、传输、汇聚、流通、交易、权属、资产、安全等各个环节,我国应继续加大力度建设国家数据枢纽与数据流通基础设施。
其次,AI大模型就是数据空间的一类算法基础设施。以通用大模型为基座,构建大模型研发与应用的基础设施,支撑广大企业研发领域专用大模型,服务于机器人、无人驾驶、可穿戴设备、智能家居、智能安防等行业,覆盖长尾应用。最后,全国一体化算力网建设在推动算力的基础设施化上发挥了先导作用。算力基础设施的中国方案需要具备“两低一高”,即在供给侧,大幅度降低算力器件、算力设备、网络连接、数据获取、算法模型调用、电力消耗、运营维护、开发部署的总成本,让广大中小企业都消费得起高品质的算力服务,有积极性开发算力网应用;在消费侧,大幅度降低广大用户的算力使用门槛,面向大众的公共服务必须做到易获取、易使用。在服务效率侧,中国的算力服务要实现低熵高通量,其中高通量是指在实现高并发度服务的同时,端到端服务的响应时间可满足率高;低熵是指在高并发负载中出现资源无序竞争的情况下,保障系统通量不急剧下降。
选择三:AI+着重赋能虚拟经济,还是发力实体经济?
美国更倾向于回报率更高的虚拟经济,轻视投资成本高且经济回报率低的实体经济。中国倾向于实体经济与虚拟经济同步发展,更加重视发展装备制造、新能源汽车、光伏发电、锂电池、高铁、5G等实体经济。我国的优势在实体经济,制造业全球产业门类最齐全,体系最完整,特点是场景多、私有数据多。我国应精选若干行业加大投入,形成可低门槛全行业推广的范式,如选择装备制造业作为延续优势代表性行业,选择医药业作为快速缩短差距的代表性行业。赋能实体经济的技术难点是AI算法与物理机理的融合。人工智能技术成功的关键是能否让一个行业或一个产品的成本大幅下降,从而将用户数与产业规模扩大10倍,产生类似于蒸汽机对于纺织业,智能手机对于互联网业的变革效果。
页:
[1]