林咏华:AI迈入大模型时代,新十年如何潮涨不落?|163-1讲堂1
林咏华现场有关大模型的主旨演讲让听众对chatGPT等现象“知其然更知其所以然”
【导读】6月20日,163期文汇讲堂“数字强国”系列启动,首期《AIGC驱动生产力跃升与良好世界塑造》,在涌动着毕业季青春气息的华东师大樱桃河畔成功举办。北京智源人工智能研究院副总兼总工程师林咏华应邀作主讲,华东师大学者杨国荣致辞,计算机学院贺樑、哲学系郦全民、付长珍、潘斌、刘梁剑参与数字&人文圆桌对谈,13位听友现场互动。校内外7600余人观看华东师大微信号直播。现场发放了50枚NFT数字徽章.
(相关资料图)
本次讲座由文汇报社、上海树图区块链研究院、华东师大中国现代思想与文化研究所、华东师大哲学系伦理与智慧研究中心联合主办。
现经整理,刊发主旨演讲,以飨听友与读者。
落入低谷的AI,去年因chatGPT代表的大模型与文生图出现拐点,进入新十年
非常高兴借此机会和大家分享我过去多年在AI领域经历的机遇和挑战:从小模型走到大模型,从科研成果落地到产业。在过去几十年,人工智能起起落落。去年6月之前,整个人工智能处在前一波浪潮往下落的一个区间。去年下半年,出现了两个现象级的应用:一是文生图,二是以chatGPT为代表的大模型技术的涌现和爆发。这两个事件把整个AI从一个拐点引向下一个起点,而这个新的起点的确是由大模型引领未来人工智能发展的十年。
思考一:大模型带来AI研发范式的改变
为什么研发范式很重要?因为当科研界将一个技术做到突破和创新后,它们如何广泛地落地到各行各业,与其研发范式、研发产品的代价息息相关。
*第一阶段范式:从头开始训练领域模型
至今,AI研发范式经历了三个阶段的变化。
第一个阶段是从头开始训练领域模型。最初深度学习与人工智能出现时,大家考虑的都是如何利用手上海量的数据,通过诸多计算资源,把模型从头到尾训练出来,然后再将它部署到各行各业。因为需要大量数据、算力,尤其需要的整个AI全栈的技术人才特别昂贵。因此,这种范式无法持久。
第二阶段范式:预训练模型+微调训练的迁移学习
2014年,在几个AI顶级峰会上分别出现了描述预训练模型+微调的迁移学习技术的文章。利用拥有1000多万张图片、涵盖常见的2万种物品的图片库,训练出通用的视觉分类基础模型,其规模是中小量级的模型。此后,大家利用医疗影像分析、工业的缺陷检测等自己领域的数据对它进行训练。这一过程是从一个通用领域到另一个专用领域的迁移学习。从今天视角来看,相当于一个初中毕业生通过三年的专科培训,成为了一个具有专业技能的专员。
由此,研发范式进入第二个阶段——由预训练的基础模型加上小批量的数据和少量的算力的微调训练,就可以形成企业要落地到不同场景的不同模型。这种范式中,行业企业只需要做数据收集和处理、模型训练、模型服务等部分工作,从人力、物力、财力上来看,投入量减少了几倍、甚至十倍。
计算机视觉领域的迁移学习,带动了过去十年的AI潮起潮落。这整个过程今天看起来可以称为小模型的阶段。
从2013到2015年,人工智能因为迁移学习的出现,让基于深度学习的计算机视觉分析在多个领域落地变得似乎更加容易,深受追捧。另一个现象级事件是,在2015年的ILSVRC(ImageNet Large Scale Visual Recognition Challenge)图像分类比赛中,ResNet网络的图像辨别错误率低至3.57%,已经超越了人的识别能力(大约5%)。正因为这两个标志性事件,人工智能被认为有望大范围成功。商汤、云从、依图、格灵深瞳等在内的众多AI公司也是在那个时候纷纷创立,受到投资界的普遍追捧。
但从2017年之后,人工智能从高潮慢慢缓落。
2017年,每年全球有4000多个企业因为拿到融资而成立AI公司。但到2020年,这个数字一直往下落至600-700家,以至于在过去一两年甚至出现了AI泡沫破灭的众多说法。
为什么跟大家分享这些?眼看AI又一个新的十年潮起涌现,作为从业者需要深入思考:为何前一个十年出现万众期待,最后并未如想象在各行各业广泛落地?而在未来十年,该做对什么,使得新一轮技术潮起后能得到更好的发展,而非很快就潮落了。
第三个阶段范式:基础大模型+应用提示
第三阶段研究范式,塑造了通才型大模型,降低下游企业应用成本
在当下的第三阶段研发范式中,基础大模型很重要的是基座,一是需要用海量的预训练数据去训练它,通常是千亿级以上的数据。二是参数量很大,几十亿参数是入门,很多时候会达到百亿级参数,甚至千亿级参数。三是所需要的算力更大。这种基础大模型帮助我们学习各种通用的知识,包括实现各种模型的能力,如理解能力、生成能力,甚至涌现能力。现在在业界能看到的属于这种基座大模型的有哪些?例如GPT-4、GPT-3.5、LLaMA、智源新研发出来的天鹰·Aquila等。基础大模型最重要的功能的就是提示学习能力。它跟人很像,可以做到有样学样。
在第三个研发范式阶段,对很多下游行业企业来说,甚至不需要走第二阶段的微调训练模型,而是直接减少到只要做API调用就可以,有更大幅度成本的降低,尤其可以适用到各个应用领域。chatGPT出来之后,大家用各种人类领域的专业考题去测试它,包括法律、医学、政治,以及美国的AP课程,它都考得很好,就像通才一样。这听起来真的很美好。
思考二:大模型如何产业落地?
大模型如何产业落地?这一步走好才能让上亿甚至数十亿、数百亿在大模型上的研发投入,能够真正带领所有行业的智能化提升。
*基础模型预训练+基础模型持续训练+指令微调
大模型的应用方式有两种:一种是提示学习,另一种是指令微调训练。
大模型是“记不住”提示学习的过程的,如果仅靠提示学习中的“提示”,势必每一次的API调用都得带上冗长、而且越来越长的提示,这在实际产品中很难满足。因此在产品真正落地时,必须要引入指令微调。指令微调就是利用基础模型的知识完成指定的任务。就像本科生学了大量知识后,需要一个上岗培训。指令微调也不是很昂贵,例如我们曾经做过一个针对某应用的自然语言转SQL的场景,在提示学习不起作用时,指令微调数据只放了20条,包括所有环境的搭建在内总共花费8小时。
其实,今天看到的chatGPT不是一个基础模型,它是一个经过很多指令对它进行微调的对话模型,所以它似乎做什么都很在行。其实正因为它收集了全球人类的诸多指令,不断地微调它。例如智源的天鹰AquilaChat对话模型,也是在Aquila基础模型之上经过指令微调才可回答人类的各种问题。比如6月8日正好是全国高考,它在10秒内就完成了当天的高考作文。
但在这个过程中,其实它还只具备通用的能力,即主要是面对互联网的应用,如闲聊、问答。如果希望大模型能够真正服务于更多的经济体系、实体经济,就需要考虑如何把大模型落地到专业行业里。很重要的一点是要在通用能力的基础模型之上,通过加入大量专业领域知识进行持续训练,形成专业领域的基础模型。就如同本科生做了通识教育之后,再给他进行一至三年的研究生深造学习。
所以,综合来看,基础模型训练相当于通用领域的本科生学习,基础模型在专业知识数据的持续训练相当于专业领域的研究生深造学习,之后再进行指令微调训练,相当于专业领域的上岗培训。
落地到具体产业领域,基础大模型还需要走出专业持续训练和上岗培训两个步骤
*大模型在产业落地中如何克服遗忘性和幻觉率
模型毕竟是通过上亿篇文章或者网页对它进行训练,其实它跟人一样,也会忘记东西。科研统计后的结论是:第一,模型越大记忆力越好,记住的百分比越多。无论模型大小,如果只让模型看过2-3遍的数据,它能记住的只有百分之几的数据量。
这就产生了一对矛盾。首先从版权保护的角度看,或许不希望它记得太牢。大模型的训练不得不从互联网平台上获取到很多的文章、作品,用以训练。至今为止还未有一个明确的界定,如果它因为读了这些文章,而产生大篇幅与之相同的内容,是否会导致版权问题?这是有待解决的问题。
从这个角度看,如果模型的记忆力只有百分之几,版权问题就不会那么严重。但是当真正产业落地时,这又会成为较大的问题,即模型训练了半天却记不住。
“幻觉率”就是我们常说的一本正经的胡说八道。成因是什么?第一,预训练的数据集可能会包含某一些错误的信息,很多来自二十年前、三十年前,会昨是今非。第二,更多可能是模型的数据预训练的上亿、几亿的数据里没有直接包含相关信息。这会导致我们面对严肃的行业,如医疗、金融、法律等,必须考虑用什么额外的技术来降低幻觉率。
*大模型和小模型在未来十年必会并存
我个人认为,未来十年大模型和小模型必定会共存。大模型和小模型之间的重要差异有三个:
第一,在小模型时代,我们对目标领域的知识是通过迁移学习、微调训练获得的,本身的基础模型并没有任何的目标领域知识。但在大模型时代,基础模型本身需要具备充足的专业领域知识,而指令微调训练只不过是让它告诉这个模型如何去运用知识而已。
第二,与应用领域密切相关,对于精度要求较高的领域,尤其是感知性的领域,需要给出很精准的结果,例如,在医疗中某个影像说明肿瘤在第几级病变的情况。这需要单个模型的准确率非常高。此时它不需要学会琴棋书画等大模型的泛化能力和通用能力,这种场景适合小模型。
第三,算力、基础设施与模型选择相关,对成本要求、时延要求低的重要场合,例如自动驾驶、工业毫秒级的控制,在通讯和时延的环境下还是适合小模型,因为它更容易放在算力较低的边缘侧。大模型则是相反的情况。这两个技术是相互融合的。
*小模型的赛道企业如何融入到大模型时代?
Meta公司今年3月发布的SAMG分割大模型受到追捧 来自网络
很多人提出,对过去十年发展起来的小模型的AI公司、科研团队,在大模型时代是否都需要迁往大模型?应该如何利用它们已有的积累做得更好?
第一,可以把原有在小模型时代的算法进行更新换代,把大模型新的技术融入到小模型。举个例子, Transformer模型结构被大模型时代认为是重要的技术标志,因为在小模型中,尤其是在计算机视觉经常用的是深度学习里的CNN网络。我们做过一个实验,用Transformer为基础的VIT计算机视觉模型,来替代小模型时代的CNN网络,发现在达到差不多准确率的情况下,大模型在预训练阶段可节省1/4的显存,推理速度只需要ResNet50的58%时延,实验时所需要的资源更少。这的确打破了大模型技术必须是资源消耗高的定律。
第二,应用新的方法做到以前很难解决的问题。比如Meta公司在今年3月发布的视觉分割大模型SAM,能做到视觉范围内各种物体被精准地分割出来。这种技术可以用于清点超市、仓库等的货物数量。这在之前一直很难做到,或者需要多个复杂技术叠加。我知道已经有一些小模型公司将SAM大模型落地。
第三,大模型中的小模型,例如我们新发布的AquilaChat天鹰对话模型,仅70亿参数,通过int4量化技术,就可在4G的显存上运行起来。而当前国产边缘侧的芯片都已经有8G显存。所以,大模型浪潮下,很多AI小模型赛道的公司,完全可以焕发一种更新的活力。
思考三:打造基础大模型的重要性
林咏华演讲中援引智源研究院打造大模型的例子,生动形象
大模型中最重要的是下面的基座模型。打造基座大模型就等同于AI中的CPU一样的重要。
*投入非常昂贵,百亿参数动辄上千万元以上
第一,除了做芯片、CPU的流片以外,基础模型已经成为AI大模型时代单一产品投入最大的部分。通过业界、包括我们研发大模型的一些数字可见一斑:300亿参数的模型,包括数据、训练、评测的成本、所有的人力、物力、算力加起来,要耗资2000万;而上千亿参数的模型,则约在4000多万、甚至更高。所以动辄就是几千万训出一个模型,投入十分高昂。
第二,基础大模型决定了下游各种模型的重要能力。大家会发现不同的聊天机器人,有些只会说英文,有些会编程,有些不会编程,有些懂得更多的科学知识,有的还能够看懂图片。其实这些能力是由下面的基础模型所决定,只有预训练中把这些能力加入,对话模型中才能体现。
基础模型很大程度上决定了后续模型的能力、产业落地等因素。从能力来看,大模型的理解能力、涌现能力、上下文学习能力都是由这个基础模型的结构、尺寸等等决定。从知识来看,无论是通用知识还是专业知识都是在基础模型训练过程中学习到的。
*价值观的保证首先需要干净的语料库
第三,从合规性和安全性来看,对于内容生成的模型,其生成的内容是否积极阳光,有无偏见、伦理问题等,很大程度是由基础模型决定。基础模型如何能够获得人类的价值观呢?通过训练语料。国内外一些科研机构、公司训练基础模型,通常应用到Common craw语料库,这是互联网训练语料全球最大的集合。但其中只有很少的是中文数据,在所有中文数据中,又只有17%的网源、网站、网址来自于国内。绝大多数中文语料的来源都是来源于其他的国家和地区。国内很好的中文内容并没有出现在里面。我们观察到,基于这样的数据集来训练有中文能力的基础模型,有很大的风险。
*可商用许可的基础模型才能造福更多企业
第四,从版权和商用许可来看,不少模型要不闭源、要不开源用的是非商用许可,这对学术研究没有任何影响,但对企业要后续进行商用和业务,是不能使用的。我们为何一直倡导开源,甚至在开源的时候就给予用户可商用许可?智源希望把这些耗费众多资源训练得到的模型开源出来,被更多的企业所使用。据统计,今年1月至5月,新发布的国外开源语言大模型共有39个,其中可以直接商用的是16个,而是国内开源语言大模型只有11个,且仅有1个对话模型是直接有可商用许可。
从另一个角度来看,基础模型对整个产业的发展价值更大。有很多国内团队纷纷开源大模型,这里有多少是真正的基础模型?经统计,截止至5月底,国外发布的开源语言大模型里只有5个是基础模型,而国内发布的开源语言大模型里只有2个是基础模型,是复旦的MOSS和清华的CPM—Bee。
*智源的开发原则:中英双语能力+模型开源
作为非盈利科研机构的智源,我们倡导更多的力量投入:第一,支持中英双语的基座模型。中英双语支持,而非依靠翻译。中文里有很多的知识是需要直接被训练到模型,依靠翻译无法将许多中文知识纳入其中。第二,希望可以支持商用许可协议,这才能够避免众多企业重复资源建造基座模型。第三,符合国内数据合规需要,尤其是纳入优秀、高质量的中文内容。正因为看到目前基座模型的预训练中有许多不干净的语料,所以我们打造基础模型时十分谨慎。中文语料均来自智源从2019年积累至今的数据,99%以上是来自咱们国内的站源。国内站源具有的优点是都有ICP许可,所以也规范了网络内容的可靠性和可信度。
代码模型是大模型产业落地的一种很重要的模型,具有广阔应用前景。基于Aquila-7B强大的基础模型能力,我们用更少的代码训练数据,小参数量,高效实现了目前性能最好的中英双语代码模型。我们分别在英伟达和国产芯片上完成了代码模型的训练,通过支持不同芯片架构的代码+模型的开源,推动芯片创新和百花齐放。从给的例子大家可以看到,代码模型可以让我们输入一句简单的描述,就可以自动完成一个简单的登录页面,实现正弦三角函数的画图等。智源内部还在挖掘、利用这些代码模型完成更多的任务,例如辅助新的编译器的实现等,这有可能会改变计算机领域更深层次的研发。
思考四:大模型时代,评测变得无比重要
讲座开场,杨国荣教授致辞,认为技术发展是人性化社会必经阶段
大模型训练要紧抓两头:一头是数据,一头是评测。
为什么评测很重要?一个300亿参数的模型,每天对它投入的算力是10万元,十分昂贵。另一方面,正因为它大,在整个过程中更需要关注所有的细节,一旦出现问题,要及时发现并及时做出调整。
*尚未完全解决测评能力的主观性和客观性
此外,大模型的能力很复杂,很难用单一指标表明这个模型在未来使用的各种能力,所以要使用各种评测方法和评测集对它进行评测。在大模型训练稳定之后,就要开始指令微调训练,再进行循环迭代,不断的调整。如果在过程中只用计算机客观评测,很难准确及系统性地看到主观的生成能力,因此还必须加入主观评测。而主观评测至今还只能由人类进行。我们也尝试用chatGPT配合人类进行评测,但在很多的测试案例上仍然偏差很大。
最后优选的模型还要进入red—team评测,也就是找一组未参与模型研发的人员扮演用户群,对这个模型进行各种提问,包括各种恶意、刁钻的提问,来评估这个模型的效果。OpenAI在chatGPT发布之前,也是持续数月进行类似的评测,才能保证有当前的效果。
智源为了让语言大模型能有更全面、系统的评测,打造了FlagEval天秤大模型评测系统,包括了中、英双语的客观、主观22个评测集合,8万多个评测项。基于目前最新的评测,AquilaChat以大约相当于其他模型50%的训练数据量达到了最优性能。但由于当前的英文数据仅训练了相当于Alpaca的40%,所以在英文的客观评测上还暂时落后于基于LLaMA进行指令微调的Alpaca。随着后续训练的进行,相信很快可以超越。
*跨模态的图文辨别评测,拉动基础模型发展
评测对大模型在研发阶段起到了相当重要的作用,同时也是拉动大模型发展的关键。以跨模态图文评测为例,对于简单的图文评测任务,好的模型基本已经达到或超过人类的水平,在70分到90分之间。但对于稍微复杂的图文评测任务,大模型只有10-11分。跨模态图文的辨别、尤其是带有逻辑理解要求的,是大模型与人类能力之间存有得巨大鸿沟。所以评测是拉动大模型发展的关键,希望通过加入更复杂的评测项,来拉动大模型向人类所需要的更复杂的场景发展。
*评测已经演进到认知能力和人类思维能力
当下的评测已经跨入到第三第四台阶,即认知能力和人类思维能力
大模型从去年进入所有人的视野,其能力发展迅速。同时评测的难度也一路攀高,相当于不断地拉长尺子,才能更好的量度大模型的能力。基础模型研发动辄是几千万,所以对更多的创业公司、AI公司,或者是下游的企业不再是自己从0到1把整个模型训练出来,更多的是从市面上选择开源或者闭源的大模型进行加工。这个选择的过程应该怎么进行?这是大模型时代评测对产业落地很重要的因素。
随着大模型能力的提升,对评测产生了四个台阶的演进:
第一,理解能力。过去十年、二十年,AI一直是以理解能力评测为主,无论是计算机视觉还是自然语言处理。
第二,生成能力。现在已经出现了AI生成内容,这不得不依靠人类的主观进行评测。主观评测的质量很难完全保障一致和客观,现在我们也逐步引入一些AI的辅助手段去做。
第三,认知能力。当前人们考量各种大模型,已经不认为它们只是一个能说会写的语言模型,而是希望看到各种各样的知识能力、认知能力。因此,对评测来说,更大的挑战是如何刻画一个全人类的认知能力。另外,现在很多人用各类考题考验这些模型,但这些考题很多都已经被泄露到模型的训练语料,所以这种认知能力的评测也有失偏颇。
第四,人类思维能力。更困难的是,很多人希望这个模型更加像一个人类的思维一样去理解、去思辨。所以对于模型的心智能力应该怎样评判、评价,就需要多学科的交叉。
思考五:大模型时代,智源的使命、工匠精神与好奇心
好奇心与工匠精神是完成使命的两翼
智源研究院是非盈利的研发机构,有近200个全职研究人员。在大模型时代,我们看到各种各样的现实问题、技术的问题,亟需去突破。无论文生图还是chatGPT的应用,都离不开冰山下整个大模型全技术栈的积累,而这正是智源一直致力于打造的部分——所有的基础模型,包括数据集、数据工具、评测工具,甚至包括AI系统、多种的跨芯片技术的支撑。这是我们的使命,既要打造冰山以下的大模型技术栈,同时以可商用的形式全部开源出来,使得无论是代码还是模型,都能够回馈给整个产业和学术界。也希望有更多的学术界、更多的科研团队与我们同行,对开源进行贡献,尤其至关重要的是AI领域内外的学科的共同创新。
大模型时代需要科学与工程并行,一方面需要以工匠的精神锻造每一个大模型,每一步都要精雕细琢,无论是数据、训练过程还是评测。另一方面,大模型里有太多的未知,需要以追星逐月的好奇心去探究,只有我们探究得更好,才能让它在产业落地得更稳,未来的十年才能是潮起后不断地稳步向前发展。
作者:林咏华(北京智源人工智能研究院副院长兼总工程师)
图照:现场拍摄/周文强 制作/胡杨 PPT来自演讲者授权
编辑:李念
责任编辑:李念
*文汇独家稿件,转载请注明出处。
关键词:
相关阅读
-
林咏华:AI迈入大模型时代,新十年如何...
林咏华现场有关大模型的主旨演讲让听众对chatGPT等现象“知其然更知其 -
环球时讯:沈阳铁西:社区书记亮基层治...
为贯彻落实全面振兴新突破三年行动和“振兴新突破、我要当先锋”专... -
阿门-汤普森:享受被拿来和詹姆斯比较 ...
今天,热门新秀阿门-汤普森接受了记者的采访。他表示自己很享受被拿来 -
天天要闻:宁夏交通运输执法全力护航端...
(李海龙)端午已至,为保障节日期间宁夏道路安全畅通平稳运行,宁夏交 -
青海实施2023年职业技能提升行动 全球动态
6月21日,记者从青海省人力资源和社会保障厅获悉,今年以来,该厅聚焦 -
宝马320和帕萨特哪个动力更出众? 世界...
宝马320和帕萨特哪个动力好在汽车市场上,宝马320和帕萨特是两款备受消 -
小升初面试技巧和注意事项有哪些 小升...
1、小升初面试技巧一、面试:不要在面试时说你什么都不会(当然也不能说 -
环球快消息!winload.efi下载_winload
1、解决系统提示winload exe丢失或损坏怎么办的步骤如下:1 设置好BIOS -
民治街道节前开展“日租、时租”房屋专...
端午小长假来临前,民治街道开展“日租、时租”房屋专项排查整治行... -
胡萝卜南瓜小米粥的功效与作用_南瓜小米...
1、南瓜小米粥的营养南瓜小米粥富含多重维生素和微量元素,而且适合消 -
阿联酋重资蔚来,“遍地石油”的中东也...
尽管中东在这条赛道上投入了大量的金钱,但它并没有在当前的竞争中占 -
广州哪个动物园好玩又便宜_广州哪个动物...
1、广州有广州动物园和广州香江野生动物世界。2、广州动物园:3、位于 -
生驹亲正_关于生驹亲正介绍
生驹亲正,关于生驹亲正介绍这个很多人还不知道,我们一起来看看!1、生 -
闭杯闪点>60℃_什么是闭杯闪点
1、闭杯闪点:在规定的条件下,加热试样,当试样达到某温度时,试样的 -
全球热门:生长速率_关于生长速率介绍
生长速率,关于生长速率介绍这个很多人还不知道,我们一起来看看!1、晶 -
【环球新视野】针对中国,一场“疯狂骗...
参考消息网6月21日报道澳大利亚“珍珠与刺激”网站6月14日发表题为... -
生长素极性运输_关于生长素极性运输介绍
生长素极性运输,关于生长素极性运输介绍这个很多人还不知道,我们一起 -
旅游景区管理制度_景区管理制度
1、去百度文库,查看完整内容>内容来自用户:严冠军景区环境保护管理制 -
广州孩子玩的地方有哪些_广州可以逛街购...
1、天河路商圈:太古汇、田桓、天河城、万菱汇、贾政广场、维多利广场 -
每日热议!省户协联手天人山水举办龙舟体...
为弘扬龙舟文化,挖掘传统节日端午节文化内涵,6月22日,广东省户外运