太平洋科技要闻

中国大模型推行“第一人”黄铁军：开源开放是趋势，封闭得不到发展

腾讯科技整合编辑：陈超扬发布于：2023-06-19 15:41

在前段时间2023北京智源大会上，北京智源人工智能研究院院长，北京大学多媒体信息处理全国重点实验室主任黄铁军发布《智源进展报告》，他认为，我们正处于从GAI（General Artficaial Intelligence）往AGI(Artificial General Intelligence)的历史时期，实现AGI需要三条技术路线并进，当下大模型时代运用的是第一条技术路线，即大数据、自监督学习和大算力的合力。此外，黄铁军在大会上公布智源正式推出全面开源的“悟道3.0”模型，并报告了大语言模型的评测体系“天秤”的进展。

以下为黄铁军现场演讲精华实录：

尊敬的吴部长，于市长，各位专家、各位领导，各位代表：

一年来，在大家的支持下，智源研究院又取得了新的成果，今天跟大家汇报一年一度的《智源进展报告》。

我们先从最热门的词开始汇报，“通用人工智能”有两个解释，一个叫GAI（General Artficaial Intelligence），一个叫AGI(Artificial General Intelligence)，我想大多数媒体理解的应该是第一个GAI，但现在确实进入了AGI时代。其实人工智能领域谈了20多年的是AGI，我们正在向AGI这样一个终极目标前进，目前正处于GAI往AGI迈进的历史时期。

在过去几年的智源大会，我们每年都讲实现AGI有三条技术路线：

第一条技术路线，是由大数据+今天大家都在用的自监督学习+大算力，形成的信息类模型；
第二条技术路线，是基于虚拟世界或者真实的世界，通过强化学习训练出来的具身模型；
第三条技术路线，是直接超自然进化的作业，类似用人脑复制数字的智能体出来的类脑人工智能。

这三条路线在全世界范围内都在进行，所有目的都是为了实现AGI。

其中第一条技术路线是今天最热门的机构OpenAI做的GPT，第二条是谷歌DeepMind以DQN深度学习为核心取得的一系列进展。

不同于Open AI和谷歌，作为在通用人工智能方向一直努力的机构，从理想角度来说，智源研究院从“第一性原理”出发，真正构造从原子到有机分子、神经系统和身体的完整的智能系统AGI，不过大概还需要20年才可能实现这一目标。

作为新型研发机构平台，我们在这三个技术路线方向都在开展工作，也是今天要给大家汇报的重点：第一个是大模型方向，第二个是具身方向，还有刚才说的类脑人工智能特色方向的进展。

大模型时代大概始于2018年，也就是智源研究院成立那一年，大模型成为全世界公认的方向。在这个方向上，我们汇聚了AI领域的顶尖学者，我们称之为“智源学者”，率先组建大模型的研究团队，共同开启大模型探索，成为今天大模型研究的主力，预见了“大模型时代”的到来。

“大模型”这个名词，就是2021年智源研究院发布“悟道1.0”时正式提出来的，然后才开始进入大家视野。在大模型领域，我们率先发布了“悟道”大模型；率先启动大模型测评旗舰项目，服务大模型的行业发展；率先倡导大模型开源开放，发布了FlagOpen大模型开源系统；率先构建大模型的生态，包括今天的智源大会和拥有10多万用户的智源社区，都是大模型技术研讨的高地。

其中2021年6月份发布的“悟道2.0”大模型是我们国家第一个，也是全球最大的大模型，它拥有1.75万亿参数，在国际范围得到广泛反响。

现在大模型已经成为全社会关注的热点，我们认为大模型至少有三个特点：

第一个，规模要大，神经网络参数要达到百亿规模以上。
第二个，要有涌现性，这是人工智能发展六七十年来，最具里程碑的一个新的特性，“涌现性”产生了预料之外的新能力，如果一个模型只能从原有的数据、原有的算法推导出来结果，那不叫“涌现”，“涌现”一定能出现全新的功能。
第三个，通用性，大模型不限于专门问题或者专门领域，它具有通用性，能够解决各类问题。当然，受限于模型目前的阶段，也不是所有问题都能用大模型解决，但是它有很强的推广性。

“悟道3.0”模型发布：上线首个中英文双语大模型“悟道·天鹰Aquila语言大模型”

今天我特别高兴地宣布，智源正式推出全面开源的“悟道3.0”模型。

第一个是视觉系列大模型。今年以来，智源连续发了6个视觉大模型，第一个是十亿参数的视觉基础模型EVA，它最重要的特点是通用性，这个模型通过语义学习和几何结构学习相结合，解决了视觉模型的通用性问题。在ImageNet分类、coco检测分割、视频分类等广泛视觉任务中取得了最强的性能，这些任务在当初都要一个个专门的模型去做，我们靠一个通用模型实现了所有专有模型的功能，而且性能比它们还要强。

我们在此基础上又训练EVA-CLIP多模型预训练模型，它是零样本学习的基础模型。在今年年初发布5 Billion版本，创造零样本学习的性能新高度，超越了此前最强的OpenClip模型，在ImageNet的OneK零样本达到了TOP1，达到82%的准确率。去年发布的EVA-CLIP One Billion版本今年才被Meta发布的第二版模型追平。

语言模型可以问答，视觉模型怎么提问？我们提出了“图像理解图像，图像解释图像，图像生成图像”的理念，把自然语言学习上下文的思想引入视觉模型。提出通用视觉模型Painter，它以视觉作为建模核心思想，将图像作为输入输出模态，从而获得上下文的视觉信息，完成各种视觉任务。

今年4月，智源推出首个利用视觉提示完成任意分割任务的通用模型SegGPT，“一通百通”。SegGPT是我们大模型进入通用视觉的里程碑，这个模型和Meta发布的SAM在同一天发布，都是通用视觉的里程碑。SAM模型最大的特点是一触即通，简单触碰点击就能把完整的物体分割出来，完美解决了图像分割问题，但是它只在一个物体上。SegGPT是“一通百通”，它可以分割任意物体，包括物体的任意零件，甚至物体的不同表面，只要是相对具有物理意义的结构，它都可以分割出来。

举例子来看，SegGPT可以做视频，选中第一帧视频，视频上的运动物体可以不用人的操作就被自动分割出来。它强大的通用能力、灵活的推理能力和自动视觉的分割能力，几乎可以说已经达到了通用模型的里程碑。这样的技术和模型，在自动驾驶领域、机器人领域、实体智能领域一定会发挥基础性的作用。

这个模型发布之后，很多用户关注它能不能做零样本的视频编辑，这也是传统图像视频领域很重要的应用。我们已经实现了零样本的简单提示，虽然提示还是需要的，但不需要你提供样本去训练它，这个模型就可以完成原来的各种视频编辑任务。

在这个基础上，我们进一步扩展了一个新的模型，一个接受多模态的输入、产生多模态输出的多模态大模型。这个模型能够在多模态的序列中补全一切，而且能生成多模态的预测。

我请大家看几个例子，左上角的第一张图，你不用给它解释图中有太阳、有水、有船，它上来就告诉你这是莫奈的《日出印象》，它给了很多认知意义上的解释。

左边的第二个例子能够完成少样本的图文理解，给两个图文作例子，模型能自动完成任务。比如说大熊猫是中国的国宝，中国人都很喜欢。你再给皮卡丘，它就会说皮卡丘是日本的一个明星动画，日本人都很喜欢这个角色。这个模型能够根据图片或视频进行问答和多轮对话。

右图展示的是生成能力，根据任意文字可以生成图像。

中间是图图生成。图图生成是什么意思呢？你给它一对图像，它开始推理。比如说左边给一个小狗的图像，还有另外一幅老虎的图像，它就猜你可能要一个狗形状的老虎，所以就产生了狗头老虎的图像，叫虎头的一个头像。

右下角在上下文中生成，根据文本提示形成融合上下文信息的新的图片。这个图片是理解了两种模态之后产生的图片，以及相应的描述。还有更多的能力，我们在挖掘，希望有更多的合作来挖掘多模态模型蕴含的无穷无尽的潜力。

总的来说，把类似于语言上下文的一种学习能力引进图像之后，能够激发出来有更丰富更让大家兴奋的新的通用智能。

语言模型是大模型中竞争的热点，悟道3.0今天正式发布语言大模型“悟道·天鹰”，对大模型进行评测的一个体系，叫“天秤”Flag Eval。

悟道·天鹰Aquila语言大模型是第一个中英文双语大模型，它是支持商用、符合数据合规要求的数据大模型，所以大家可以放心去用，还可以放心商业化，因为智源是一个非营利机构，我们就是为公用发展提供技术的。悟道·天鹰Aquila语言大模型，是在中英高质量合规的语料数据库基础上从零开始训练的模型，它通过数据质量的控制和多种训练的优化，实现了在更小的数据集、更短的训练时间内获得比其它开源模型更优的性能。这是一个系列模型，这次发布的7B和33B，就是70亿参数和330亿参数的基础模型，和AquilaChat对话模型，也是这两个参数模型，以及AquilaCode文本代码生成模型。

Aquila基础模型（7B、33B）在技术上继承了 GPT-3、LLaMA 等的架构设计优点，替换了一批更高效的底层算子实现、重新设计实现了中英双语的 tokenizer，升级了 BMTrain 并行训练方法，在Aquila的训练过程中实现了比 Magtron+DeepSpeed ZeRO-2 将近８倍的训练效率，所以我们有信心后续给大家提供更大规模、更适合产品化的模型。

这个模型已经具备了很强的对话能力。看最左边的例子，如果你问它能不能带着炸药上飞机，它马上判断你这是违法的行为，违反了什么规定。中间这个例子是语言模型，它可以通过对话的方式理解用户意图，调用图像生成模型来生成一幅图片，比如说“帮我生成一个唐装的图片，帮我生成一个机器人的图片”。如果你对它的生成结果不满意，没关系，你直接告诉它就行了。

比如在这个例子里面，我们可以先生成一张人脸的图片，你对它说眼睛不好看请换成蓝色的，它给你换成蓝色的。说肤色不够白，它就给你变白。你有什么需求可以直接告诉它，模型就帮你完成设计任务了。在技术上，我们在训练过程中实现了模型能力和指令微调的升级迭代，包括对数据集的筛选和优化，充分挖掘基础模型的潜。AquilaChat支持可扩展的特殊指令规范，可它以根据你的需要再增加设计任务，你可以把它定义出来，然后模型就按照你的工作要求自动完成任务。

刚才我演示的图像生成和图像的调整修改功能，用的是我们去年发布的Aitdifus的8种语言，今年升级为18种语言，它是全球支持语言种类最多的图像生成模型，也已经成为了国际上最热门的图文生成模型，因为支持的语言多，很多国家都可以用这个语言模型来生成他们喜欢的图像。

AquilaCode-7B代码模型，是基于Aquila-7B基础模式的代码模型，它也是7B（70亿参数），用小数据集、小参数量实现了高性能，支持中英双语，也是性能最好的开源代码模型。这里使用的数据代码经过了高质量的合规处理，它使用合规的开源许可代码进行训练，所以大家可以放心地将它用于软件开发。AquilaCode-7B分别在英伟达和国产的芯片上完成了模型的训练，通过对多种架构的代码和模型的开源，无论是什么样的软硬件组合，代码模型都可以部署。

推出大语言模型评测体系“天秤”：建立评测基准方法工具集

下面给大家报告一下大模型评测的工作。大家都知道，今年全世界发布了很多模型，很多人都需要了解这些模型到底哪些方面好、哪些方面不足。我们在科技部大模型旗舰项目的支持下，今年1月1日正式启动评测工作，第一件重要的任务就是推出大语言模型的评测体系“天秤”。推出这样的大模型体系的目标就是建立科学、公正、开放的评测基准方法工具集，协助研究人员全方位评估基础模型以及训练项目的性能，同时我们也在探索利用AI方法实现主观评测。我们的客观评测、主观评测同时在进行，希望大幅提升评测的效率和客观性。

目前天秤大语言模型评测体系，在能力、任务、指标三个维度上建立了全方位的评测体系，包括30多种能力，加上5种任务，再乘以4大类的指标，总共差不多600维的评测体系，比较全面地衡量一个大模型的能力，评测体系是用自动化方式进行的，当然，如果一个模型开源，可以把模型拿来直接在实验室评测，如果有模型能开发API我们就直接调用评测，评测速度很快，第二天就出全面的评测报告。如果研发团队希望对自己的模型进行评估，也可以采用这个体系来自行评估。有的时候大家在研发有的指标好，有的指标不那么好，这没有关系，通过测评来不断提升和发展。

目前，天秤开源大模型评测体系已经面向公众开放注册申请。在硬件方面支持英伟达、华为的昇腾、寒武纪、昆仑芯等多种芯片架构，以及PyTorch等多种深度学习框架。此外，“天秤”在GitHub的项目中，也分享了以语言模型为主的评测，也增加了多模态文图生成工具。

今年年初，同样是在科技部大模型的旗舰项目支持下，我们正式发布了FlagOpen大模型技术开源体系，我们做的是开源模型，这个模型没有任何保留地对全社会开放。大模型的旗舰项目目前在国家项目的支持下开展研究，涉及8个团队，他们的优秀算法后续也会通过评测集成的方式变成一个体系。大家可以共建共享大模型技术体系，它不是任何一家机构、一家公司垄断的技术。

目前FlagOpen在算法方面已经把所有的开源模型以及国内外的模型背后的算法集成进来了，支持并性加速技术FSDP，集成了高效推理技术LaRA和BMInf，在这样的开源体系下，即便是一个从零开始做大模型的机构，也可以用这样一套体系开展自己的技术研发活动。

其中的FlagPerf是关于硬件评测的，我们过去一年在这方面做了很多工作，可以实现精确对硬件性能评测，目的是为了促进芯片、硬件的发展。根据我们掌握的情况，我们的芯片发展很快，所以我们也对基础软件体系更好地支撑AI的发展抱有充分的信心。

“天秤”大模的评测平台开源了多模态工具，在FlagData数据处理方面发布一系列数据分析的、清洗的、微调的工具，如果你做数据加工清洗的话也可以使用这样的工具开发自己的数据清洗系统。

智能时代的软硬体生态：一个开源开放的时代

还有一个是大家关心的大模型生态，在生态中最重要的是物理基础，这仍然要回到软硬件。在AI时代，软硬件应该是什么样的形态呢？我们经历过两个时代，一个是PC互联网时代，在那个时代最初是Wintel（Windows+Intel）这样的体系在主导生态，后来出现了Linux，现在Linux操作系统已经成为操作系统主要的一个平台。在移动互联网时代出现了两个生态，一个是iOS封闭生态，另外一个是安卓+ARM的生态，安卓是开源的，但是也受到一定的管控，不像Linux那么开放。在CPU方面，RISC5出现了，而且在CPU领域正在发挥主导作用。

在智能时代，基础软硬体应该是什么样的？全世界主要的观点认为，它一定是个开源开放的时代。尽管今天大模型在很多系统方面已经表现得很好，但是如果让千家万户用、让千千万万企业用的话，一个封闭的生态不会长远发展下去。一个开源的生态，就需要在软件上开源、在硬件上开放，大家既要竞争又要合作，它是一个千千万万企业共同竞争、共同合作营造出来的开源开放的生态体系。

在这方面，我们国家已经做了很多努力，我们初步统计了今年以来语言大模型开源的项目，全世界范围内开源的共有42项，我们国家放出来的有38项，其中9项是开源的，相比之下，我们的开源开放力度还是远远不够的，我们应该进一步加强开源开放。开源开放也是竞争，你真有水平、真有好算法，拿出来，大家去评测、去比，才能证明技术水平，而不是仅靠结果来说是不是优秀。

在语言数据方面，我们也做了一个工作，是目前大家亟须的大规模的可商用的中文开源的指令数据集，相信很多做大模型的机构或者企业都在做同样的事情。COIG目前是全世界范围内规模最大的中文开源指令集，第一期有171K的开源可商用的中文指令数据，已经开放了，大家已经在用了。我们还在开发第二期，争取成为规模最大的且持续更新的中文的多任务指令数据集。

除了大模型，我刚才还讲到另外两条技术路线，尽管我们花了80%的人力物力资源做大模型，但另外两条路线也不能不做，它们是通往AGI的另外两条路径。

第一个是在具身多模态交互模型方面，我们探索在虚拟世界中让智能体学习用各种语言描述的任务，比如告诉智能体制作一个石锤子，建造一个木质的避难所，它就可以在游戏世界自己完成，不用再用鼠标控制一步步走，你想要什么，告诉它就可以。这是通用人工智能的一个新赛道，全世界范围内也有不少机构在研究，比如我们去年公布的基于摹仿学习的策略大模型VPT、奖励函数MineCLIP，到今年利用大规模语言模型进行任务分解和规划的Plan4MC模型，都完成了大量任务。我记得2个月前发布模型的时候，已经完成24项任务，应该是全球范围内完成任务最多的一个智能模型。不过现有方法是依赖人类的知识和提示的，下一个目标是让智能体在此基础上学习，从而让它自适应在开放世界中完成更多任务，并且具备自己的创造力。

在类脑智能和生命模拟的方向，我们的工作也在继续，去年智源大会发布了最高精度的仿真线虫，它的精度到现在为止仍旧是最高的，论文正在评审过程中。有了这个工作基础，我们全面开源仿真线虫所用的生命模拟平台“Evaluation天演”，并提供在线服务。大家如果想用同样的任务，可以拿这个代码自己去运行，你如果没有那么多计算机算力，只有一些生物数据，你也可以通过在线的方式在我们的平台上完成。

天演平台有四项最显著的特点：第一，是当今效率最高的精细神经系统仿真的平台，第二，支持超大规模的神经网络仿真，目前已经高效地复现了领域内多个大规模的神经模型，第三，我们提供在线工具，你只要有生物数据，就可以一站式建模、仿真、可视化，在一个平台上完成。其中可视化的交互是天演独有的，你可以观察神经系统在运行过程中信号发生了怎样的变化，因为我们最终想知道生命智能进化的每一步，我们想知道到底发生了什么，所有细节在这个平台上都可以看到，而不是“黑箱”。

目前，针对神经科学领域结构最完整的模型是美国研究所的V1，天演平台从仿真速度和模型细节两方面入手，在V1的基础上提升了一个运行更快、更加符合生物物质生命约束的一个新版本，我们可以对千万规模的精细神经元的神经网络进行高效的可视化。神经系统是一个复杂的森林，它今天还是一个黑暗森林，你可以看清楚这个森林中周边一定范围内的树木、树枝、树叶所有细节，我们相信，无论对于神经科学，还是对于人工智能研究，都能起到基础性的支撑作用。

在加快计算速度板块，我们和天津超算合作，天演已经在天河超级计算机上成功部署，在节省能耗的情况下提升20倍的计算速度，实现了全球范围内最极致的神经系统仿真的性能，第一次实现让大规模精细神经系统访问速度逼近生物真实。未来我们和天津超算会进一步合作，挖掘超算硬件和软件的潜力，早日实现全球第一个精细的人类大脑。当然，我说的“早日”，应该是“早年”，可能还需要15-20年才能做到，但这是通向AGI必须的一个里程碑。

神经系统是实现最直接通向智能的一层，再往下是细胞、蛋白质这样的有机分子。我们的健康计算中心专注于应用通用人工智能和大模型前沿技术，不断开拓生命科学，包括服务于健康这样的研究的边界，主要是蛋白质的设计和量子化学这两个方向。在2023年，研究中心研发的“Open Complex”大分子预测模型，在蛋白质结构预测竞赛中赢得年度冠军，其实不仅仅是一次冠军，是连续的每次比赛都是冠军。目前这个中心正致力于开发基于结构的大分子，包括蛋白质、核酸适配体的生成模型，并且把它应用于药物设计等领域。此外，我们正在构建一个生物分子的统一的大模型，希望能够推动包括人工智能、包括生命科学、包括医药设计这样各类任务的发展。

文章来源：腾讯科技

大模型黄铁军

腾讯科技

原创栏目