太平洋科技要闻

零一万物发布旗舰预训练模型，李开复回应AI六小虎困境传言：融资、芯片都不是问题

腾讯科技整合编辑：太平洋科技发布于：2024-10-17 17:03

最近，自媒体关于国内的“AI六小虎”有一些负面传言——某几家放弃预训练，并指出零一万物就是其中一家，对此，零一万物创始人李开复曾在上周亲自发声辟谣。

10月16日，零一万物正式发布了新的预训练模型 Yi-Lightning。

在 Yi-Lightning的发布会上，李开复提到：“据我了解，目前“AI六小虎”在融资方面都有足够的资金支持，可以承担起预训练模型的运行成本。因此，只要这些公司能够吸引到足够的优秀人才，并有决心进行预训练模型的开发，资金和芯片资源都不会成为障碍。尽管这样的公司可能会越来越少，但只要他们能够持续投入，中国大模型公司就有可能在全球范围内取得领先地位。”

零一万物发布的最新旗舰模型 Yi-Lightning，与零一万物上半年发布的千亿参数模型 Yi-Large 相比，在性能更进一步的前提下，推理速度方面有着极大提升。根据官方发布的评测数据显示，在 8xH100 算力基础下，以同样的任务规模进行测试，Yi-Lightning 的首包时间（从接收到任务请求到系统开始输出响应结果之间的时间）仅为 Yi-Large 的一半，最高生成速度也提升了近四成，实现了旗舰模型的性能升级。

在国际权威盲测榜单 LMSYS 上，Yi-Lightning 排名第六，暂时位列GPT-4o-2024-05-13、Anthropic Claude 3.5 Sonnet之前。

图注：国际权威盲测榜单LMSYS 中，大语言模型综合能力排名

根据李开复介绍，模型性能与推理速度的提升，一方面因为零一万物重视AI Infra能力的提升，2024年以来，中国大模型行业从狂奔进入到了“长跑阶段”，而大模型公司的核心竞争力模型＋AI 基础设施＋应用，缺一不可。

另外一方面，Yi-Lightning更新了模型架构，不再应用稠密模型架构，而是采用了 Mixture of Experts（MoE）混合专家模型架构，并在模型训练过程中做了新的尝试：

1、混合注意力机制：为了处理长序列数据，Yi-Lightning 采用了混合注意力机制，这种机制结合了全注意力和滑动窗口注意力，以平衡性能和计算资源消耗。此外，引入了跨层注意力（CLA），允许模型在不同层次间共享键和值，减少存储需求，提高推理效率。

2、动态 Top-P 路由：Yi-Lightning 采用了动态 Top-P 路由机制，这种机制可以根据任务难度自动选择最合适的专家网络组合，与传统的 Top-K 路由相比，它更灵活，能够平衡推理成本和模型性能。

3、多阶段训练：Yi-Lightning 的训练过程采用了多阶段训练模式，前期注重数据多样性，后期侧重于更丰富、知识性更强的数据。这种训练方法有助于模型吸收不同阶段的知识，并通过调整 batch size 和学习率（LR）来保证训练速度和稳定性。

在发布新模型的同时，零一万物同时也发布了面向ToB市场的首款产品——AI 2.0数字人，为零售和电商场景设计，利用最新的Yi Lightning旗舰模型提供行业解决方案。基于Yi Lightning，构建了一套包括角色、声音和电商话术的完整模型体系。

针对于行业长期热议的大模型公司并没有建立起真正的PMF问题，李开复进一步强调，核心在于基础模型能力需要真正强大及大模型成本还不足够低。

“我们认为，人工智能（AI）时代的到来也将使现有的应用再次经历变革，转变为基于AI的新形态应用。然而，尽管我们已经讨论了一年，这些应用的普及似乎还远未到来。目前，最赚钱的实际上是像英伟达这样的芯片公司，而非应用公司。”

此外，李开复强调，要激活一个健康的生态系统，关键在于拥有顶级的模型，并且这些模型的价格要足够低，以促进应用的发展。如果模型太贵，可能会导致应用开发公司破产。

关键在于，如果好的模型价格过高，应用就无法迅速普及，也就无法实现普惠。我们今天发布的模型，希望能够让我们更接近这一愿景。”

李开复所提到的大模型成本问题，确实大模型迈向下一步需要解决的最重要问题之一，这里包含两个方面：首先，对于大模型企业来说，需要不断迭代更优质的模型，提高核心竞争力，模型迭代速度很快，每个模型能够给企业创造营收的时间窗口可能只有一年左右，甚至更短。这对模型创业企业的商业模式挑战很大；

另外一方面，对于使用大模型的企业来说，如果采用性能最强大的基座模型，推理成本居高不下，这也是需要解决的巨大问题。

只有模型能力和成本问题能够被逐步解决，基于AI的商业生态才能真正健康地发展。

在发布会上，李开复也与包括腾讯科技在内的媒体进行了深度沟通，并正面回复了关于大模型领域的成本、竞争等重要问题，以下为内容实录：

Q：此前有消息称AI方面的六小虎，某几家放弃了预训练，开复博士已辟谣了，但站在行业的角度请评估逐步放弃预训练模型将是行业整个趋势吗？

李开复：我觉得做好预训练模型是一个技术活，而且是要非常多有才华的人在一起工作，慢工出细活，需要有懂芯片的人，懂推理的人，懂基础架构的人，懂模型的人，有很好的算法同学，一起做出来。

如果一个公司能有幸拥有这么多优秀的人才，能够跨领域的合作，那我相信中国是绝对可以做出世界排名前十的预训练的通用模型，但不是每家公司都可以做这件事情，做这件事情的成本也比较高，以后有可能会越来越少的大模型公司训练做预训练。不过据我所知，这六家公司融资额度都是够的，我们做预训练的production run，训练一次三四百万美金，这个钱也是头部公司都付得起，我觉得中国的六家大模型公司只要有够好的人才，想做预训练的决心，融资额跟芯片都不会是问题的。

Q：OpenAI的o1发布后，很多人认为，从技术上会带来新的范式。这对初创公司来说会有哪些影响？

李开复：我刚从美国回来，跟OpenAI的人员也有沟通，他们跟我分享的是公司内部还有一些好东西，但是他们不急拿出来，因为他们领先行业足够多，到了一定的业务节点才释放出来，这是他们能做而别人不能做。OpenAI o1 虽然隐藏了所有中间的思考状态，但是很多人还是在网上开始猜它怎么做，我们认为有一些揣测还是比较靠谱，我觉得五个月以后应该也有不少类似o1 模型的能力出现在各个模型公司，包括零一万物。

o1的思考模式是把之前只在预训练中 scaling （规模定律）的趋势扩展到了推理的时候，这件事情对行业是最大的认知改变。过去大家觉得谁预训练做好就够了，慢慢大家发现后训练SFT和强化训练都是非常重要。

所以零一万物的团队刚开始做的主要是专注预训练，之后又有很多很厉害的人加入，帮我们把Posttrain（后训练）也做出来，现在看来推理也很重要，一年半以前大家觉得大模型最厉害的地方就是预训练，一年以后发现后训练也是同样重要，这感谢OpenAI点醒我们这一点，现在我相信很多中美公司都在往o1 方向狂奔。

Q：李开复博士之前曾表示不会从事亏损的To B业务。然而，在最近的发布会上，他首次公布了相关的产品矩阵，这似乎表明公司正在尝试更深入地探索To B市场。这是否意味着零一万物已经找到了解决AI 1.0时代SaaS行业普遍面临的低利润和亏损问题的方法？

李开复：我们特别重视给每一个用户提供价值，所以我们不会去说有模型，你要拿来做什么，我卖给你，你先给钱，这样对用户是不会满足的。另外一种常见的做法，就是到企业里，企业说我要做客服，模型卖给我，怎么做客服我不会做，你帮我做，这就成为和AI1.0时代一样的可以称为系统集成型的AI，也就是说卖模型给你，先帮你把客服应用做好，这样的情况下很难有利润，之前我说如果做一单赔一单的to B，零一万物宁可不做，这句话我们并没有改变。

我们刚刚发布的AI 2.0数字人解决方案不会做一单赔一单，因为它是专注到用户重大的痛点需求和盈利点，也就是说一个店长或KOL平时做一次直播浪费最重要的资源，就是他的时间，而且这个时间就算做一小时的直播能赚到一千块钱，也就是一千块钱，但如果用数字人直播就不是一小时了，可能可以做一千个小时，哪怕每一个小时只能赚一半的钱，一千个小时还是可以赚五百倍的钱，这样的账就很好算了。如果真的能把数字人做到端到端，只要输入公司内部的东西，这次减价的，选一个形象、声音按一个钮就开始百录甚至千录的直播，等于你是卖给这个企业一个印钞机，印钞机要收租赁费就是可行的了。除了直播以外，我们的AI 2.0数字人解决方案已经跑通了更多业务场景，比如AI伴侣、IP形象、办公会议等等。

我们继续执行模应一体战略，将Yi-Lightning模型能力与数字人解决方案结合，不断迭代产品，后续会解锁更多业务场景。

回到国内的SaaS的问题，国内现在很难说到SaaS，整个收费模式和商业模式在美国走通了，但国内还是一直有很大的问题。但也有一些行业可以走通SaaS，SaaS按使用收费，也可以订阅，按照每个月收费，也可以用分成，这些模式都可以综合称为比较好的商业模式，因为它不是一次性卖掉，像一个项目制的公司帮你做一个客服卖给你，你付钱就走了，以后没有钱可以收了，而是可以持续收费。刚才讲的模式，无论分成、订阅的SaaS模式才是可持续的商业模式，今天我们并没有看到一个普遍被接受的SaaS模式的存在。所以在国内，我们大模型to B相对于AI 1.0时代有不同的打法，首要任务就是要寻找少数能够按使用情况收费的方法，而不是项目定制的方法，能得到比较高利润率的订单再去做。

整体来看，零一万物 ToB 整体解决方案会采取“一横一纵”的打法。和Yi-Large相比，Yi-lightning的模型性能又有大幅提升，作为国际 SOTA 的基座模型，他们本身就具备着出色的泛化性，再加上零一万物自身拥有很强大的SFT（监督学习）能力。这些技术能力使得我们的团队能够先将单个行业做深做透，进而以自身技术能力和行业积累为基础，凝练出标准化的ToB解决方案，为各行各业的企业客户降本提效，将世界第一梯队的大模型用到实处，真正为企业带来业务增长和新竞争力。

Q：从国际权威盲测榜单 LMSYS 结果来看，Yi-Large已经将中美顶级模型之间的时间差距缩短至六个月，而最新模型更是超越了GPT-4o，进一步将这一时间差距缩短至五个月。对于中国的大模型初创公司而言，为了持续缩小与国际领先水平的时间差距，预训练模型需要具备哪些独特的特性和优势？

李开复：缩短时间差非常困难，我不预测我们可以缩短这个时间差。因为毕竟人家是用十万张GPU训练出来，我们用的是两千张GPU训练出来，我们时间差能达到只是因为我们模型、AI Infra等团队都热心聪明，去使用和理解对方做出来的东西，再加上我们自己每家的研发有特色，比如数据处理、训推优化等等，现在这一套方法论在零一万物已经成熟了，我们有信心把自己的创新加上我们的一些特长，在关注OpenAI和其他公司发布的新技术，尽快地去能够了解这些技术的核心重要性，然后把它的能力在我们自己的产品里面发挥出来，我觉得这套方法保持在六个月左右，就已经是很好的结果了。

如果期待破局，可能需要一个前所未有的算法才有机会。我们千万不要认为落后六个月是一个很羞耻的事情，或者一定是要追赶的事情。因为我很多美国朋友都认为中国会远远落后，也有美国朋友包括一些中国朋友按照这个打法，人家十万张GPU等，我们要被甩掉三年、五年甚至十年都有可能。

现在从零一万物证明了不会落后这么多，而且这次LMSYS的榜单上也有两家其他中国公司表现也不错，也不是只有我们一家在做。所以对于奋力图强、勤奋努力、聪明多元化的团队，在国内拥有这样团队的公司，要用类似零一万物的打法，去贴近美国最顶尖的公司，不落后超过六个月，我觉得是可能，而且不只是我们一家可能，但难度是高的，希望再往下减非常困难，除非真的有一个发明和科技上的突破。

Q：零一万物在海外市场推出了面向消费者（To C）的产品，同时在国内也逐步推出了面向企业（To B）的产品。在这种背景下，如何看待To B和To C产品之间的界限？

李开复：对，我觉得一个大模型公司同时做to B和to C也是很辛苦的，也是需要多元化的管理方式，因为两个团队的基因不一样，做事的方法和衡量KPI的方法都不太一样，我自己在这两个领域有经验，也在试着做，但是也绝对不能什么都做，所以to B选择做国内因为我们找到了一些破局的空间，比如用数字人来做零售，来做餐饮等等，这能做一个完整的解决方案，另外还有两三个领域开始在做，现在还不方便披露。

我们觉得这样的to B工作只能在中国做，因为要触达美国的用户或国外的用户不太可能，所以全世界的范畴来说，to B供应商基本都是当地的，即便在中国要买SAP的产品也是SAP中国卖给你，所以跨国的设立分公司做to B绝对不是我们或其他的创业公司能做的，所以to B的国外就放弃了，做to B就做国内，做to B就做有利润的解决方案，而不只是卖模型，不只是做项目制，这是我们to B的做法。

to C我们主要布局海外，有好几个理由。第一个理由，当我们开始做零一万物时国内还没有合适的中文模型，我们只有在国外先尝试，尝试了一段就有了心得，就迭代了一个、两个、三个产品，这些产品现在表现有些很好，有些没有那么好，我们也在不断地调整中。

我们在国内也在观察什么时候适合在国内做什么样的产品，to C的产品在中国国内走流量有一个很大的问题，就是流量的成本越来越高，我们也看到了有些友商的单用户成本从十几块人民币加到三十多块人民币，近来还有相当的流失，在这样一个挑战环境里我们会非常谨慎，先不推出中国本土新的to C的应用，我们已有的产品还会继续维护，但更多的精力会在国外的土壤用更低廉的钱买到非常高质量的用户，或者能直接把App卖出去，让用户来订阅收费，这个订阅的习惯在国外也是比较良好，主要是这几个理由。

现在当下最大的理由还是说国外做to C的产品，我们变现能力和消耗用户增长的成本算账可以算得过来，以后再关注国内有什么机会可以推出。

有关这两者有没有相似的地方？相似挺多。首先两边都需要非常高质量、快速的模型，我们有。另外我们会需要用到各种预训练和后训练的技术，这两边都会用上，一个to C的应用，调一个数字人的应用方法都需要类似的技术，我们有技术累积。当我们最终做出产品，比如to B的产品里面需要的各种功能，还有to C需要的功能也有很多可以共用，比如AI阅读、AI撰写、AI PPT、AI搜索是很多to B、to C应用需要的模块，今天看传统的软件底层还有很多是相似的，就是Windows里面提供平台的API都是to B、to C共用，我们也在累积这些共用的地方

Q：零一的新模型居然拿出如此低的价格，是否有比较大的成本压力？

李开复：零一万物在Yi-Lightning的定价上并没有亏本。从成立的第一天起，零一万物就同时启动了模型训练、AI Infra、AI 应用三大团队。当三个团队都成熟了以后，再对接到一起。零一万物这一模式总结为模基共建、模应一体两大战略——AI Infra能力助力模型训练和推理，以更低的训练成本训练出性能领先的模型，以更低的推理成本支撑应用层的探索。出色的模型性能与低廉的推理成本不仅能支撑零一万物开拓绝佳的ToB应用场景，还能让零一万物推出的大模型ToB解决方案更具性价比，进而与企业合作伙伴一起探寻大模型时代的TC-PMF。

之前回应行业价格战时，我的回答就是零一万物不参与价格战。另外，我当时也提到，不能只看模型价格，还要看模型性能是否足够好。当时有很多性能较差的模型价格降到非常低，甚至是免费，我相信当时选择接入这类模型API的企业与个人，收获都不达预期。要接入API，足够好的模型性能很重要，不然产品无法达到PMF。

另外很重要的一点就是把高性能模型的价格降到白菜价，0.99元人民币/百万 token 的价格很便宜，但如果一个应用里每个用户每天调用十几次，累积下来每年的成本还是不容忽视的。

零一万物也在做App，我们知道做App需要控制成本，所以我们不会赔钱卖模型，但也不会赚很多钱，而是在成本线上加一点点小小的利润，就得到了今天0.99元/百万token的价格。欢迎大家试用，一定物超所值。挑选模型API最重要的一点，就是模型性能一定要优秀，在这个前提之下才能去挑最便宜的，实际算一算用户调用量会是多少，账算不算得过来。我相信，综合Yi-Lightning的模型质量和价格来看，Yi-Lightning很可能是很多开发者最认可、最高性价比的模型了。

Q：此次公布的 ToB 解决方案矩阵是完整的吗？近期是否还会公布其他 ToB 解决方案？

李开复：除了我们已经发布的AI 2.0数字人、API之外，零一万物目前还有 AI Infra 解决方案、私有化定制模型等其他 ToB 业务，我们会在近期正式对外发布，敬请期待。

本文来源：腾讯科技

预训练模型大模型公司模型性能

腾讯科技

原创栏目