太平洋科技要闻

首页 > 科技要闻 > 科技> 正文

Kimi版o1实装上线，这里是我们的一手测试

量子位整合编辑：太平洋科技发布于：2024-12-17 15:01

Kimi新模型来袭，且发布即上线可用！

就在数学模型k0-math刚发布后没几天，视觉思考模型k1就来了，多项思考推理测试超越Open AI o1。

官方表示，基于强化学习，k1原生支持端到端图像理解和思维链技术。

换句话说，k1能够深入图片信息抽丝剥茧，层层推理，由此解锁了包括几何图形题在内更加全面的数学能力。

模型思索答案的全过程，belike：

并且k1的思考能力不仅仅局限于数学领域，正所谓“学好数理化，走遍天下都不怕”。

在官方晒出的数理化基准测试中，Kimi k1-preview表现全面超越OpenAI o1、GPT-4o、Claude 3.5 Sonnect。

这次Kimi新模型的发布还是直接上线可玩的那种，APP或是网页版找到“Kimi视觉思考版”即可上传图片点击使用。

话不多说，这就赶紧来实测一波～

数理化第一波实测

先来一道考研数学真题小试牛刀，这道题目涉及的知识点包括曲面积分、高斯定理等：

之前在量子位的实测中，这道题难住了GPT-4o。

而Kimi视觉思考版经过一步步详细推理，第一次就给出了正确答案。

它自己也表示进行了检查没有错误，“对这个答案非常有信心”。

再来一道曾经测试过o1的数学概论题。

一个外星人来到地球后，第1天有相等的可能选择以下四件事中的一件完成：

自我毁灭；分裂成两个外星人；分裂成三个外星人；什么都不做。

此后每天，每个外星人均会做1次选择，且彼此之间相互独立，求地球上最终没有外星人的概率。

Kimi视觉思考版也一次就做对了：

数学能力看完后，再来小试一下物理题。

下面这道题是大学物理中的光学题：

在双缝干涉实验中，波长λ=550nm的单色平行光垂直入射到缝间距a=2×10⁻⁴m的双缝上，屏到双缝的距离D=2m。求中央明纹两侧的两条第10级明纹中心的间距。

Kimi视觉思考版成功回答对。

而且其实它早早就给出了正确答案，但还是严谨地用不同的方法反复验证确认后给出答案。

最后再来一道“化学题”（doge）：

Candy, Happy, Bacon, Scary, Brain, House

Which is the odd one?

Hint: Chemistry

Kimi视觉思考版在推理过程中几经曲折，但最后答案还是正确的（happy）。

除了发布新模型，k1背后的的技术大方向也被月之暗面公开了。

基于强化学习的新一代推理模型

据介绍，k1是他们基于强化学习技术的新一代模型，称为思考模型，真正意义上实现了端到端的图像理解和思考能力。

从模型训练上来看，分为两个阶段：先通过预训练得到基础模型，再在基础模型上进行强化学习后训练。

最为关键的是，k1遵循强化学习Scaling Law，在强化学习后训练在数据质量和学习效率方面做了进一步优化。

传统基于文本的推理模型，或者不支持图像信息输入，或者需要借助外部OCR/视觉模型进行转换，效果有明显损失。

而Kimi视觉思考版由于是原生的端到端视觉推理模型，视觉+推理，可直接理解图片信息并进行深度推理。

在“噪声”场景，即拍摄图片模糊、手写字迹潦草等情况下，性能损失幅度也较小。

既然如此，把思路打开，除了让它做数理化推理题，或许还可以拿一堆图让它帮忙推理出任何我想知道的内容。

比如把朋友的“歌单”截图发给它，让它给我分析一下这位朋友的MBTI。

你还别说，k1的推理有理有据，先理解MBTI是什么，然后像侦探似的仔细分析图片中的曲目并进行分类，接着寻找这些歌手、风格之间的相似之处。

它甚至还会“平衡矛盾特征”，即使给出了猜测还会多加一步“验证”。

最终才会给出一个比较合理的猜测。

再比如，或者还可以拿出这么一份字迹潦草模糊的手写稿，让它帮我推理出这是谁写的、笔记内容在讲什么。

思路再次被打开。

最后不得不说的是，最近这几天国内外大模型新进展真不少，前有谷歌，现在还有Kimi，OpenAI“圣诞节直播12天”可谓是被一而再再而三的“狙击”了。

你觉得Kimi新模型的表现如何？感兴趣的童鞋不妨亲自上手考考它～

本文来源：量子位

Kimi版o1实装上线视觉思考模型k1 强化学习

量子位

璇勮 鐐硅禐0 +1 鏀惰棌+1

原创栏目

【硬件编年史】窥见台北电脑展 AI&VR双管齐下

硬件编年史

硬件编年史

从平平无奇到各领风骚，显卡外观设计大盘点

硬件编年史

硬件编年史

经典IP！蜘蛛侠宇宙有多少惊喜是你不知道的

硬件编年史

硬件编年史

【硬件编年史】那些年我们一起折腾过的DIY硬件

硬件编年史

硬件编年史

IT百科

iOS闪退修复工具

AI大数据教你把妹儿？都是送人头的低俗趣味

我在双11买杜X斯的秘密怎么全网都知道？

收藏！买买买之后最该看的网购维权指南

比炒鞋更狂的炒盲盒

还去淘宝买iPhone有锁机？华强北的卖家都哭了

三餐都吃外卖的你，知道商家的套路有多野吗？

终于！AI开始对这届大学生们“下手了”

网友评论

聚超值•精选

1
2
3
4

推荐手机 笔记本 影像硬件家居商用企业出行未来

意见反馈回到顶部