大模型我问你,你是什么数学水平?|AI测评师

左键·2024年11月27日 14:23
完蛋了,高考落榜了!

最近在刷小红书,被数学题刷屏。

题目不能说很难,但评论区真的很难评,比如下面这题。

图源/小红书截图

不是说好的中国人人均数学天才吗?怎么遇到了这样的小学生题目,还能牵扯出一堆稀奇古怪的答案,难道这就是传说中的AI(人工)幻觉?

人脑会宕机,但大模型被喂了这么多数据,一定会聪明地回答。本期AI测评师,我得好好问问大模型们,你们的数学水瓶,究竟有多高?

图源/网络

图形解题,难倒大模型

先说说最新的和数学有关的消息:11月16日,月之暗面宣布推出数学大模型k0-math,其数学能力对标OpenAI o1系列可公开使用的两个模型o1-mini和o1-preview。

看起来数学水平应该不错?网上download了一张求角度的题,目测应该初中生水平,不知道kimi会给出什么答案呢?(补充一句,根据kimi自己的说法,想要体验k0-math,得先下载app)

图源/网络

把图丢进去后,kimi框框一顿输出:

图源/Kimi截图

说得很好,还有非常详细的过程分析,不过,答案是错的。

图源/本人做题

上面是本人求了一半的答案,只是增加了一条辅助线(AE垂直BC),都可以知道∠DAE=30°,那比∠DAE大的∠DAC,怎么会算到15°?

不行,既然kimi不知道,我得问问Qwen。

毕竟2个月前,通义千问还是信誓旦旦地说Qwen2.5-Math可是世界领先的数学开源大语言模型啊。

优点有很多,比如Qwen2.5系列扩展为同时支持使用思维链和工具集成推理(TIR,Tool-integrated Reasoning)解决中英双语的数学题;比如,Qwen2.5-Math-72B-Instruct在TIR模式下几乎获得了满分,解决了几乎所有的问题。

图源/Kimi截图

图源/Kimi截图

话很密,但是没有答案。于是,我又追问了(疲惫.jpg)

图源/Kimi截图

图源/Kimi截图

啊这,啊这,啊这,正确答案是45°!!!怎会错得如此离谱???

需要注意的是,通义千问网页版,并不代表最新的Qwen2.5。如果想要体验Qwen2.5可以去魔塔社区(网址戳这里 https://modelscope.cn/studios/Qwen/Qwen2.5-Coder-demo)。比较遗憾的是,只给文字提问,没法看图解题,咱这题算是没法过Qwen2.5的了。

困难总比办法多,还记得不久前开学季,我们让夸克做题么?拿这题试试。

图源/夸克截图

呼,做题还得是你啊!

不过夸克这是拍题解答,用的是灵知学习大模型,正好这道题在题库中,所以不仅有解题步骤,还有解题视频,逐帧讲解。

难题还得交给Qwen2.5

如果图形题太难,那纯文字描述题呢?

新题目,咱们上个难度,选2022年清华大学强基计划数学试题。

图源/网络

选题目3,无他,唯好复制尔。

先考验kimi,很好,创造了一个错误答案。

图源/Kimi截图

再问问Qwen2.5。

图源/Qwen2.5截图

解题过程很长,就不都放了,但至少答案符合选项了!而且和正确答案一对,还真是。

图源/网络

那国外的大模型呢?会比我们强吗?

这个是meta-llama3.1。

图源/meta-llama3.1截图

这个是microsoft/Phi3.5。

图源/microsoft/Phi3.5截图

这是GPT-4o给出的答案。好消息是,总算接近了;坏消息是,接反了。

图源/ChatGPT截图

当我发出灵魂拷问时,GPT沉默了。

图源/ChatGPT截图

从这个角度看,是不是很人工呢?(沉默,人类才会有的反应)

结论

做了两道题,水母君也得出了一些粗浅的结论:

1)对于大多数大模型而言,图形题的解读还存在不少难点,很容易得出错误答案。如果是夸克灵知等拥有大量题库的垂类大模型,只要题库内有,就可以检索出答案,弊端在于“无思考”痕迹。

2)当题目上难度时,Qwen2.5是相对聪明的,可以解答高考题目,且有详尽的解答过程。

3)数学是世界难题,大模型也得高考落榜。

+1
2

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000
36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

Baidu
map