搜索

36氪Auto
数字时氪
未来消费
智能涌现
未来城市
启动Power on
36氪出海
36氪研究院
潮生TIDE
36氪企服点评
36氪财经
职场bonus
36碳
后浪研究所
暗涌Waves
硬氪
媒体品牌
企业号
企服点评
hthcom华体会赌博
36Kr创新咨询
华体会体育手机游戏
核心服务
hthcom华体会
政府服务
创投发布
hth电竞官方下载
hthvp华体会
VClub投资机构库
投资机构职位推介
投资人认证
投资人服务
寻求报道
36氪Pro
创投氪堂
企业入驻
华体会手机娱乐
创投平台

hth358华体会

搜索

我要入驻

大模型我问你，你是什么数学水平？｜AI测评师

左键·2024年11月27日 14:23

完蛋了，高考落榜了！

最近在刷小红书，被数学题刷屏。

题目不能说很难，但评论区真的很难评，比如下面这题。

图源/小红书截图

不是说好的中国人人均数学天才吗？怎么遇到了这样的小学生题目，还能牵扯出一堆稀奇古怪的答案，难道这就是传说中的AI（人工）幻觉？

人脑会宕机，但大模型被喂了这么多数据，一定会聪明地回答。本期AI测评师，我得好好问问大模型们，你们的数学水瓶，究竟有多高？

图源/网络

图形解题，难倒大模型

先说说最新的和数学有关的消息：11月16日，月之暗面宣布推出数学大模型k0-math，其数学能力对标OpenAI o1系列可公开使用的两个模型o1-mini和o1-preview。

看起来数学水平应该不错？网上download了一张求角度的题，目测应该初中生水平，不知道kimi会给出什么答案呢？（补充一句，根据kimi自己的说法，想要体验k0-math，得先下载app）

图源/网络

把图丢进去后，kimi框框一顿输出：

图源/Kimi截图

说得很好，还有非常详细的过程分析，不过，答案是错的。

图源/本人做题

上面是本人求了一半的答案，只是增加了一条辅助线（AE垂直BC），都可以知道∠DAE=30°，那比∠DAE大的∠DAC，怎么会算到15°？

不行，既然kimi不知道，我得问问Qwen。

毕竟2个月前，通义千问还是信誓旦旦地说Qwen2.5-Math可是世界领先的数学开源大语言模型啊。

优点有很多，比如Qwen2.5系列扩展为同时支持使用思维链和工具集成推理（TIR，Tool-integrated Reasoning）解决中英双语的数学题；比如，Qwen2.5-Math-72B-Instruct在TIR模式下几乎获得了满分，解决了几乎所有的问题。

图源/Kimi截图

图源/Kimi截图

话很密，但是没有答案。于是，我又追问了（疲惫.jpg）

图源/Kimi截图

图源/Kimi截图

啊这，啊这，啊这，正确答案是45°！！！怎会错得如此离谱？？？

需要注意的是，通义千问网页版，并不代表最新的Qwen2.5。如果想要体验Qwen2.5可以去魔塔社区（网址戳这里 https://modelscope.cn/studios/Qwen/Qwen2.5-Coder-demo）。比较遗憾的是，只给文字提问，没法看图解题，咱这题算是没法过Qwen2.5的了。

困难总比办法多，还记得不久前开学季，我们让夸克做题么？拿这题试试。

图源/夸克截图

呼，做题还得是你啊！

不过夸克这是拍题解答，用的是灵知学习大模型，正好这道题在题库中，所以不仅有解题步骤，还有解题视频，逐帧讲解。

难题还得交给Qwen2.5

如果图形题太难，那纯文字描述题呢？

新题目，咱们上个难度，选2022年清华大学强基计划数学试题。

图源/网络

选题目3，无他，唯好复制尔。

先考验kimi，很好，创造了一个错误答案。

图源/Kimi截图

再问问Qwen2.5。

图源/Qwen2.5截图

解题过程很长，就不都放了，但至少答案符合选项了！而且和正确答案一对，还真是。

图源/网络

那国外的大模型呢？会比我们强吗？

这个是meta-llama3.1。

图源/meta-llama3.1截图

这个是microsoft/Phi3.5。

图源/microsoft/Phi3.5截图

这是GPT-4o给出的答案。好消息是，总算接近了；坏消息是，接反了。

图源/ChatGPT截图

当我发出灵魂拷问时，GPT沉默了。

图源/ChatGPT截图

从这个角度看，是不是很人工呢？（沉默，人类才会有的反应）

结论

做了两道题，水母君也得出了一些粗浅的结论：

1）对于大多数大模型而言，图形题的解读还存在不少难点，很容易得出错误答案。如果是夸克灵知等拥有大量题库的垂类大模型，只要题库内有，就可以检索出答案，弊端在于“无思考”痕迹。

2）当题目上难度时，Qwen2.5是相对聪明的，可以解答高考题目，且有详尽的解答过程。

3）数学是世界难题，大模型也得高考落榜。

本文由「左键」原创出品，转载或内容合作请点击转载说明；违规转载必究。

+1

2

好文章，需要你的鼓励

你可能也喜欢这些文章

估值80亿，宁波诞生超级独角兽

年入6亿，台州“小巨人”二次冲击IPO

温州60亿男装巨头，跨境收割百年户外品牌

年入557亿，宁波“并购王”赴港IPO

年入352亿，杭州“轮胎一哥”冲刺主板IPO

估值50亿，杭州又一数智公司赴港冲刺IPO

32亿，浙江国资出手一起并购

年入22亿，台州杀出“超级IPO”

36氪首发｜加速量子点技术产业布局，「致晶科技」完成数千万元新一轮融资

资深作者

关注商业航天、大公司、新零售，欢迎爆料：leftkey66

最近内容

36氪首发｜太驿微行完成2500万元种子轮融资，全力深耕“超低轨智能AI卫星技术”研发

年入6亿，台州“小巨人”二次冲击IPO

年入557亿，宁波“并购王”赴港IPO

美司法部强制谷歌出售Chrome浏览器；Rokid推出AI+AR眼镜；OpenAI CEO年薪仅55万｜OPPS AIGC

Opps，一周发生了哪些AIGC大事？

2024-11-26

华体会真人

投资者关系

36氪欧洲站 36氪欧洲站 36氪欧洲站 Ai产品日报

网络谣言信息举报入口

热门推荐

合作伙伴

36氪APP下载

iOS & Android

36氪APP让一部分人先看到未来

36氪

鲸准

氪空间

推送和解读前沿、有料的科技创投资讯