LLM 翻车现场，ChatGPT 挑战 1979《Video Chess》惨败：连车马象都认错

大数据文摘·2025年06月17日 17:07

语言模型捕捉的是序列概率，不擅长高度组合性的任务

一场 ChatGPT 对战 Atari 2600 的象棋对局火了。

具体而言，在一场看似轻松的“AI玩具对决”里，ChatGPT输给了Atari 2600 的象棋引擎，对手只是一台48年前、频率1.19 MHz的8位主机。

起初，这只是Robert Jr. Caruso的一次怀旧实验。这位基础架构工程师，平时和自动化、虚拟化、云计算打交道。某天，他和ChatGPT聊起象棋AI，从Stockfish讲到AlphaZero，模型兴致高涨，主动提出要挑战Atari 2600上的《Video Chess》。

这款游戏发布于1979年，只有最基础的规则判断和1-2步深度搜索。当Caruso把棋盘和规则输入后，ChatGPT信心满满：“这应该很快就能赢。”

然而，整场对局却变成了一场闹剧。GPT认错棋子，把车当象，错失双兵叉，甚至连哪些棋子已经被吃掉都记不住。它时常建议“牺牲骑士去换兵”，还不断要求“从头再来”，好像换一次初始局面就能摆脱混乱。

Caruso陪它下了整整90分钟，每一步都要人工帮它“回忆”局面。最终，GPT主动认输，“低下了头”，结束了这场令人啼笑皆非的对局。

Caruso在领英中表达：“它犯的错，能让你在小学三年级的象棋社被嘲笑一整学期。”

技术盲点：LLM 不会“记住棋盘”

为什么 GPT 会输？因为它不是为这类任务设计的。

GPT 属于语言模型，它通过分析大量文本，学习词语、句子、段落之间的相关性，并基于“概率”决定接下来的输出。这种机制在对话、写作中极其强大——但在棋局这类离散系统中，问题变成了“状态跟踪”。

在象棋这类游戏里，状态清晰、规则严格：64 个格子、32 个棋子，轮流行动，没有容错空间。每一手棋都对结果至关重要。

而 GPT 每次“发言”都是基于之前的“语言提示”，并没有“内部记忆”去追踪棋盘状态。即使外部工程实现了记忆机制，它也会在多个回合后“混淆上下文”。这是因为它没有专门为棋类构建的“状态表达结构”，不像 Stockfish 那样有明确定义的棋盘类、规则引擎、搜索深度控制。

有网友评论说：“你拿一个聊天机器人去玩象棋，就像用千斤顶修车。”

也有网友认为： 语言模型捕捉的是序列概率，不擅长高度组合性的任务。

因此，AI 是否真的“懂得”某件事？如果它不能维持一个棋盘状态，它是否能在更复杂的现实场景中保持一致逻辑？例如：自动驾驶的决策路径、金融模型的风控评估、甚至是多轮对话中的情绪识别。

在 GPT 输给 Atari Chess 的那 90 分钟里，暴露的不只是一个模型的短板，也让我们重新思考：我们理解的“AI 能力”，是否已经被包装过度？

本文来自微信公众号“大数据文摘”，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。