社会科学报

机器语言智能： “模仿游戏”只是序曲，远非终章

发布时间：2025-12-24 作者：北京大学中文系教授詹卫东

　　三年前，ChatGPT的发布引爆了全球生成式人工智能浪潮。如今，能说会道的机器正以翻译、写作、编程、绘画与音视频创作等各种形式融入人类社会的日常。此时，我们需要对目前以大语言模型为代表的机器语言智能予以冷静反思。

　　反思机器语言智能

　　2019年，英格兰银行发行的50英镑纸币上，印有计算机科学之父艾伦·图灵的一句话：毫芒见鸿影，滴酒醉流觞（This is only a foretaste of what is to come, and only the shadow of what is going to be.）。这句话是图灵1949年6月10日接受英国《泰晤士报》采访时，对曼彻斯特大学刚建成人类首台可存储程序计算机“机械大脑”（mechanical mind）的评论——它仅用几周就“解决”了人类持续计算了300年的梅森素数难题（判断2p-1这种形式的数是否为素数）。图灵预言：“依我看，机器可以进入人类智能的任何领域，并达到跟人类平起平坐的水平。”一年后，图灵在《心智》（Mind）杂志发表《计算机器与智能》，回应公众热议的问题——“机器会思考吗？”图灵的答案是用“模仿游戏”（imitation game）来证实或证伪：如果机器能与人笔谈而不被发现，就说明机器会思考。他甚至给出了时间表：“50年后，计算机器的信息存储量将达到大约109比特，在提问5分钟后，一般提问者能区分人和机器的正确率不超过70%。”

　　现在回看，作为预言家的图灵犯了两个“错误”。一是他低估了计算机硬件的进步速度。2000年，计算机的内存已经可以超过109比特。二是他高估了计算机软件的进步速度。2000年参加罗布纳奖（Loebner Prize）“模仿游戏”的程序，仍无法真正骗过评委。

　　不过，图灵的“错误”持续时间不算太长。2022年11月30日，ChatGPT横空出世，别说5分钟，即便与人聊上50分钟，ChatGPT也丝毫不露怯。图灵的机器智能预言在“迟到”20年后终于成真！机器真的“会思考”了？！人类还能稳坐智能之巅吗？一种更深的不安随之蔓延——人类是否会被AI主导，甚至完全替代？

　　有这类想法的不乏其人，甚至包括2024年诺贝尔物理学奖得主、被誉为“深度学习教父”的杰弗里·辛顿。作为这一轮AI浪潮中的旗手，辛顿却多次警示AI会对人类社会构成威胁，称AI不是基于统计的高级计算工具，而是可以理解、决策，甚至产生意识的全新智能形态，至于人类，则“只是智能演化的一个过渡阶段”。

　　本文无意作宏大叙事，但希望能在ChatGPT问世三周年之际，对目前以大语言模型为代表的机器语言智能，做一点冷静的反思：一方面结合我们对AI基本工作原理的认识，探究AI的能与不能；另一方面则尝试跳出图灵的“模仿游戏”框架，探问智能的标准是否应该提高到能在无路可走时开辟新径、在无章可循时创建新规？

　　AI的能与不能：成也“模仿”，败也“模仿”

　　今天的AI为什么看上去这么能干？一言以蔽之：强大的模仿能力！图灵提出的“模仿游戏”是为计算机设计的“考试”方式，但实际上，“模仿游戏”同时也是计算机的“学习”方式。今天的计算机模仿的对象是互联网上的海量数据（即人类智能的产出物）。具体可分两个层次看：一是“模仿”什么——把每个语言符号都放到语流中正确的位置上，二是怎么“模仿”——通过反复地预测被隐去的语言符号，不断降低预测错误率。

　　以“阿Q是县长派来的”这个句子为例，把其中的“派”隐去，变成“阿Q是县长（）来的”，然后让计算机去猜这个括号里应该填什么词。如果它填“弯、胖、细……”就是错的，填“派、请、叫……”就是对的。这个猜词填空的游戏就是在模仿人类使用语言的规律。通过对海量语料的反复模仿，大语言模型可以得出句中词语间准确的语义关系，学到这句话底层的语义模式：句子开头出现的人名是第一个动词的被动接受方，句中第二个指人名词是第一个动词的主动发出方，两个指人名词不是同一个人，即“县长派阿Q来”“阿Q不是县长”“不是县长来是阿Q来”等。跟区分哪些词能填入句中括号位置、哪些不能一样，模型也能把同样包含“阿Q是县长”这个片段的句子分为两类，一类句子中“阿Q≠县长”，另一类句子中“阿Q=县长”（后者如“虽然阿Q是县长但还是不管用”）。

　　机器观察了“阿Q、是、县长、派、来、的”这些基本语言单位几乎所有可能的位置，掌握了词语之间的意义关系模式，并将这些信息以相互关联的高维向量形式记录在模型参数中，从而能生成和理解自然的句子。但是，问题来了！如果一种语言现象从未在训练时出现过，模型会如何应对？它还能正确理解吗？答案是大概率不能。请看两个小测试。一个是对话合理性测试。下面两人的一问一答是不是意思合理的自然对话？甲：博士毕业生今年找教职工作困难吗？乙：连博士毕业生今年找教职工作都很困难。另一个是空间方位词异形同义测试。下面两句话中的同一位置有两个不同的方位词：前、后。这两句话描述的空间场景是否相同？第一句话：至今菲律宾的土著居民在见面时，握过手后还要转身向后走几步，意思是向对方表明背后没有藏刀，是真诚地迎接对方。第二句话：至今菲律宾的土著居民在见面时，握过手后还要转身向前走几步，意思是向对方表明背后没有藏刀，是真诚地迎接对方。

　　上述例子的共同特征是：人类能轻易理解作答，而大模型在训练时可能没有见过这类“罕见”文本，无从模仿，就容易答错。有海量数据可以仿效，大模型就“能说会道”；无先例可循，大模型就“不懂装懂、似是而非”。

　　智能的内插与外推：超越模仿，迈向创新

　　在当下AI火热的社会氛围中，我们很容易混淆两个概念：“能干”与“智能”。大语言模型“遍访人类名师”学到的表象式能干，可能在很大程度上掩盖了其内核的并不那么智能。与其说一个AI很能干就是智能，倒不如说，只有当一个AI不能干、不知道该怎么干时，它所表现出来的解决问题的能力，才是真正的智能。

　　毋庸讳言，大语言模型通过模仿人类语言，确实能表现出某种创新能力，这像是统计学中的“内插”（interpolation）。如果将人类历史积累的既有知识比作一个巨大的几何“凸包”，大语言模型便是一位在这个闭环内登峰造极的舞者。它极其擅长在旧有的知识节点间搭建新的连线，比如将“莎士比亚的十四行诗”与“量子力学的波粒二象性”嫁接，生成一首惊艳的量子力学十四行诗。但这本质上只是旧元素的新排列，并未跨出人类经验的边界。

　　人类的创新智慧则是统计学中的“外推”（extrapolation）。无论是哥白尼针对地心说的破局，还是爱因斯坦折叠时空的曲率，都是不同历史时期人类智能跳出“凸包”，向着未知虚空勇敢的纵身一跃。这不是对历史数据的模仿，而是创造全新的范式。

　　试想将同一道题摆在两个人面前：对张三而言，这可能是道旧题或者一些不同旧题的新组合，他只需“不假思索地”从记忆库中“调用工具”就能完成任务；但对李四而言，这是一道从未见过的陌生难题，他必须苦思冥想才能找出解法，这才是“玩转智能”。目前的AI更像张三，是在已知数据的海洋里做完美的“内插式”拟合；而李四的模式是在没有数据可用的荒滩上做艰难的“外推式”探索。这种探索“未知”的能力才真正触及智能的核心。

　　目前机器模仿的对象，实际上是人类智能的产出物（即语言数据），而非智能的策源处（即人脑本身）。机器能极细致地复现人类已有的知识版图，却很可能还无法复刻产生知识的思维机制。模型把人类说过的话“学了个遍”，但并不等于它拥有了产生这些话的那种心智。AI能在现有地图上找到最优路径，但它还难以开疆拓土，画出新大陆的版图。

　　围棋世界冠军柯洁的两段视频让我印象深刻。一段视频中，他把围棋AI叫作“弟中之弟”，说AI“并不聪明”；另一段视频中，他又表示“就算AI让三子，自己也很难赢AI”。从“AI不过如此”到“根本赢不了AI”，世界冠军对待AI的这种“意难平”的矛盾心态非常有代表性。本文探讨AI的能干与不那么智能，目的也是提倡建立人与AI更和谐的共处关系：AI很能干，所以人类应该与AI共舞，熟练地驾驭这位“超级人类模仿者”，让它成为人脑记忆与效率的放大器；AI还不够智能，所以人类应更积极地探索智能到底是什么，应借助AI之力，在探寻智能原理的路上勇于创新。

　　《计算机器与智能》的结尾写道：“初见前路近可至，细思百事竞待忙（We can only see a short distance ahead, but we can see plenty there that needs to be done.）”。（引自尼克著《人工智能简史》）AI模仿智能虽然看上去“近在眼前”，但人类智能的门槛一直在“水涨船高”：当一项本来被认为是智能的能力被机器掌握后，人类一般就会把它从“智能”清单中剔除出去，把这项能力“贬低”为“只是计算而已”。毕竟，谁会觉得计算器有智能呢？今天的AI从模仿起步，未来终将实现创新。到那个时候，人类对自身智能原理的认识也必然会达到一个新的高度。

　　　　　　　　　　　　　　　　《社会科学报》总第1981期5版

　　　　如需转载，请注明出处！否则保留追究的权利