机器语言智能: “模仿游戏”只是序曲,远非终章
三年前,ChatGPT的发布引爆了全球生成式人工智能浪潮。如今,能说会道的机器正以翻译、写作、编程、绘画与音视频创作等各种形式融入人类社会的日常。此时,我们需要对目前以大语言模型为代表的机器语言智能予以冷静反思。

反思机器语言智能
2019年,英格兰银行发行的50英镑纸币上,印有计算机科学之父艾伦·图灵的一句话:毫芒见鸿影,滴酒醉流觞(This is only a foretaste of what is to come, and only the shadow of what is going to be.)。这句话是图灵1949年6月10日接受英国《泰晤士报》采访时,对曼彻斯特大学刚建成人类首台可存储程序计算机“机械大脑”(mechanical mind)的评论——它仅用几周就“解决”了人类持续计算了300年的梅森素数难题(判断2p-1这种形式的数是否为素数)。图灵预言:“依我看,机器可以进入人类智能的任何领域,并达到跟人类平起平坐的水平。”一年后,图灵在《心智》(Mind)杂志发表《计算机器与智能》,回应公众热议的问题——“机器会思考吗?”图灵的答案是用“模仿游戏”(imitation game)来证实或证伪:如果机器能与人笔谈而不被发现,就说明机器会思考。他甚至给出了时间表:“50年后,计算机器的信息存储量将达到大约109比特,在提问5分钟后,一般提问者能区分人和机器的正确率不超过70%。”
现在回看,作为预言家的图灵犯了两个“错误”。一是他低估了计算机硬件的进步速度。2000年,计算机的内存已经可以超过109比特。二是他高估了计算机软件的进步速度。2000年参加罗布纳奖(Loebner Prize)“模仿游戏”的程序,仍无法真正骗过评委。
不过,图灵的“错误”持续时间不算太长。2022年11月30日,ChatGPT横空出世,别说5分钟,即便与人聊上50分钟,ChatGPT也丝毫不露怯。图灵的机器智能预言在“迟到”20年后终于成真!机器真的“会思考”了?!人类还能稳坐智能之巅吗?一种更深的不安随之蔓延——人类是否会被AI主导,甚至完全替代?
有这类想法的不乏其人,甚至包括2024年诺贝尔物理学奖得主、被誉为“深度学习教父”的杰弗里·辛顿。作为这一轮AI浪潮中的旗手,辛顿却多次警示AI会对人类社会构成威胁,称AI不是基于统计的高级计算工具,而是可以理解、决策,甚至产生意识的全新智能形态,至于人类,则“只是智能演化的一个过渡阶段”。
本文无意作宏大叙事,但希望能在ChatGPT问世三周年之际,对目前以大语言模型为代表的机器语言智能,做一点冷静的反思:一方面结合我们对AI基本工作原理的认识,探究AI的能与不能;另一方面则尝试跳出图灵的“模仿游戏”框架,探问智能的标准是否应该提高到能在无路可走时开辟新径、在无章可循时创建新规?
AI的能与不能:成也“模仿”,败也“模仿”
今天的AI为什么看上去这么能干?一言以蔽之:强大的模仿能力!图灵提出的“模仿游戏”是为计算机设计的“考试”方式,但实际上,“模仿游戏”同时也是计算机的“学习”方式。今天的计算机模仿的对象是互联网上的海量数据(即人类智能的产出物)。具体可分两个层次看:一是“模仿”什么——把每个语言符号都放到语流中正确的位置上,二是怎么“模仿”——通过反复地预测被隐去的语言符号,不断降低预测错误率。
以“阿Q是县长派来的”这个句子为例,把其中的“派”隐去,变成“阿Q是县长( )来的”,然后让计算机去猜这个括号里应该填什么词。如果它填“弯、胖、细……”就是错的,填“派、请、叫……”就是对的。这个猜词填空的游戏就是在模仿人类使用语言的规律。通过对海量语料的反复模仿,大语言模型可以得出句中词语间准确的语义关系,学到这句话底层的语义模式:句子开头出现的人名是第一个动词的被动接受方,句中第二个指人名词是第一个动词的主动发出方,两个指人名词不是同一个人,即“县长派阿Q来”“阿Q不是县长”“不是县长来是阿Q来”等。跟区分哪些词能填入句中括号位置、哪些不能一样,模型也能把同样包含“阿Q是县长”这个片段的句子分为两类,一类句子中“阿Q≠县长”,另一类句子中“阿Q=县长”(后者如“虽然阿Q是县长但还是不管用”)。
机器观察了“阿Q、是、县长、派、来、的”这些基本语言单位几乎所有可能的位置,掌握了词语之间的意义关系模式,并将这些信息以相互关联的高维向量形式记录在模型参数中,从而能生成和理解自然的句子。但是,问题来了!如果一种语言现象从未在训练时出现过,模型会如何应对?它还能正确理解吗?答案是大概率不能。请看两个小测试。一个是对话合理性测试。下面两人的一问一答是不是意思合理的自然对话?甲:博士毕业生今年找教职工作困难吗?乙:连博士毕业生今年找教职工作都很困难。另一个是空间方位词异形同义测试。下面两句话中的同一位置有两个不同的方位词:前、后。这两句话描述的空间场景是否相同?第一句话:至今菲律宾的土著居民在见面时,握过手后还要转身向后走几步,意思是向对方表明背后没有藏刀,是真诚地迎接对方。第二句话:至今菲律宾的土著居民在见面时,握过手后还要转身向前走几步,意思是向对方表明背后没有藏刀,是真诚地迎接对方。
上述例子的共同特征是:人类能轻易理解作答,而大模型在训练时可能没有见过这类“罕见”文本,无从模仿,就容易答错。有海量数据可以仿效,大模型就“能说会道”;无先例可循,大模型就“不懂装懂、似是而非”。
智能的内插与外推:超越模仿,迈向创新
在当下AI火热的社会氛围中,我们很容易混淆两个概念:“能干”与“智能”。大语言模型“遍访人类名师”学到的表象式能干,可能在很大程度上掩盖了其内核的并不那么智能。与其说一个AI很能干就是智能,倒不如说,只有当一个AI不能干、不知道该怎么干时,它所表现出来的解决问题的能力,才是真正的智能。
毋庸讳言,大语言模型通过模仿人类语言,确实能表现出某种创新能力,这像是统计学中的“内插”(interpolation)。如果将人类历史积累的既有知识比作一个巨大的几何“凸包”,大语言模型便是一位在这个闭环内登峰造极的舞者。它极其擅长在旧有的知识节点间搭建新的连线,比如将“莎士比亚的十四行诗”与“量子力学的波粒二象性”嫁接,生成一首惊艳的量子力学十四行诗。但这本质上只是旧元素的新排列,并未跨出人类经验的边界。
人类的创新智慧则是统计学中的“外推”(extrapolation)。无论是哥白尼针对地心说的破局,还是爱因斯坦折叠时空的曲率,都是不同历史时期人类智能跳出“凸包”,向着未知虚空勇敢的纵身一跃。这不是对历史数据的模仿,而是创造全新的范式。
试想将同一道题摆在两个人面前:对张三而言,这可能是道旧题或者一些不同旧题的新组合,他只需“不假思索地”从记忆库中“调用工具”就能完成任务;但对李四而言,这是一道从未见过的陌生难题,他必须苦思冥想才能找出解法,这才是“玩转智能”。目前的AI更像张三,是在已知数据的海洋里做完美的“内插式”拟合;而李四的模式是在没有数据可用的荒滩上做艰难的“外推式”探索。这种探索“未知”的能力才真正触及智能的核心。
目前机器模仿的对象,实际上是人类智能的产出物(即语言数据),而非智能的策源处(即人脑本身)。机器能极细致地复现人类已有的知识版图,却很可能还无法复刻产生知识的思维机制。模型把人类说过的话“学了个遍”,但并不等于它拥有了产生这些话的那种心智。AI能在现有地图上找到最优路径,但它还难以开疆拓土,画出新大陆的版图。
围棋世界冠军柯洁的两段视频让我印象深刻。一段视频中,他把围棋AI叫作“弟中之弟”,说AI“并不聪明”;另一段视频中,他又表示“就算AI让三子,自己也很难赢AI”。从“AI不过如此”到“根本赢不了AI”,世界冠军对待AI的这种“意难平”的矛盾心态非常有代表性。本文探讨AI的能干与不那么智能,目的也是提倡建立人与AI更和谐的共处关系:AI很能干,所以人类应该与AI共舞,熟练地驾驭这位“超级人类模仿者”,让它成为人脑记忆与效率的放大器;AI还不够智能,所以人类应更积极地探索智能到底是什么,应借助AI之力,在探寻智能原理的路上勇于创新。
《计算机器与智能》的结尾写道:“初见前路近可至,细思百事竞待忙(We can only see a short distance ahead, but we can see plenty there that needs to be done.)”。(引自尼克著《人工智能简史》)AI模仿智能虽然看上去“近在眼前”,但人类智能的门槛一直在“水涨船高”:当一项本来被认为是智能的能力被机器掌握后,人类一般就会把它从“智能”清单中剔除出去,把这项能力“贬低”为“只是计算而已”。毕竟,谁会觉得计算器有智能呢?今天的AI从模仿起步,未来终将实现创新。到那个时候,人类对自身智能原理的认识也必然会达到一个新的高度。
《社会科学报》总第1981期5版
如需转载,请注明出处!否则保留追究的权利


