回归人文:从人文计算到计算人文

发布时间:2021-09-13 作者:南京农业大学人文与社会计算研究中心教授 黄水清

  人文计算顺应了数字时代的到来,将信息与计算机技术引入传统的人文科学领域,拓展了人文科学的研究方法和范式。然而,人文计算也呈现出一定程度的泡沫化繁荣。人文科学的核心问题不在于量化的数据,而是要回答“是什么”和“为什么”。只有回归人文、深入人文科学的本质,人文计算或数字人文才可能有光明的前景。

 

  以罗伯特·布萨利用早期的计算机技术辅助编制托马斯·阿奎那著作索引为始点,数字人文或人文计算研究已走过了半个多世纪的历程。新世纪以来,数字人文或人文计算进入高速发展期,已历经约二十年。数字人文或人文计算这一横贯人文科学与自然科学的交叉领域,自诞生起便以自然科学与技术惯常使用的量化标尺去丈量人文的奥秘。诚如布萨所言,人文计算应始终以人类表达为对象,但由于不断涌现的新技术事实上成为发展的推动力,技术的华彩往往比人类表达更引人入胜。

 

  数字人文与人文计算,虽然都没有学界一致接受的定义,但指代基本一致,且在国内外文献中都有使用。总体来讲,数字人文使用频次更高,更具传播效应,但人文计算更能体现计算与人文科学的结合,更能体现计算与人文两者并重,更能体现计算为手段、人文才是目的。需要明确指出,虽然“人文计算”一词出现更早,但两者不存在包含与被包含、发展与进化的关系。在实际应用中,这两个词完全可以当作同义词看待。

 

  人文计算:人文学科响应数字时代 

 

  人文计算的成长与发展过程,反映了人文科学引进并融合计算方法与数据思维、响应数字时代的到来、拓展学科研究方法的愿望。

 

  人文计算为人文科学引入了新的思维模式。有别于人文科学传统的解释、理解、体验、感悟、分析与综合、具体与抽象、归纳与演绎等方法,人文计算为人文科学引入了数据思维、计算方法等新的思维模式,拓展了人文科学的思维模式,开阔了人文科学的视界与场景。

 

  人文计算为人文科学引入了新的研究范式。人文科学传统研究范式的论据、论点乃至结论可验证性差,很容易沦为只有观点没有证据的一家之言,所谓学术争鸣也常常因为没有共同的逻辑起点、没有数据支撑成为鸡同鸭讲的自说自话。人文计算将自然科学与技术的客观、理性、精确、系统、可验证、注重过程等特点引入人文科学的研究,使得过程可重复、数据可验证、方法可复用、结论可推广,形成区别于前人的新的研究范式。

 

  人文计算为人文科学搭建了更为广阔的平台。传统意义上的人文科学注重个体体验与感悟,在对象、问题、素材、主客体等方面都有很大的局限性,在人才培养方面则延续师傅带徒弟的作坊方式,视界与平台都受限。人文计算是学科交叉融合的产物,为人文科学带来了跨学科团队合作、协同研究的新模式,并将场景与主客体都推广到更大的范畴,既提升了人文科学教学与科研平台的规模,也扩大了人文科学应用与普及的视界与场景。

 

  人文计算弥补了人文科学缺乏数据支撑、可验证性差的缺点,但是人文计算既不是要取代人文科学,也不是要改造人文科学,甚至不是改造人文科学的传统研究方法,而仅仅是拓展人文科学的研究方法、研究范式,为人文科学提供传统方法之外的另一种选择。

 

  广义的人文计算以一切人文学科、人文载体为对象,如文学历史、电影游戏、典籍绘画、音乐舞蹈等。在以人文科学问题为研究目标、研究对象的探索模式下,不同的价值内涵、表达方式、交互逻辑相互激发,不断地拓展人文计算的研究领域和研究视野,同时,伴随着技术进步呈现出不同的发展阶段和典型场景。

 

  数据资源是人文计算研究的前提和基础,也是“数字人文”中“数字”一词的真正含义。近年来,数据资源建设呈现出来源媒介多样化、构建方法智能化、知识粒度精细化的趋势,相关资源愈加丰富,相关技术愈加成熟,资源类型日趋丰富,“人文”的边界不断得到拓宽。

 

  以统计方法实现文本等人文学科数据资源的量化分析,是人文计算另一个应用场景,也是人文计算中“计算”一词的内在要求。随着知识挖掘、数据分析方法的推陈出新,人文计算中的量化分析研究也呈现出鲜明的新意。这其中与文本内容相关的研究最为显著。另外,数据可视化越来越多地用于计量和关联分析的结果呈现。

 

  人文计算一定程度上的泡沫化繁荣 

 

  随着深度学习的迅猛发展,自然语言处理的多项技术得到突破,为更加精细深入的文本知识挖掘带来更成熟的解决方案,也为以文本为对象的人文计算增添了更丰富的研究领域。

 

  几十年来,特别是近二十年来,人文计算和数字人文的发展既有广受关注、高歌猛进的一面,也有缺乏人文学者的认同,呈现出泡沫化繁荣的另一面。

 

  首先,一些成果虽冠以人文计算或数字人文之名,但并未开展实质性研究,造成人文计算虚假繁荣的局面。由于人文计算与数字人文已俨然成为显学,在论文中套用“人文计算”或“数字人文”等相关概念蔚然成风,其中尤以“数字人文”为甚,但实质上对人文计算或数字人文并无贡献。

 

  其次,在众多的人文科学研究人员中,真正关注人文计算并从事相关研究的只是极少数。人文计算落脚在人文,相关研究应以人文学科为源动力。若缺席了人文科学与人文学者,人文计算或数字人文很难形成真正的交叉研究,其成果也不再是交叉研究的成果,这样的繁荣只会是昙花一现,对人文计算或数字人文的长远发展极为不利。

 

  最后,得到公认的真正有价值的人文计算成果并不多见。在众多的相关成果中,部分论文涉及数据库建设及较为空泛意义上的“大数据”,部分论文涉及特定算法的应用与改进,其余论文大多停留在介绍人文计算或数字人文的理念、国外的相关项目以及某个机构的具体工作等。与文学、历史、艺术等具体人文学科密切结合开展研究,并可作为行业典型案例的成果,在已发表的论文中非常少见。

 

  造成人文计算当前一定程度上的泡沫化与虚假繁荣的原因有三。

 

  首先,学科需要从不成熟逐步走向成熟、从不规范走向学科规范逐步完善,所有新兴学科的成长发展都要经历这样的过程。在这个过程中,一定程度的泡沫化非常正常。人文计算虽然已经有了几十年的历史,但早期的几项代表性工作其实是手工完成的,只有进入21世纪后的20年,人文计算才在技术上真正得到支撑,数字人文的概念也相应地被提出。因此,人文计算严格意义上只有最近20年才真正得到了快速发展,但仍然处于划定边界、构建体系的试错期,成熟与完善还有待时日。

 

  其次,人文计算本质上是一个基于数据的知识生产、知识发现和知识呈现过程,处于成熟期之前的人文计算,还没有建立起规范化的研究范式,现有研究绝大多数没有遵循相关规范,造成研究成果鱼龙混杂、泥沙俱下。在信息技术的应用几乎无处不在的今天,如果没有规范,很难把内容与人文科学相关又多多少少应用了信息技术的某项研究与人文计算加以区别。因此,人文计算急需定义、发展并完善属于自己的研究方法与研究规范。

 

  最后,当前的许多研究还没有真正认识到人文计算或数字人文的人文科学属性,没有着眼于解决传统人文科学方法不能解决或难以解决的人文科学问题。具体来说,选择课题时不考虑对人文科学的实际价值与意义,仅从现有数据、技术出发,有什么做什么、熟悉什么做什么、能实现什么做什么、能做到哪一步做到哪一步,在研究过程和结果的呈现中不重视人文学者的感受,迷恋更新更难的技术手段,使研究成为技术的展示与炫耀,无法取得人文学者的共鸣,最终沦落为研究者的自娱自乐。

 

  从人文计算到计算人文 

 

  人文计算抑或数字人文均试图在“计算”“数字”与“人文”之间搭建起互连互通的桥梁,用数量的标尺去丈量人文的世界,但交叉学科的背景掩盖不了其人文学科的实质。计算或数字使人文科学有了区别于传统的新视角,引入了更多客观证据,改变了传统人文科学重解释、理解、体验、感悟等单纯主观思辨与内省的方法,得到的结果也更直观、更易验证、更利于传播和普及。然而,仅有量化或客观是不够的,人文科学的核心问题不在于量化的数据,而是要回答“是什么”和“为什么”。没有人文的人文计算或数字人文是缺乏人性的,是没有前途的。换言之,只有回归人文、深入人文科学的本质,人文计算或数字人文才可能有光明的前景。

 

  在越来越多的数据资源自产生之日起便以数字形态存在的数字时代,再强调“数字”已无必要,因此,用“数字”一词来反映人文计算研究的现状及未来发展方向并不恰当。而动名词形式的“人文计算”也没有突出学科属性。学界亟待一种新的准确表述,以包容现有的资源领域、理论范畴和技术框架,并凝结成足以引领时代浪潮的概念范式。“计算人文”是一个更恰当的表述方式。

 

  “计算人文”以“计算”修饰“人文”,代表回归人文对象和人文问题,既强化了人文科学属性,又突出了“计算人文”已经不单单是工具、方法,而且是正在成长的新兴、交叉学科。此外,“计算人文”与“计算社会科学”等同类名词可以完全对举,在协调研究目标与研究方法之间的关系这个层面上也更恰当、更规范。

 

  计算人文强调了“计算”比“数字”重要、“人文”比“计算”重要。计算人文离不开数据资源,需要信息技术,但重点不是构建数据资源、展示信息技术。计算人文以资源和技术为基础来探索、研究问题。计算人文当然需要关注如何计算、怎么计算、计算技术是什么、计算结果是什么,更需要关注为什么计算、计算结果能够回答什么问题。在计算人文的框架下,能够形成一种从科研到科普再到文化自信和文化输出的人文学科研究新面貌,同时具备了学科体系、学术体系和话语体系建设的潜力,能为我国新时期人文学科发展乃至社会主义文化建设带来可期的发展助力。

 

        《社会科学报》总第1770期5版

  如需转载,请注明出处!否则保留追究的权利