社会科学报

语音识别为司法鉴定提供助力

发布时间：2023-02-06 作者：南方科技大学人文科学中心孙顺

　　当一群人中有个熟人在叫我们名字的时候，当亲人给我们打电话的时候，当我们喜欢的歌星在唱歌的时候，我们不用看到他们的样子就知道是谁在说话，这就是语音的识别。当语音识别被运用到司法实践中，就成了语音的司法鉴定。

　　在司法实践中，语音学家可以应司法部门或原、被告的邀请，以专家证人的身份，对有关的语音现象或材料进行分析研究，从而做出语音学上的“司法鉴定”。司法语音学家不仅可以做说话人同一性的认定（即判定录音材料里的说话人与犯罪嫌疑人是否为同一人），还可以根据语言中的语音、社会语言、方言等特点对录音中不明身份的人做出人身状况分析，推断其性别、年龄、生活地域、文化水平、职业乃至身高、体态等情况，从而提供侦破线索。

　　语音用于司法鉴定的前提条件在于个人语音的稳定性及特殊性。一个人的语音在其成长的过程中会发生巨大的变化，尤其从儿童期到青年时期最为明显。但整体而言，一个人的语音有相当稳定的一面。从生理上看，在某个成长期内个人发音器官的变化是极其缓慢的，不会今天的声带说话声音粗，明天就变得完全不同。从发音习惯上来看，一个人形成的用词、停顿、情绪嗓音等语音特点都是长时间练习和使用的结果，会固化成自己行为本能的一部分。它们是相当稳定的，不易改变。与稳定性相关的是个人语音的特殊性，即个人语音中的区别化、个性化特征。由于生理条件、语言背景、教育背景等自然与社会因素的差异，每个人的语音都有个性化的特征。这种特征犹如指纹，每个人的指纹独一无二，每个人的声音也独一无二。实验表明，即便是同卵双胞胎，他们的语音也有所不同。

　　语音的个性化特征使得语音可以成为司法鉴定的材料，用于刑侦与断案。跟据判定过程中对录音材料使用方式的差异，我们可以将语音鉴定技术分成两大类：听觉语音学分析法与声学语音学分析法。

　　听觉语音学分析法需要依靠训练有素且具有丰富实践经验的语音学家。通过他们对录音的仔细听辨，从而掌握发音人在嗓音、共鸣特性、韵律特性、言语障碍、方言口音等方面的特性，获取有效的刑侦信息。1996年公安部受理了一起绑架杀人案，绑匪绑架了一个浙江商人的孩子，并在通话过程中留下了几段录音。起初，案件侦办非常不顺利。后来公安部找到中国社科院的几位方言专家协助破案。专家组反复听取录音，最终给出了一份详尽的分析报告，认为绑匪可能是河北石家庄往西邻近山西一带的人，身高175cm左右，身形偏瘦……公安机关根据这些线索成功将绑匪抓获。令人称奇的是，绑匪的出生地与体貌特征与专家组的报告如出一辙。

　　声学语音学分析法将语音看成一组数字信号，语音学家对这些数字信号进行建模，提取出可以反映个人特性的语音数据特征，比如基频、语音线性预测系数、语音美尔倒谱系数等，然后比对录音数据与犯罪嫌疑人的发音数据，计算其概率统计上的相似程度，从而完成鉴定。这种方法又被称为“声纹鉴定”。澳大利亚司法界就出现过这样的案例。2003年的平安夜，澳大利亚的摩根大通银行发生了一起电话诈骗案。诈骗者准确获悉了银行的一次转账活动，取得了银行雇员的信任，最终骗走了1亿5千万美元。在案件的审讯过程中，语音学家注意到诈骗犯在现场录音中说“对（yes）”与 “还行（not too bad）”这两个词时，音高模式有鲜明的个性化特征，并最终通过声学统计分析让罪犯现形。

　　语音司法鉴定由来已久。早在1660年，在英格兰的威廉·休利特被指控杀死国王查尔斯一世的案件的审判中，语音就被用来识别犯人。当然，受限于语音学的发展水平，那个时候只能依靠语音学家的听感做语音的听觉分析。上世纪三四十年代，语音的声学分析有了长足的进步，声学方法进入司法领域的条件也日趋成熟。1966年，美国出现了第一例声纹鉴定司法案例。1973年，中国科学院的声学所开始研究计算机语音识别。1989年我国通过的《中华人民共和国行政诉讼法》中首次以“视听材料”的司法术语肯定了语音材料的地位和作用。本世纪以来，我国的语音识别技术发展迅猛，多次在国际性的语音识别评测中获得好成绩，科研团队也逐步壮大，据公安部统计，至今约有100多个单位正在从事语音识别领域的研究。这些为我国科学语音司法鉴定体系的建立提供了保障。

　　由于语音证据有其取材方便、涉及当事人个人隐私信息较少、分析手段便捷等优点，语音司法鉴定案件必然会越来越多。因而，完善相关的取证程序、提升声纹分析的精准度对于当下的司法建设有重要的现实意义。

　　　　　　　　　　　　　《社会科学报》总第1839期4版

如需转载，请注明出处！否则保留追究的权利