少数民族语言保护要守正创新

发布时间:2022-12-26 作者:中央民族大学中国少数民族语言资源保护研究中心 朱德康

  我国自实施“中国语言资源保护工程”以来,开展对汉语方言和少数民族语言资源的调查、保存、展示和开发利用,共完成1700多个点的田野调查,范围涵盖120余个语种及其主要方言。随着工业化、信息化进程的加快,世界范围内越来越多的语言受到社会、经济等因素的影响开始加快出现衰变、濒危甚至消亡的现象,语言保护迅速上升为社会各界普遍关注的问题。

 

  语言是人类最重要的交际工具和文化载体。随着工业化、信息化进程的加快,世界范围内越来越多的语言受到社会、经济等因素的影响开始加快出现衰变、濒危甚至消亡的现象,语言保护迅速上升为社会各界普遍关注的问题。中国是一个多民族、多语种、多文种的国家,科学保护和发展各民族语言文字不仅是党和国家关心的重大问题,也是学界一直热切关注的重大课题。21世纪信息技术的飞速发展,把人类带进了前所未有的数字时代,移动互联网、智能手机、物联网、网络社交等一系列新技术让数据规模迅速飙升,其中,仅语言数据就占据了数据总量的80%。面对新时代和新形势,如何正确认识和使用语言数据,促进少数民族语言更好更快地融入数字化领域,将成为少数民族语言保护的必然方向和有效途径。

 

  夯实研究型语言数据的基础作用  扎实的语言调查和语言描写研究,是少数民族语言保护工作有据可查、有理可循的基础。国内外多项语言保护的实践也证明,没有解决好语言本体问题,就无法实现语言保护的最终目标。中国少数民族语言资源库藏丰富、类型多样。自20世纪50年代的少数民族语言普查工作开始,半个多世纪以来,民族语言学界已经基本摸清了中国少数民族语言的分布、结构面貌和使用情况,涌现出一批以“中国少数民族语言简志丛书”“中国少数民族语言文字调查”“新发现语言丛书”“中国少数民族语言使用情况”“中国少数民族语言参考语法”“中国濒危语言志”“中国语言文化典藏”等为典型代表的高质量研究成果,为解决我国少数民族语言本体问题奠定了坚实基础。进入大数据时代,这些成果进一步分类整合成为包括语音数据、词汇数据、语法数据、文字数据、语言地域分布数据、语言使用人口数据、语言使用现状数据、语言能力数据等在内的研究型语言数据,并开始在语情普查、政策制定、语档记录、本体研究、属性标注、博物馆建设、资源开发等少数民族语言保护工作的多个环节中凸显其基础性的支撑作用。这些无不在提醒我们要充分重视研究型语言数据的优化汇聚和持续补充。

 

  筑牢多模态语言数据的堡垒作用  现代科学技术的发展让信息化手段在语言调查中得到广泛应用,由此产生的以音频、视频、图片和文本为主要内容的多模态语言数据也逐渐显示出在语言保护中不可替代的堡垒作用。以2015年教育部、国家语委在全国范围内启动的中国语言资源保护工程为例:启动之初,工程就规定了统一的技术规范,要求采用音像图文四位一体的方式开展语言资源的数据采集工作。截至2021年,语保工程完成了1712个调查点的数据采集,收集到123种语言和全国各地汉语方言的原始文件数据超过1000万条,其中音频数据超过560万条,视频数据超过500万条,总物理容量达100TB,一大批少数民族语言和濒危汉语方言得到科学系统的调查保护,建成了目前世界上最大规模的语言资源库和展示平台。这些海量的多模态语言数据在很大程度上保证了资源的真实性、可靠性和科学性,同时又赋予了其新的视听性、多样性和可持续性,绘就了中华优秀传统文化的绚烂底色。

 

  发挥数字化语言数据的驱动作用  中国境内语言种类众多,不同语言的数字化技术受制于诸多因素而发展不平衡。少数民族语言,特别是人口较少民族语言和濒危语言因为资源有限、技术落后等原因尚且没有真正走进数字化领域,或将再次面临数字濒危的威胁。语言数据的数字化是全过程的数字化,既包括基础的数据库扩容、属性标注、数据压缩,又包括以语言资源、训练算法、语言模型为支撑的自然语言处理等核心技术,还包括语言自动识别、信息提取、机器翻译等应用的输出。从长远看,语言数据的数字化影响语言的未来,关系到数字时代的语言多样性和语言保护。因此,如何有效发挥数字化语言数据的驱动作用,将成为促进少数民族语言保护工作高质量发展的关键所在。

 

  语言是民族文化的结晶,语言的多样性关涉到文化和生态的多样性。长久以来,语言保护问题一直受到人们的广泛关注并付诸了大量实践。进入新时代,广大语言文字工作者既要充分重视传统田野调查和语言描写研究,也要持续提升多模态贮存方式的稳定性和优越性,更要积极探索数字技术与语言数据新融合,用数字赋能少数民族语言保护,向世界贡献中国智慧和中国方案。

 

     《社会科学报》总第1834期4版

如需转载,请注明出处!否则保留追究的权利