数字人文忧思录

中国历代人物传记数据库(简称CBDB)是北京大学中国古代史研究中心、“中研院”史语所和哈佛大学……

作者:史睿;转自:公众号 DH数字人文

评论与批判

史 睿/北京大学中国古代史研究中心

中国历代人物传记数据库(简称CBDB)是北京大学中国古代史研究中心、“中研院”史语所和哈佛大学三家机构合作建设的。这个项目的发起是因为哈佛大学研究宋史的郝若贝教授有一组宋代人物传记索引的卡片,后来成为CBDB项目的基础数据。大约20年前这组数据制作成数据库,并以此为核心,扩展为中国历代人物传记数据库。此后所有历代人物传记资料的数据提取工作一直在北京大学中国古代史研究中心开展,已经持续十多年之久。从2017年开始,我们中国古代史研究中心得到教育部人文社会科学基地重大项目资金的支持,又做了很多顶端设计的工作。

有学者忧虑中国古籍的数据在国内,而古籍的数字人文成果多在国外。实际上中国在古籍的数据挖掘领域并不落后,只不过因为种种原因这一进程受到了重重阻碍。当1998年计算机学界开始注意数据挖掘的时候,我们就已经开始将这个思路应用于中国古籍的数据库开发。1999年我发表了《论中国古籍的数字化与人文学术研究》(《北京图书馆馆刊》1999年第2期),至今仍是这个领域引用和下载较多的一篇论文。此后我又发表了一系列有关古籍数据挖掘方案的论文,也在国家图书馆主导建设了若干重要的古籍知识库。最近比较热门的“知识图谱”,我们在2006年完成的“中国善本古籍目录导航”项目中就已经实现了,并将这种思路进行了理论总结,发表了论文,之后的古籍数据库项目也应用了这种数据挖掘模式。我们在这方面并不落后,关键是我们的项目和思路在国内某权威机构遭到技术专家的否定,他们不懂古籍的内容和学术研究的一般规律,对我们这些内容专家多方限制,导致古籍数据化工作走了很多弯路,浪费了宝贵的20年时间。这是目前讨论中国古籍数据化必须了解的一个背景。

以往的古籍数据处理应该以统计为主,但现在越来越多的共识认为这样的思路不够完善。人工智能研究最高奖“图灵奖”获奖者Judea Pearl指出,在今后人工智能发展的新阶段基于规则的方案将更为重要。实际上我在20年前发表的《论中国古籍的数字化与人文学术研究》一文中就提出了基于规则的整套中国古籍数据化解决方案,遗憾的是这个方案并没有引起学界的重视,也没有人把这个方案作为一种可能的途径来推进。2018年3月“中国历史研究的网络基础设施建设”研讨会和同年6月“北京大学第三届数字人文论坛”两次重要的会议上,我曾重提这个问题。2018年3月的那次研讨会,其实最早是在2017年1月我校中国古代史研究中心邓小南教授、社会学系渠敬东教授、哈佛大学包弼德教授,还有我参加的一次座谈会上确定下来的,我们都觉得中国历史研究非常迫切需要建设网络基础设施。这网络基础设施,也就是很多学者所说的规则和标准。这套规则和标准不是什么陌生的东西,20世纪30到50年代洪业教授主持编纂的古籍引得(Index,索引)就实现了以关键词为基础做索引式的词汇级的知识梳理,提供了丰富的知识重组可能性,它是人类知识管理的大变革。索引产生之前,人类所有的知识管理都是基于目录的,也就是树状结构的,而索引产生之后,知识管理的粒度可以细致到词汇级,而且可以将其组织成为神经网络式的知识管理体系。索引在中国已经有八百年以上的传统,现代索引的制作方法及其理论也有80年的历程,是非常成熟的。我认为优先将这一整套的知识管理体系移植到计算机信息处理领域,是最佳的选择,是唯一正确的道路。如果有了这样的一套规则和标准,我们就能保证人类五千年的知识不丢失。尤其是在媒体发展的重大转变期,保证知识不丢失。媒体是记录人类知识的载体。我们发现,在历史上所有媒体变动时期都发生了知识大量丢失的现象。比如说我们可以简单地看看《汉书·艺文志》记录的书籍在《隋书·经籍志》中还保存多少,《隋书·经籍志》记录的书籍到《宋史·艺文志》中还保存多少。我们发现从简帛到纸,从纸上的书写到纸上的印刷,所有载体变化和技术更新都带来了知识的重大损失。不仅中国是这样,法国新年鉴学派史学家费弗尔和马尔坦在《印刷书的诞生》中也讲道,15世纪欧洲活字印刷术产生以后书籍大量丢失。这种历史现象告诉我们必须要十分警醒,因为现在我们又面临一个知识载体转变的巨大鸿沟。在这样一个转变期如何保证人类既有的经验、知识、智慧平滑地转移到新载体上,我认为最重要就是这套标准——就是基于词汇级的知识管理体系,它以传统的索引为基本样式再扩展开来,包括各种目录、年表、职官图、历史地图,甚至包含范畴词典,组织成为一个无终点的知识网络,使计算机能够实现从简单专名的对应到非常复杂的概念语义的对应。这套系统和规则把知识管理起来,将旧媒体的知识转移到新媒体中来。如果做个比喻,这次变革将是一种维度的提高,其意义不可低估。

十多年前,程毅中先生就强调实现古籍数字化是国家战略,但是到今天为止还是没有引起国家层面的充分重视,令人遗憾。如果不从国家前景的角度着想,将来我们的传统文化是没有办法传承下去的。故宫博物院前院长单霁翔先生说,我们要把故宫完整地交给未来六百年的人。那么我们时下要想的是传统文化的经验、知识、智慧及核心价值怎么转移给未来一百年的人。这件事其实比把故宫传承下去还迫切,因为故宫是个实体,还是比较容易保存的,而在媒体技术转变的时代,非常依赖于媒体的文化信息则非常容易丢失。

我们在这个领域里应该有一系列的国家标准,首先是古籍数据库的准确率必须与印刷纸本书保持一致,也就是不得高于万分之三的差错率。目前我们古籍数据库的差错率是非常高的,市场对古籍数据库错误的容忍度也是非常高的。这势必导致纸本书时代的信息在媒体转移过程中大量损失。历史上的媒体转变初期,容错率极高,例如唐末印刷商在成都郊区出售的“雕版印制品”都是模模糊糊的,看不清字。是因为当时的雕版印刷技术还不成熟,很多问题都还没有解决。读书界信任新出现的雕版印刷书籍,这个过程不夸张地说至少经历了五百年。所以跨越媒体的知识迁移不能仅仅靠商业途径完成,这必然是属于国家战略的范畴,因为商业领域会首先选择具有较大市场的大众文化先行推进,而建立新的知识管理体系对于大众文化而言并非必须,所以这套体系会被无限期延后,很难提上研制的日程。所以如果要想建立起在新媒体上的知识的可靠性、安全性、有序性和标准化,我们不能等待商业机构的操作,与人类历史上此前的媒体转变期一样经历五百年再完成,而必须要有一个国家标准。宋代刊行最为重要的经史书籍的国家标准是什么?就是由饱学的馆阁之臣反复地校勘文本,由国子监来保证书籍印刷的质量,保证这个文本和知识是准确的,保证知识在从写本到刻本的过程中是平滑转移的。这部分官刻书籍的数量虽然很少,但它的文化权重值非常大。这些书籍在市场上可能只有1%的市值,但在文化上的权重值可能是99%,这不是能用市场价值来估量的。所以在投入上,如果只依靠商业操作,我们是没有办法完成具有文化安全意义的文本迁移和知识迁移的。在准确的文本基础上,再加上刚才所说的索引式知识管理体系,就能实现新媒体时代的文化安全和连续性。

CBDB项目已经在学术界有了很高的知名度,也已经成为数字人文研究最为重要的综合性信息基础设施之一。未来的宣传将不仅是讲解如何使用CDBD,而是如何建立CBDB的学术公信力,为此需要清理项目中数据的采录及其原则与程序,对于数据如何管理,如何分析,如何取得真实可信的数据分析结果,如何保证结果数据集的有序,如何降低结果数据集的冗余率等方面的原则和方案做精细的研究。面向学术界期待,我们需将数据分析结果与传统方法做对比,比较二者在查全查准率(可信度)和分析效率上的不同。最为重要的一项前期研究,应该是哈佛燕京学社引得编纂工作和CBDB工作的比较研究,从而实现传统与现代的对接,完善各种信息基础设施的建设,并指导今后的项目实施和管理。为了保证数字人文成果在学术文化界取得权威性,必须继承既有的知识管理方案,而且应该将所用的知识图谱标准和运算、推理过程向用户公开,让用户可以像使用传统文献一样覆按数字人文系统的文献来源,重复运算、推理的过程。数字人文系统要得到学者的信任,有时候可能要退回一步,利用传统媒体和习见的方式来揭示自己的科学性。

另一个重要领域是学术研究中如何使用数据分析结果,如何避免假数据和假分析,如何将电脑分析与人脑分析结合,实现互补,如何评价数字分析结果的引用(尤其是与传统学术评介体系的对接)。我们现在就要考虑建立起完善的引用和评价办法,并进一步使之成为学术界共同遵循的学术规则。目前使用假数据,进行假分析甚至反智分析的学术成果已经不断出现,这种用数据分析来掩饰学术无能的现象实为“学术之癌”,可能在未来50年干扰学术研究,值得警惕。

推动数字人文研究的基础建设,需要总结过去20年的经验和教训,制定未来30至50年的目标。我们力争结合引入不同相关学科的优势,实现学科融合,以知识管理为核心的人文领域和技术领域两方面的人才优势皆不能偏废。为了保证数千年来人类积累的经验、知识、智慧在新旧媒体之间的平滑迁移,确定数字人文研究的正确方向,我们不可忽略人文学科既有的知识管理系统,并努力实现这个系统的数据化转化。我们建议发展以计算语言学为基础,以知识管理学为导向,以计算文献学为主干,以人文学科需求为目标的综合交叉学科。这是我们学术界应当承当的责任。

编 辑  | 许可

注释:

本文系教育部重大项目“中国历代人物传记资料库的改进与应用”(16JJD770005)阶段性成果。

原刊《数字人文》2020年第2期,转载请联系授权。

en_GBEnglish