数字汉学中的新型数据库建设与文史研究

在数字时代,以古代中国为主要研究对象的海外汉学开始引入了数据库、可视化等新兴技术与工具作为辅助研究的手段……

作者:林施望;转自:公众号 DH数字人文

​基础设施

林施望 / 浙江大学人文学院

————————————

摘要:在数字时代,以古代中国为主要研究对象的海外汉学开始引入了数据库、可视化等新兴技术与工具作为辅助研究的手段,因此被称为数字汉学(Digital Sinology)。文章从数据库的建设理论与实践、实际运用方法等方面介绍较为重要的建设项目,以及与这类数据库相关的研究,以期反映数字汉学的新特点,并为国内同类研究提供参考。

关键词:数字汉学 文史数据库 数字人文 大数据

————————————

计算机信息处理技术的飞速发展催生了诸多可被应用于人文学科学术研究的新方法、新技术与新工具,以古代中国为主要研究对象的海外汉学也开始引入了数据库、可视化等新兴手段作为研究的辅助,因此被称为数字汉学(Digital Sinology)。在国外,以计算机信息处理技术与传统人文学科研究相结合的“数字人文”已进行了大量的实践与理论总结,获得了学界的关注。海外汉学研究的再研究,不得不关注这一趋势。国内提到这类数字汉学研究项目的论文,已有徐永明《中国古典文学研究的几种可视化途径——以明代戏曲家汤显祖研究为例》[1]《从数字化时代到数据库化时代——从哈佛大学的三大人文数据库说起》[2]和李友仁《北美与西欧的数字人文中国研究状况论析》[3]等。本文在参考这些论文的基础上,以较为重要的建设、研究项目为例,主要从数据库的建设与运用、可视化分析工具的开发与应用等方面,简述数字汉学的新特点,为国内相关项目的建设与研究提供参考。

数字汉学中的新型文史数据库建设

本节主要分析的是使用新兴技术开发的、与中国古代文学研究相关的数据库项目,不包括中国古代文学研究领域内常用的古代典籍全文搜索数据库或图像数据库,对于后两类数据库,张三夕等在《汉语古籍电子文献知见录》一书中已进行了搜集与介绍。[4]

由哈佛大学前副教务长、东亚语言文明系教授包弼德(Peter K. Bol)指导建设的“中国历代人物传记资料库”(CBDB)与“中国历史地理信息系统”(CHGIS)是数字汉学领域最知名的项目,本节不对这两大数据库的基本情况与发展历程做介绍,而是试图结合相关说明文件分析CBDB作为数据库的特点、数据的来源与处理方式,并介绍与CBDB建立合作关系的其他数据库项目,以窥数字汉学新型数据建设之一斑。

“中国历代人物传记资料库”是由哈佛大学费正清中国研究中心、北京大学中国古代史研究中心、中国台湾“中央研究院”历史语言研究所共同主持的学术数据库。[5]与传统的全文搜索数据库不同的是,这一数据库将人物传记信息按照不同的“元数据”填入表中,又在“关系数据库系统”[6]技术基础之上,以人物代码(Person ID)、官名代码(Office ID)等实现人名、时间、地址、职官、入仕途径、著作、社会区分、亲属关系、社会关系、财产、事件之间的关联,由此,可以在进行人名查询之外,使用地名、官名、亲属关系、社会关系等信息查询,获得相关人物资料。[7]

从主要数据来源而言,CBDB一方面借助于通过人工录入或使用光学字符识别(Optical Character Recognition, OCR)技术识别“传记资料索引”一类著作中的内容,一方面又与已经建成的传记数据库合作实现数据的共享,以此扩充数据的数量。选择“传记资料索引”一类著作作为数据来源的原因在于:第一,这类著作已凝结着前人的研究成果,已对浩瀚的资料做过考辨、校定、梳理,如其中对同名人物的身份的解析;[8]第二,这样著作均具有较强的“格式化数据”特征,即按一定的规律排列传主的各项信息,因此具备了使用某些技术手段实现文本内容的自动识别的基础,进而大幅度提高了将传记数据导入数据库的效率。此外,CBDB也从正史列传、地方志列传、会要、实录,墓志铭、墓表以及文集里的祭文、序、记、书信中获得数据,并从中挖掘传主的社会关系,用以社会网络分析。

在通过录入或OCR技术实现文本的电子化之后,CBDB借助于“码库思”(Markus)平台与正则表达式(regular expressions)工具实现对文本内容的自动识别与提取。Markus的正式名称为“古籍半自动标记平台”,是一个在线文本标记工具,通过自动或手动标记,用户可以识别出文本中的人名、地名、年号及官名将等重要关键词,在识别完毕后又可以将结果导出,使用其他的工具进行进一步的分析处理。对于这一工具的具体使用方法的说明,可以参见《Docusky工具使用手册》中与Markus相关的章节。[9]正则表达式通过用事先定义好的一些特定字符及这些特定字符的组合,组成一个“规则字符串”,对文本内容进行提取和过滤。包弼德在2013年及2014年针对CBDB的介绍演讲中均以丁罕、丁明二人的小传为例,展示了正则表达式在提取特定信息上的作用。

图1 正则表达式在中文文本中提取特定信息的应用示例[10]

由图1可见,在由特定字符组成的规则“(元祐|元豐|…|紹興)[0-9]+年卒”中,圆括号内的内容为宋朝的年号,而方括号内的内容为具体的年份,使用这一规则就可以自动标记出传主的卒年。此外,CBDB项目组另外开发了软件CBDBRegexMachine,并撰写了相关的教程。[11]

CBDB也与麦吉尔大学“明清妇女著作”(Ming Qing Women’s Writings)数字化项目、苏黎世大学“中西文化交流:1245—2000”(China and the West: 1245-2000)数据库项目、京都大学人文科学研究所“唐代人物数据库”(Pers-DB Knowledge Base of Tang Persons)项目、中国台湾“中央研究院”历史语言研究所“明清档案人名权威数据库”项目等进行了合作,逐步实现了数据共享。[12]

麦吉尔大学“明清妇女著作”项目由该校专治中国古典诗词与明清妇女著作的教授方秀洁(Grace S. Fong)主持,该项目始于2003年,到目前为止已进入第三个阶段。在第一阶段(2003—2005年),项目组主要与哈佛燕京图书馆合作,将该馆所藏全部明清妇女著作(共94种)进行数字化,并于2005年上线明清妇女著作网站。最近的一次更新(2019年12月)向数据库增加了17部女性著作内容的扫描件,使该数据库所收录的明清女性著作数量达到了401部。目前该数据库中共有5,200名女性作家诗人和2,123名男性作家的信息。基于所收集数据的完整、对数据的全面整理与搜索方式的多样性,该数据库为从多方面研究女性文学和文化提供了便利。借助该数据库,研究者不仅能对历史上妇女的社会婚姻地位、族群、地理分布、社会网络进行定量分析,也能通过对收录其中的作品进行形式、风格、主题分析,还能通过某一首诗词在不同选集中的变化,研究选辑者的文学思想。[13]该数据库也制作了MS Access版本的单机离线数据库以供研究者下载。[14]

明清妇女著作数据库与CBDB已实现了数据的互通。CBDB在数据库内为来自明清妇女著作数据库的所有人物建立了永久人物编码(ID),而明清妇女著作数据库网络版也在搜索结果中建立了指向CBDB网络版的链接。

苏黎世大学“中西文化交流:1245—2000”数据库项目由该校资助,提供免费搜索服务,由该校原图书馆馆长安妮-玛丽·沃纳(Anne-Marie Werner)主持工作。据介绍,该数据库主要收集公元1245年至2000年这七百多间中西方在诸多文化领域交流的信息。数据来源涵盖英语文学与哲学、德语文学与哲学、法语文学与哲学、宗教与哲学、科学、艺术、语言学、期刊、社会科学、游记与外交报告、经贸、历史与政治、汉学、译者译著等多个方面。该数据库在简介页面中提供了按照纪年、参考文献、人名、地名、信息来源、不同研究方向等主题对数据库的内容进行罗列的PDF文件。[15]该网站提供的关于“中国文学”研究的PDF文件长达1,050页,主要关注现当代作家、作品及其与西方学界、学者的联系,而关于中国古代典籍的研究的信息,则被收入了哲学、历史等分类下,因此缺少对“中国古代文学研究”相关内容的系统整理。但无论如何,这些PDF文件都可作为目录,为进一步研究提供“按图索骥”式的帮助。从实际搜索结果来看,该数据库分别为人名、参考文献、事件设置了编码,因此在返回的搜索结果中,人名、参考文献、事件均单独罗列。而对事件的收录主要以全文照录为主,未对事件内容做进一步的分析,比如提取具体事件中的社会关系。

该数据库已与CBDB建立了合作,但由于数据在数据库中排列方式的不同,两大数据库之间似乎未实现CBDB与明清妇女著作数据库相似的数据共享。而且“中西文化交流”数据库中收录的资料还涉及多种欧洲语言文字,尚需大量人力财力将之译为中文或英文。但“中西文化交流”数据库无疑是了解和研究中西文化交流的利器,而与CBDB之间的合作,将会实现两大数据库之间从技术背景到数据格式的交流,使这一数据库的功能更为完善,更便于研究者的使用。

京都大学人文科学研究所“唐代人物数据库”[16]项目与该项目所属的“唐代知识项目”(Tang Knowledgebase Project)[17]及相关的“唐代研究资料”(Resources for Tang Studies)[18]网站现均已无法打开。从目前还能收集到的资料来看,截至2011年4月5日,“唐代人物数据库”中已收录了4,636位传主的生卒年(或大致年份)、别名、出生地、其他相关地、亲属关系、科举名次、官职、著作及相关数据源信息。这类数据均采集自现存的典籍,如《全唐诗》《全唐文》以及平冈武夫等人在1950年代、1960年代的研究成果、周祖譔等人于1992年出版的《中国文学家大辞典(唐五代卷)》,因此能被收录其中的均为较著名或留下文字材料的人物。该数据库提供了人名(包括字、号)搜索、地点搜索、时间搜索等功能。[19]因为目前已无法访问该数据库,故难以对其进行更详尽的介绍。

“明清档案人名权威数据库”由中国台湾地区“中研院”历史语言研究所与台北故宫博物院合作建设,用以辅助“内阁大库档案系统”。明清档案人名权威数据库共收录两大内容:一是传主的基本数据,包括姓名、生卒年、异名、籍贯、传略、出身、专长、著述、关联等字段。二是传主的履职经历,记录传主历任官职及任官时间。数据来源于多种明清档案、史料,又结合今人编撰的多种著作,因此具有较高的“权威性”。[20]该数据库提供“人名权威资料查询”与“职衔/任期查询”两种查询模式。“人名权威资料查询”共收录了31,481条信息,提供包括“姓名”“籍贯”在内的多种查询方式,在搜索结果中点击“详目显示”,即可显示上述与传主有关的各类信息,并提供传主关联人物的超链接。点击底部的“中国历代人物传记”超链接,即可直达该传主在CBDB中的信息,而CBDB对来自“人名权威数据库”的数据,也提供了直达该数据库的链接。“职衔/任期查询”收录了242,356条信息,提供“职衔”“年号”与各级任职地点查询,与“人名权威资料查询”相比,搜索结果相对简略。值得一提的是该数据库另外建设了“明清档案人名权威资料WEBGIS”系统用以可视化显示传主的地理分布等数据,可惜似乎未能正常工作。

汉学数位典藏资源导览”网站首页,https://sinology.ascdc.sinica.edu.tw

中国台湾地区近年来在使用新兴数字工具整理、开发中国文化典籍上,取得不小进展,建设开发了各种各样以中国古代文学、历史为对象的数据库和工具,具体信息可访问“汉学数位典藏资源导览”网站,[21]这类数据库、工具多数均免费开放使用,这将有助于汉学研究的发展。

以上以CBDB数据库为主线,主要介绍了海内外以全新的“数据库”方式、以“传主”为着眼点整理文史资料的数字汉学资料数据库的建设实践。在整理、解读文史资料的过程中,地理空间这一维度也是不可或缺的。包弼德教授主持的另一个项目,“中国历史地理信息系统”(CHGIS),即应这一需求而生。除此之外,类似的项目还有加利福尼亚大学美熹德分校的“宋代中国数字地名辞典”(The Digital Gazetteer of Song Dynasty China, DGSD)项目等。这类数据库具备与地理信息系统(Geographic Information System, GIS)相结合的基础,从而能够实现数据的地理空间可视化。

“中国历史地理信息系统”的目标是建立一套有历史地理文献记载开始(约公元前223年)到公元1911年中国历史地理逐年连续变化的、开放的基础地理信息数据库,为研究者提供GIS基础数据平台。[22]用户可从该项目的网站(https://www.fas.harvard.edu/~chgis/)获取矢量化历史地图,将其导入软件ArcGIS或者QGIS后,即可结合不同的点、线、面数据创建个人电子历史地图,并进行分析、编辑工作。具体的操作实践,可参见徐永明《中国古典文学研究的几种可视化途径——以明代戏曲家汤显祖研究为例》。此外,该数据库提供了地名检索功能,可以返回某地名的经纬度、历史沿革等数据。[23]对于CHGIS的数据来源、数据库结构与技术实现方式,国内学者已多有介绍,[24]而有关这一数据库的大体介绍可以参见哈佛大学China Historical GIS或复旦大学历史地理研究中心的相关网站。[25]

“宋代中国数字地名辞典”由加利福尼亚大学美熹德分校图书馆提供技术支持,并为该馆所拥有,在发展建设的过程中,也得到了该校研究生与学术研究委员会(UC Merced Graduate and Research Council)与人文艺术研究中心(UC Merced Center for Research in the Humanities and Arts)等机构的扶持。

该数据库最早的数据来源于知名汉学家霍普·赖特(Hope Wright)的著作《宋代中国地名索引》(An Alphabetical List of Geographical Names in Sung China),该书出版于1958年,1992年重刊于《宋元研究杂志》(Journal of Song- Yuan Studies)。《宋代中国地名索引》的资料则来源于《宋史·地理志》《太平寰宇记》《元丰九域志》等宋代地理著作。“宋代中国数字地名辞典”网站称该书为“以任何语言出版的、关于宋代地理的著作中最全面的一种”[26],而该数据库最早的开发目的是为汉学家鲁思·莫斯特(Ruth Mostern)的著作《分治:宋代(960—1276)国家权力的空间组织》(Dividing the Realm in Order to Govern: The Spatial Organization of State Power in Song Dynasty China, (960-1276CE))提供数据支持。该书旨在考察宋代如何通过频繁调整府县的政治结构以派遣文武官员应对地方权力的变迁。《宋代中国地名索引》所收录的4,009个不同级别的地名,以及对这类地点的建置、人口数量、设立与废止时间等信息的描述,是鲁思·莫斯特写作该书的基础。[27]

DGSD是一个关系型MySQL数据库,同时也是一个历史地理信息系统,在技术上借鉴了CHGIS。该数据库的网站对数据库的数据结构进行了大致的描述,[28]而使用这一数据库进行研究的例子可以参考鲁思·莫斯特与他人合作的学术论文《宋代中国领土政治》(“The politics of territory in Song Dynasty China, 960–1276 CE”)[29],《分治:宋代(960—1276)国家权力的空间组织》一书的附录也对使用这一数据库进行研究的方法进行了总结,并对后来者提出了建议。[30]该数据库免费开放,公众可以下载分别以shapefile格式(使用GIS软件打开)、SQL格式(使用数据库软件打开)与Access格式(使用MS Access打开)储存的数据。

“中国历史地理信息系统”与“宋代中国数字地名辞典”均旨在为中国文史研究提供地理信息数据基础,为相关研究提供较为准确的基础地图,使学者得以从地理空间角度考察文史现象,发现新问题,又使结合GIS技术实现文史现象的可视化成为可能,扩展了人类从空间角度考察历史的能力。

在线上地图发布平台建设领域,由哈佛大学地理分析中心(Center for Geographic Analysis, Harvard University)主办的Worldmap是其中先行者之一。该平台致力于弥补桌面版GIS无法协同合作、网页版GIS又不支持大型数据库的遗憾,力争为研究者提供可视化、可编辑、可发表的地理空间信息平台。目前,在该平台搜索关键词“China”,可返回184张与中国相关的电子地图,其中很多与中国文史研究直接相关。如包弼德发布的ChinaXmap系列地图,以不同的图层反映了从先秦直到清代各个不同时期诸多与空间相关的信息,例如不同的政权、朝代、少数民族的影响范围或势力范围,当时主要河流的走向以及长城的所在地点等等。[31]又如CHGIS地图,将“中国历史地理信息系统”中的数据在该平台上进行了可视化,点击不同的图层可以直观地了解政区的变化、黄河河道与京杭大运河河道的变化等。[32]China’s History in Maps电子地图则将不同历史时期的政区变化、人口数据和驿站等历史地点、明清进士录中的人员地理分布图等信息以不同的图层保存,通过将含有不同信息的图层之间的叠加,可以从地理分布的角度查看不同历史文化现象之间的影响。[33]此外,还有各类从地理空间角度反映中国人口、宗教、交通、城市、少数民族和语言、能源、环境、教育、气候、公共卫生、经济等诸多领域的电子地图,[34]本文在此不进行一一介绍。

在这类平台上,研究人员通过将与个人研究相关的地理数据上传为图层,即可与已有的图层相互叠加,形成电子地图。这类平台以可视化、数据多样性等特点,对学术研究具有重要意义。浙江大学社会科学研究院通过与哈佛大学地理分析中心共建的“学术地图发布平台”将这一理念引入国内。但这类平台仍需要使用者掌握一定的操作GIS软件与以特定的格式对数据进行整理的技能。学术地图发布平台采用了与Worldmap相似的系统架构,该平台负责人徐永明已在国内进行了多次针对“学术地图发布平台”的培训,这类培训对国内学者熟练使用学术地图发布平台与Worldmap地图发布平台,均具有重要的意义。

由以上对各类数据库、工具、平台的介绍可见,在汉学研究领域,这类具有研究基础性意义的建设、开发工作已逐步成为趋势。而与传统汉学研究的资料整理过程几乎全由汉学家独立完成不同,这类基础性工作普遍由大小不同的团队合作完成,其中不仅有文史研究专家,也有各类计算机专家,不仅有海外汉学家,也有中国的文史学者。凭借不同领域不同学者的共同努力,这类数据库、工具、平台以先进的技术与多样的数据,将在汉学研究领域和中国本土文史研究领域发挥更大的作用。

数字汉学古代文史研究实例

除上文已提及的汉学家鲁思·莫斯特借助“宋代中国数字地名辞典”数据库所进行的宋代地方权力结构变迁研究外,海外汉学界还有更多的借助数据库等技术从不同方面对中国文史现象、文化典籍进行解读的研究成果。本节择要介绍其中具有代表性的研究成果。

1.包弼德基于CBDB和CHGIS的宋代道学兴起研究

CBDB可以导出使用社会网络分析软件Pajek或Gephi生成可视化的社会网络关系图,也可以导出带有经纬度信息的地理信息数据,而CHGIS如上文所述,意在为文史研究提供统一的地理信息数据,也就是具有较高可信度的历史地图。在结合使用CBDB、CHGIS与社会网络分析(SNA)的基础上,包弼德对宋代道学兴起的原因、传播的方式进行了分析。

朱熹、张栻和吕祖谦是道学兴起的思想领袖,通过在CBDB查询三人的社会关系,并进行地理分布可视化展示,可以发现其社会关系人分布有明显的地理集聚现象,这意味着理解道学的传播必须考虑其空间特征。将从CBDB中导出的南宋进士地理分布数据可视化结果与上述三人的社会关系人地理分布进行叠加对比,发现有较高的重合。而三人在东南地区的联系人不是均匀分布的,将朱熹等三人的社会关系人分布与1077年府级、县级和市场城镇商业税配额在地图上进行叠加对比,又可以发现在商业税配额较高的地区往往伴随着朱熹等三人较少的社会关系。由此,包弼德认为道学更容易在重视教育的地区传播,而不容易在重视私人商业经济的地区传播,道学的传播更多依赖于农业经济下世家大族的支持。[35]

由上文对该研究成果的概述可见,包弼德在研究中主要使用了来自CBDB的社会关系数据、进士名录数据,借助GIS软件等工具将这类数据可视化后,对不同的可视化效果图进行叠加、对比分析,在此基础上又寻求相关的文史资料与前人研究结论,得出了较有说服力的结论。包弼德及哈佛大学CBDB团队成员在历次针对CBDB项目的介绍中均以此项目为案例,该成果在综合使用CBDB、CHGIS、SNA上,具有代表性。

2.谭凯(Nicolas Tackett)与《中古中国门阀大族的消亡》

谭凯,美国哥伦比亚大学历史学博士,先后在田纳西大学、斯坦福大学和加州大学伯克利分校任教。《中古中国门阀大族的消亡》以出土的唐代墓志铭为基础,在构建“唐五代人物传记与社会网络数据库”的基础上,不仅以传统的方式对墓志铭的内容进行解读,还制作了大量的图表。如9世纪墓志所见(分区域)大族身份频率表、中国不同地区墓志文本长度统计表、部分父子链成员的葬地、晚唐精英家族婚姻网等图表,分析了以唐代门阀大族为代表的中古中国门阀大族的大概人口数量、经济政治实力的变迁、父子关系与婚姻关系对士人政治前途的影响等内容,从定量分析的角度对传统的“唐宋变革论”提出了挑战。[36]通过访问谭凯的个人主页(https://history.berkeley.edu/nicolas-tackett)可以下载唐五代人物传记与社会网络数据库。

值得一提的是,谭凯在研究中也运用了CHGIS作为呈现研究个人、家族、人口分布等数据的基础,而由谭凯收集的部分传记资料,也已经被CBDB收录。

3.陈威(Jack W. Chen)等学者的“《世说新语》可视化”项目[37]

陈威等学者的“《世说新语》可视化”项目在中文古文领域进行文本可视化实验,他们使用柱状图、GIS地理信息图、Gephi网络关系图等形式对原书主题、人物以及包含的地理空间信息进行展示与分析。[38]在论文《〈世说新语〉可视化》(“The Shishuo xinyu as Data Visualization”)正式开始使用各种可视化手段分析《世说新语》之前,陈威等人首先介绍了数据可视化的历史以及《世说新语》的文本特点。在人工计算与词频统计对各章节记载的故事数量和涉及的人物定量分析后,陈威等人以涉及谢安的故事数量最多,而以谢安为《世说新语》的核心人物,而未涉及谢安的章节,则处于《世说新语》故事核心的外围。通过人物的活动时间划分为五个不同的时间段,并使用GIS将这些人物按籍贯进行可视化,论文得出了《世说新语》中仅关注少数的几个名门望族的结论,而且因为以不同时间段分别制作电子地图,因此也展现出了不同地区人物数量在近三百间的起落。之后又使用网络关系图对《世说新语》的人物之间的关系,以及人物关系在不同章节中的表现进行了分析。

与国内使用计算机文本挖掘技术与可视化技术研究古代文学典籍的做法不尽相同的是,这一研究项目并非为了单纯验证计算机各项技术在古典文本上能发挥的作用,也并非生硬地将社会网络分析等技术搬入古代文学研究领域,而是在使用技术手段进行分析时,始终围绕文本,着重从人文意义层面分析计算机运算结果,并且对计算机技术的实际效果进行了反思。

以上所介绍的三项研究实例,均涉及数据建设并在此基础上运用了各类计量分析、可视化分析方法,体现了使用计算机信息处理技术解答传统文史研究问题的新思路,在可复现、可验证这一点上,确实具有一定“科学性”,而且在新技术的协助下,实现了以往靠人力难以进行的大数据综合分析。

海外汉学研究领域已涌现了大量数字化项目与结合计算机信息处理技术产生的研究成果,本文择要对其中较为知名的成果进行介绍,并涉及一些国内相关项目。数据库等新方法的运用,在带来种种便利的同时,也出现了一些新的问题,对于此,国内外学者已多有论述,并提出了一些规避问题的方法。[39]

由上述的内容可见,虽然本文以“海外汉学”领域为限定介绍项目,但相关项目的建设实际上也有助于国内的文史研究发展。虽然国内学者参与了其中的多个项目,但提供先进理念与掌握话语权的,大多数依然是海外机构,因此有学者发出了“数据在国内,数据库在国外”的感叹。因此本文在介绍这类项目的特点、理念、使用方法之外,也对造成上述局面的技术背景进行了大体分析,以期为相关学者提供参考。

—————————————————————————————————————————————————————————————

The Construction of Database in the Field of Digital Sinology and New Literary and Historical Research Methodologies

Lin Shiwang

Abstract: Entering digital age, digital methods, such as database, quantitative analysis and visualization tool, have been utilized in the fields of Sinology. The “Digital Sinology” is defined by these practices. By introducing the construction and utility of databases and visualization tools from some important projects in the fields of sinology, this article aims at exploring the features of Digital Sinology, and benefiting similar projects within China.

Keywords: Digital Sinology; Literacy and Historical Database; Digital Humanities; Big Data

—————————————————————————————————————————————————————————————

编 辑  | 许可

注释:

[1]徐永明:《中国古典文学研究的几种可视化途径——以明代戏曲家汤显祖研究为例》,《浙江大学学报》(人文社会科学版)2018年第2期。

[2]徐永明:《数字化时代到数据库化时代——从哈佛大学的三大人文数据库说起》,2018年5月10日,http://www.cssn.cn/hqxx/201805/t20180510_4243871.shtml,2020年4月11日。

[3](荷兰)李友仁、宋迎春:《北美与西欧的数字人文中国研究状况论析》,《山东社会科学》2018年第7期。

[4]张三夕、毛建军:《汉语古籍电子文献知见录》,广州:世界图书出版广东有限公司,2015年。

[5]徐力恒:《唐代人物资料的数据化:中国历代人物传记资料库(CBDB)近年工作管窥》,《唐宋历史评论》(第三辑),北京:社会科学文献出版社,2017年,第20—21页。

[6]王珊、萨师煊:《数据库系统概论》(第五版),北京:高等教育出版社,2014年,第37—41页。

[7]《唐代人物资料的数据化:中国历代人物传记资料库(CBDB)近年工作管窥》,第21页。

[8]《唐代人物资料的数据化:中国历代人物传记资料库(CBDB)近年工作管窥》,第23—24页。

[9]方佩雯、胡其瑞:《MARKUS标记工具》,http://docusky.org.tw/DocuSky/data/DocuSky%E5%B7%A5%E5%85%B7%E4%BD%BF%E7%94%A8%E6%89%8B%E5%86%8A.pdf,2020年4月11日。

[10]Peter K. Bol,“Modeling Life Histories–from anecdote to data: General Introduction to CBDB 2013,”http://projects. iq.harvard.edu/files/cbdb/files/general_introdution_to_the_cbdb_project-fall_2013.ppt?m=1438184606, accessed April 11, 2020.

[11]“CBDBRegexMachine,”https://projects.iq.harvard.edu/chinesecbdb/cbdbregexmachine, accessed April 11, 2020.

[12]“CBDB 合作机构与计划”,https://projects.iq.harvard.edu/chinesecbdb/%E5%90%88%E4%BD%9C%E6% A9%9F%E6%A7%8B%E8%88%87%E8%A8%88%E7%95%AB,2020 年 4 月 11 日。

[13]Grace S. Fong“, Introduction to the Online Digital Archive of Ming-Qing Women’s Writings,”http://digital. library.mcgill.ca/mingqing/chinese/introduction.php, accessed April 11, 2020.

[14]“MQWW Microsoft Access file,”http://digital.library.mcgill.ca/mingqing/exports/MQWW2019.accdb, accessed April 11, 2020.

[15]“DB China and the West (1245-2000),”https://www.aoi.uzh.ch/de/sinologie/forschung/chinaundderwesten. html, accessed April 11, 2020.

[16]“Pers-DB Knowledge Base of Tang Persons,”http://tkb.zinbun.kyoto-u.ac.jp/pers-db/, accessed April 11, 2020.

[17]“Tang Knowledgebase Project,”http://tkb.zinbun.kyoto-u.ac.jp/index.html, accessed April 11, 2020.

[18]“Resources for Tang Studies,”http://tkb.mydns.jp:8899/exist/rest/db/new/new.html, accessed April 11, 2020.

[19]“Modeling Life Histories–from anecdote to data: General Introduction to CBDB 2013,”http://projects.iq.harvard. edu/files/cbdb/files/general_introdution_to_the_cbdb_project-fall_2013.ppt?m=1438184606http://tkb. zinbun.kyoto-u.ac.jp/index.html, accessed April 11, 2020.

[20]明清档案人名权威数据库建置说明,http://archive.ihp.sinica.edu.tw/ttsweb/html_name/build.php,2020年4月11日。

[21]“汉学数位典藏资源导览”,http://sinology.ascdc.sinica.edu.tw,2020年4月11日。

[22]周丙锋、周文业:《基于中国历史地理信息系统CHGIS的中国历史地理数字化应平台》,《中国地理信息系统协会第四次会员代表大会暨第十一届年会论文集》,2007年,第561—585页。

[23]“Search Placename,”https://sites.fas.harvard.edu/~chgis/search/http://tkb.zinbun.kyoto-u.ac.jp/index. html, accessed April 11, 2020.

[24]周丙锋、周文业:《基于中国历史地理信息系统CHGIS的中国历史地理数字化应平台》,第561—585页;满志敏:《走进数字化:中国历史地理信息系统的一些概念和方法》,《历史地理》(第18辑),上海:上海人民出版社,2002年,第12—22页。

[25]“China Historical GIS”,https://sites.fas.harvard.edu/~chgis/pages/intro/,2020年4月11日;CHGIS数据说明,http://yugong.fudan.edu.cn/views/chgis_data.php?list=Y&tpid=730,2020年4月11日。

[26]“The Digital Gazetteer of Song Dynasty China Overview,”http://songgis.ucmerced.eduhttp://tkb.zinbun. kyoto-u.ac.jp/index.html, accessed April 11, 2020.

[27]Ruth Mostern, Elijah Meeks,“Appendix: The Digital Gazetteer of Song China,”Dividing the Realm in Order to Govern: The Territorial State in Song China (960-1276 CE), Cambridge: Harvard University Asia Center, http://songgis.ucmercedlibrary.info/documentation/Appendix.pdf, accessed April 11, 2020.

[28]“The Digital Gazetteer of Song Dynasty China Data Structure,”http://songgis.ucmerced.edu/?page_id=94, accessed April 11, 2020.

[29]Elijah Meeks, Ruth Mostern,“The Politics of Territory in Song Dynasty China, 960–1276 CE,”Toward Spatial Humanities: Historical GIS and Statial History, eds. Ian N. Gregory and Alistair Geddes, Indiana: Indiana University Press, 2014, pp. 118-142.

[30]Ruth,“Appendix: The Digital Gazetteer of Song China,”http://songgis.ucmercedlibrary.info/ documentation/Appendix.pdf, accessed April 11, 2020.

[31]例见“ChinaXmap 8.0 Ming”,http://worldmap.harvard.edu/maps/7088,2020年4月11日。

[32]“CHGIS,”http://worldmap.harvard.edu/maps/chgis, accessed April 11, 2020.

[33]“China’s History in Maps,”http://worldmap.harvard.edu/maps/china-history, accessed April 11, 2020.

[34]徐永明:《中国古典文学研究的几种可视化途径——以明代戏曲家汤显祖研究为例》,《浙江大学学报》(人文社会科学版)2018年第2期。

[35]包弼德:《群体、地理与中国历史:基于CBDB和CHGIS》,《量化历史研究》2017年第C1期。

[36]谭凯:《中古中国门阀大族的消亡》,北京:社会科学文献出版社,2017年。

[37]Jack. W. Chen et al.“, The Shishuo xinyu as Data Visualization,”Early Medieval China, vol. 20, 2014, pp. 23-59; 李友仁、宋迎春:《北美与西欧的数字人文中国研究状况论析》,《山东社会科学》2018年第7期;胡悦融等:《数字人文背景下“远距离可视化阅读”探析》,《图书馆论坛》2017年第2期。

[38]Chen“, The Shishuo xinyu,”pp. 23-59; 胡悦融等:《数字人文背景下“远距离可视化阅读”探析》,《图书馆论坛》2017年第2期。

[39]朱万曙:《古代文学研究与“科学主义”》,《文学遗产》2014年第1期;左东岭:《中国古代文学研究转型期的技术化倾向及其缺失》,《文学遗产》2008年第1期;李剑鸣:《大数据时代的世界史研究》,《史学月刊》2018年第9期;E. Mokros,“Conference Note: Anxieties of Abundance: Sources and Methods for Qing Studies in the Digital Age,”Late Imperial China, vol. 39, no. 2, December 2017, pp. 153-156。

原刊《数字人文》2021年第1期,转载请联系授权。

en_GBEnglish