中文与韩文数据集的创建、关联与分析——用MARKUS与COMPARATIVUS进行数字文本标注

MARKUS(“码库思”)是一个多语言数字文本标注和分析平台。这个平台使历史学家和……

作者: 魏希德 陈大龙(译) 胡静(校);转自:公众号 DH数字人文

概念与实践

魏希德 荷兰莱顿大学区域研究所

陈大龙(译) / 浙江大学国际联合学院

胡静(校) / 荷兰莱顿大学区域研究所

————————————

摘要:MARKUS(“码库思”)是一个多语言数字文本标注和分析平台。这个平台使历史学家和其他研究人员能够利用其获取的全文数字格式的原始资料来构建数据集。MARKUS最初是为处理20世纪以前的中文文本而设计的,现在已经发展成为一个多功能的标注平台,特别适合对现代中文、文言文和韩国汉文文本中的命名实体进行自动标注、参阅和可视化。此外,它的许多附加标注功能还可以用来分析和阅读任何语言的文本,只要电子文档是以统一的语言编码标准Unicode编码的。下面将讨论MARKUS和与其相关的文本比较工具COMPARATIVUS[1]的主要目标和方法特征,并通过一些运用MARKUS研究中国和朝鲜(韩国)历史的实例来进行说明。

关键词:MARKUS COMPARATIVUS 自动文本标注 关联数据 中韩 数据集

———————————— 
一、自动文本标注

为什么要对文本进行数字化标注?历史学家们对原始资料进行数字化标注出于各种不同的原因。对一些人来说,给文本做标记是可以灵活地将资料转化成数字版本的一种方式。这种情况下,其标记首先是与文本的结构特征(它的部分、章节等)相关的。对其他人来说,数字化标注相当于过去的读书笔记和卡片——运用这种手段可以收集、组织和检索与特定研究问题相关的重要主题和段落。而数字化标注的结构性和语义性方面也可以结合起来,如是便能够制作评注版本,其中的人物、地点、时间等都被编入索引,或者能够对标注的主题或段落的不同方面进行研究,而不影响原文的结构。在后一种情况下,标注也经常被汇总以进行定量分析,并生成新的数据。MARKUS主要是为语义标注和文本分析而设计的,我将运用实例来说明这一点。这些实例也将分别从标注对象(使用的文本或语料)以及方法(标注的类型和程序)两方面强调,明确的研究问题和清晰的计划对于数字文本标注的重要性。[2]

朱铭坚(Chu Mingkin)在对宋元时期文人官员的书信数字语料库进行标注的基础上,对他们的书信网络进行了分析。他使用MARKUS标注了所有的人名、官职和地名,并结构性地将全文以信件个体为单位进行划分[3]。基于对通信者之间关系(包括地理位置、官职、书信性质等)进行的综合分析,他从个人书信和集体信件选集收集到的看似平常的礼节性信笺中,拼凑出了通信者之间形成的政治联系。而徐源(Michael Stanley-Baker)则利用MARKUS的自动标记和关键词标记功能,从大量医学文本中收集了不同时期的药物使用情况,并绘制成地图。在MARKUS论坛上还有关于文学史、思想史、艺术史、基础设施史等其他领域案例的讨论[4]。在以上所有案例中,研究者都是首先定义了一组研究问题(例如,北宋、南宋以及金元时期,个人书信或书信选集中提到的某个书信人在社会中有什么重要性?某药物的使用方法在不同时期有哪些变化、在空间上如何传播?什么样的地方与什么样的小说亚文体有关?藏品是如何在不同的收藏者之间转移的?)。他们划定了一批相关的文献,其规模可大可小,从一个文本或文本中的一个部分到几个世纪以来产生的所有诗歌或散文,或整个佛教或道教典籍。他们还提前规划了需要标注的信息及其对应的标签,并系统性地设计了进行语义标记和结构标记的步骤。对任何研究者来说,这些最初的步骤可能无需赘述,但它们是保证任何数字研究项目的意义和可靠性的关键。尽管数字研究需要一些探索的空间,但学生们的标记行为往往是盲目的——他们认为不管最后呈现的结果是什么,总能说明一些问题。

文本标注也可以在普通的文本编辑器中完成,那么为什么要用MARKUS呢?对于其默认的名称标记,MARKUS使用了中国大陆、中国台湾、韩国以及佛教研究的权威学术数据集(图1)。后面我会再解释这样做的优势。此外,关键词标记模块提供了一系列的功能,可以输入关键词列表,可以产生“关键词索引”(KWIC, Key Word In Context)列表或对任何语言的文本进行标记的正则表达式,还可以从用户上传的任何文本中选择词语进行相似性测试,据此来检测相关关键词。对于大型文本语料库,批量标记功能可用于同时标记几十个或几百个文件中的名称、关键词或正则表达式,只要这些文件已在MARKUS文件管理中上传。而利用相关的文本比较工具COMPARATIVUS,读者可以检测两个或多个文本的重合情况,从表格或文本中选择有意义的重合段落,并将选定的段落作为标记发回到MARKUS中的相关文件。默认的比较设置已经针对中文文本进行了优化,但仍可进行修改。例如,进行定位和保存特定文本的引文时,默认情况下,由COMPARATIVUS发回的语料会被标记为标准标签类型(comparativus),但标签名称可以在MARKUS中编辑,以区分不同文本的引文。

总之,作为第一步,MARKUS可用于发现和标记单个文本或文本集里的一系列中文和韩文名称和关键词、正则表达式或任何语言的重合段落。

图1 在 MARKUS自动标记中可选择的数据集列表


二、关联数据

MARKUS中的标记过程,并不仅仅是从关联的学术数据集或用户定义的词语列表中寻找所上传文本的匹配选项。MARKUS环境的一个尤为重要的特点是,默认标签与权威数据库指定的唯一识别符(unique identifiers)或编号(ID)相关联,或可以与之相关联。一个标签是由标签内容(文本中的一串字符)、标签类型(如人物、地点、时间、植物名称等)和编号(一个数字或其他类型的唯一标识符,用于指代标签内容指向的特定实体)组成的。例如,一个文本可能以多种方式提及历史人物魏徵:魏征(徵)、征(徵)、文贞(谥号)等等。由于这些不同名字收入了“中国历代人物传记资料库”(China Biographical Database,以下简称CBDB)[5]中,因此,MARKUS就会去标记所有提到这个人的实例,并给它们都添加上相应的CBDB编号(本例中为15610)。如此,不管每个实例中使用的特定措辞是什么,所有提到这个人的实例都可以被找到并导出。因此,使用MARKUS的标记功能用于整理文本中的标注信息或从文本中提取的任意数据,使其统一。这同样适用于地名、时间、书目信息等。有时,研究人员可能必须在多个可用的编号之间做出选择,因为同一个名字可能指的是数据库中不同的人,或者同一个人被包括在多个数据库中。如果感兴趣的人没有包括在链接的数据库中,研究人员还可以选择自行添加编号。

MARKUS自动标记产生的编号与外部数据库相连,这些数据库包含标签所指实体相关附加信息。例如,MARKUS将CBDB编号“15610”添加到有关“魏徵”或“徵”的标记中,用户就可以(在右侧窗格中)直接查阅有关魏徵的下列信息:生年与卒年、居住地、工作地或祖居地、所担任的官职、家庭关系、其他社会关系、所撰写或编纂的文本,以及其他数据库中的参考资料、有关魏徵传记的原始资料以及出版物。这些信息的一部分可以直接从MARKUS文件管理中的VISUS界面导出到Palladio和PLATIN平台[6]。这个参考功能同样适用于地名,用户可以通过从右侧窗格显示的历史地名中选择适当的地点来生成一个编号。该编号与其他相关数据库(如TGAZ和法鼓“地名规范资料库”等权威地名数据库)中的经纬度及其他地理信息相联系;[7]如此,用户使用在文本中标注的地名数据就可以在与MARKUS平台相关联的、或独立的GIS平台中绘制地图。


三、标注和关联数据的分析与可视化

标准数字标记语言的一大优势是,它们允许文本和其他内容以多种方式呈现或发布。与商业软件中专有的格式相比,这种灵活性也增强了标注文本的持久性。MARKUS使用标准标记语言,因此,所标记的文本和导出的数据在一系列文本分析与可视化平台、开放软件和商业软件使用标准数字标记语言具有灵活性。标注的文本可以导出为HTML、XML-TEI的标注采用和MARKUS格式,其COMPARATIVUS的数据则可以下载为多种表格格式(CSV、TSV、Excel、HTML)。

分析数字化标注文本中的数据时,有一些通常都要涉及的步骤,在MARKUS中我们对其进行了简化,并以多种格式存档:提取标记的数据、将标记的数据与外部的数据合并,对合并后的数据进行可视化和分析。MARKUS对这一流程进行了简化。我们将MARKUS开发成一个关联平台,其中大部分的标注和可视化操作可以自动进行。研究人员只要将MARKUS中保存的文件关联到Palladio和PLATIN等研究平台,就可以通过VISUS界面导入CBDB人物资料,并利用地图、社会网络图、表格、时间轴或饼状图,将这些信息与他们自己的数据一起进行研究。他们还可以导出所有的数据,在更专业的空间分析、网络分析或统计分析软件中进行分析。例如,在对12世纪政治家和文学家杨万里(1127—1206)书信的研究中,笔者将包含这些书信的MARKUS标注文件导出到Palladio平台,数百封信件呈现在一张空间网络地图上,并与可交互的时间轴和主题过滤器相联。这些都是基于用户在文件中创建的标签生成的,如收信人姓名、发信人和(或)收信人的地点、信件的类型、信件主题,以及用户自建的元数据(meatdata,如写信的时间等)[8]

Palladio和PLATIN对小型语料库和数据集的视觉化研究很有用,而最近MARKUS和由中国台湾大学开发的Docusky研究平台之间实现了数据交换,使得MARKUS用户能够将标注的文档批量导出至Docusky,以便在Docusky中进一步进行文本内容分析,或在相关的DocuGIS平台中绘制空间地图。Docusky可以导出XML格式文件,而这些文件又可以再转换为MARKUS文件[9]。Docusky还为MARKUS用户提供了一系列附加功能,这里只提及其中几个。首先,Docusky可以将大量的文件汇总成一个文本语料库,而多个文本语料库可以基于词频和标签使用频率相互比较。第二,Docusky提供与MARKUS关联的元数据服务。用户可以为MARKUS文件或MARKUS文件中的段落添加元数据,可以与标签一起用于语料库研究。此外,MARKUS标签还能被转换为元数据。例如,用户可以先在MARKUS中对卷或章节标题进行标注,然后将其导入Docusky,段落和章节标注将自动转化为元数据,如此便可按卷或章节来浏览文本或搜索结果。

第三,也是非常重要的一点,就是用MARKUS标记的Docusky语料库可以导出到DocuGIS,而在DocuGIS中所有的地名ID都会与相应的经纬度关联起来。DocuGIS是一个基础型的地理信息系统,其地图层可由MARKUS标签生成,并可与其他地形和行政区划图层一起使用。用户也可以将地名数据集从DocuGIS中导出,而导出的这些数据可以在其他更高级的地理信息系统中轻松读取[10]。关于其分析潜力,可通过一个先前的合作实验研究来说明。该项目根据地方志中保存的城墙铭文,用DocuGIS绘制地图并比较明朝三省的城墙建设情况,比如城墙的具体特征(建筑材料、防御工事类型、规模)、破损的原因以及参与修建的贡献者和劳动力,这些都可以在地形、行政区划、历史气象层或区域集群的图层中,进行跨时间研究。[11]MARKUS-DocuGIS环境一个特别的优势是,地图上的任何数据点都与原始文本保持着链接,这就使得读者可以交互性地读取、查阅、编辑和校正地理信息。

由此可见,MARKUS的设计契合了现有的研究流程,实现了读取、标记、分析和阐释的循环,并且我们还会继续为此做进一步研发。为了优化数字文本的发现和获取,即任何数字化标注项目的第一步,MARKUS现在也已与一些常用的开源文本库关联,如德龙(Donald Sturgeon)建立的“中国哲学电子书计划”[12]和维习安(Christian Wittern)建立的“漢籍リポジトリ”(Kanripo),这些资料库中的文本都可以直接导入MARKUS。而通过马克斯-普朗克科学史研究所和柏林德国国家图书馆开发的SHINE API,其资料库的文本也可以导出到MARKUS。


四、数据管理与个性化定制

MARKUS由人文学者和计算机专家共同设计,其设计理念基于开发灵活便捷的软件。我们邀请了诸多学者和学生,在研讨会上对MARKUS的流程和功能进行批判性评估,以提高对数字化文本标注、数字化阅读和数据分析相关理论和方法的认识,并为未来发展的重点和改进提出建议。在长期实践中,MARKUS逐步添加了一系列附加功能和定制选项,以确保其紧密贴合人文学术的兴趣和研究实践。

由于人文学科研究通常是一个在阅读、重读、诠释、修订以及再诠释等环节中重复的过程,因此,我们在MARKUS中设计了标注辅助功能,以允许广泛的编辑操作:校正文本、自定义标签和手动标记、批量删除与修改标签、重新设计自定义标签、添加评论,以及自定义要查询的在线词典与数据集。这些辅助功能需要登录免费的个人账号。MARKUS的机器学习模块还在实验阶段中,允许用户基于对一批已正确标注的文件进行机器学习的结果、并在新的文档中生成标记——在自动标记中,已被标注的文件可以被选为一组文件,从中自动生成标注的规则(正则表达式)。这可以用来检测特定文体的规律性:例如,在根据几十或几百个已标注的传记来标注某种传记文体(如墓志铭)时,我们可以预见亲属关系后面的词将会被自动标识为人名,这和默认的人名标记具有不同逻辑。

尽管如此,MARKUS正面临着新功能开发和对现有功能改进的诸多需求。而每一个需求的处理都需要一定时间,因为MARKUS的每一项开发都需要资金和跨学科团队的支持。最近,我们增加了期待已久的关系标记功能,允许研究人员建立和定义两个标签之间的关系。每个标签都可以将与其他标签的关系作为其属性,而对于每个关系,用户可以添加关系类型和元数据(比如有关该关系的一手和/或二手资料的参考信息)。有了这个功能以后,研究人员就能为网络分析生成更好的数据集:有关网络分析的数据,包括源节点、目标节点、关系类型和其他属性,可以从MARKUS中导出生成数据集。关系标记还可用于在多个不同MARKUS文件中的段落之间建立超链接。


结 语

MARKUS起源于笔者对宋代笔记研究方法的整理,即通过对笔记中的信息来源进行系统的数字化标注,以绘制交流网络中相关人物的时间分布、地理分布和社会分布。[13]这种方法又引起了诸多人文与社会科学学者对这种信息源分布图绘制的兴趣。2014年夏天初版上线迄今,尽管MARKUS只能在谷歌Chrome浏览器中运行,却已有14,680名独立用户使用过这一系统(数字截至2019年10月4日)。MARKUS网站包括一个论坛、简短的视频教程、错误报告和公告。其中有研究博客和使用提示(例如,如何重新设计自定义标签,何时使用批量标记或关键词标记而不是自动标记)。该网站的诸多说明材料都有三种语言、四种文字(英语、繁体中文、简体中文和韩文)可供使用。MARKUS作为一个开源工具,其原版本和COMPARATIVUS的代码都可以用于非商业目的的使用和修改。

———————————————————————————————————————————————————————————————————

Creating, Linking, and Analyzing Chinese and Korean Datasets: Digital Text Annotation in MARKUS and COMPARATIVUS

Hilde De Weerdt

Abstract: 

MARKUS, a multilingual digital text annotation and analysis platform, allows historians and other researchers to construct datasets from primary sources available to them in full-text digital format. Originally designed for those working with pre-twentieth- century Chinese texts, MARKUS has developed into a multifunctional annotation platform that is particularly suited for the automated annotation, referencing, and visualization of named entities in modern and literary Chinese and premodern Korean texts, but many of its additional annotation features can be used to analyze and read texts in any language, as long as the electronic documents are encoded in the most common standard for language encoding, Unicode. Below I discuss the main goals and methodological features of MARKUS and the allied text comparison utility COMPARATIVUS. I will illustrate these with some examples of how MARKUS has been used in Chinese and Korean historical research.

Keywords: MARKUS; COMPARATIVUS; Automated Annotation; Linking Datasets; Chinese and Korean Datasets

———————————————————————————————————————————————————————————————————

 编 辑  |  姜文涛


原文信息如下:

Hilde De Weerdt, “Creating, Linking, and Analyzing Chinese and Korean Datasets: Digital Text Annotation in MARKUS and COMPARATIVUS,” Journal of Chinese History, vol. 4, no. 2, 2020, pp.519- 527.

感谢本文作者魏希德教授授权本刊发表中文版。

MARKUS的资助方包括:

欧洲研究委员会(根据欧盟第七研发框架计划[FP7/2007-2013]、欧洲研究委员会资助协议[ERC grant agreement] n°283525资助,MARKUS初始开发由魏希德和何浩洋负责,而COMPARATIVUS的开发由魏希德、Gelein和何浩洋负责)http://chinese-empires.eu、美国国家人文基金会、英国JISC数据挖掘挑战赛(Digging into Data Challenge)(机器学习模块由苗圣法负责研发)http://did-acte.org/,还有莱顿大学亚洲现代性与传统资助项目(Asian Modernities and Traditions Large Grant, K-MARKUS的开发由魏希德、Gelein、何浩洋、胡静、金把路、金炫等负责)

www.universiteitleiden.nl/en/dossiers/asian-modernities-and-traditions/research–funding-opportunities#caname-critical-approaches-to-new-asian-media-ecologies

注释:

[1]关于COMPARATIVUS中使用的算法,参见:

Paul Vierthaler(李友仁), Mees Gelein“, A BLAST-based, Language-agnostic Text Reuse Algorithm with a MARKUS Implementation and Sequence Alignment Optimized for Large Chinese Corpora,” Journal of Cultural Analytics, March 18, 2019, DOI: 10.31235/osf.io/7xpqe。

[2]在这些例子中,从标注中提取的数据(以一系列不同的文件格式从MARKUS中导出或导入到其他工具和平台)只是附加功能。结构和语义标注也可以将历史档案进行拓展。例如,我和Gabe van Beijeren一起准备了《贞观政要》的数字版(The Essentials of Governance from the Reign of Constancy)及其全文翻译。与常规的印刷版甚至数字版相比,我们的数字版可以提供一种非常不同的阅读方式。读者可以观察到手稿和印刷版之间的细微差别、以各种方式重新排列文本,而且可以基于MARKUS的标注,按照时间顺序、话者或出现的人物来筛选段落。读者还可以访问链接的参考资料,以进一步查找任何相关词语的参考信息。更实用的是,标签也可以用于编辑。官职、地名、人名、书名或关键概念的列表都可以很容易地导出,以便于规范翻译或者创建索引。

Hilde De Weerdt, Gabe van Beijeren, Mees Gelein,“Reading The Essentials of Governance from the Reign of Constancy Revealed Digitally,”2020, https://chinese-empires. eu/zgzy.

[3]Chu Mingkin,“The Secret of Long Tenure: A Study of Zheng Gangzhong’s Letters to Qin Hui’s Associates,” T’oung Pao, vol. 102, nos. 1-3, 2016, pp. 121-160;朱铭坚:《金元之际的士人网络与讯息沟通——以〈中州启札〉内与吕逊的书信为中心》,《北大史学》2016年第20期。文本、数据和交互式阅读平台可在如下地址获取:

http://chinese-empires.eu/reference/publications/

[4]Michael Stanley-Baker, Hsu Ya-hwei, Margaret Wan, Xiong Hueilan, Chu Ping-tzu, Hilde De Weerdt等人的博客文章,见

https://dh.chinese-empires.eu/forum/category/8/research-blogs

[5]Lik Hang Tsui, Hongsu Wang,“Harvesting Big Biographical Data for Chinese History: The China Biographical Database (CBDB),”Journal of Chinese History, vol. 4, no. 2, 2020, pp. 505-511, DOI: 10.1017/ jch.2020.21.

[6]Humanities + Design Research Lab at Stanford University, Palladio, 2014, https://hdlab.stanford.edu/ palladio-app/; Max-Planck-Institute for the History of Science, PLATIN, http://skruse.github.io/PLATIN/.

[7]Huimin Bhiksu, Aming Tu, Marcus Bingenheimer, Jen-Jou Hung, et al., Buddhist Studies Authority Database Project, 2008, http://authority.dila.edu.tw/; Peter Bol, Lex Berman, et al., China Historical GIS, 2001, https://www.fas.harvard.edu/∼chgis.

[8]Hilde De Weerdt“, TheUsesofDigitalPhilologyinTang-SongHistory-Part2,”MARKUSForum:Research Blogs, January 14, 2017, 

https://dh.chinese-empires.eu/forum/topic/31/the-uses-of-digital-philology-in- tang-song-history-part-2.

[9]Tu Hsieh-Chang et al., Docusky, 

http://docusky.digital.ntu.edu.tw/.

[10]Peter Bol“, The Visualization and Analysis of Historical Space,” Journal of Chinese History, vol. 4, no. 2, 2020, pp. 511-519, DOI:10.1017/jch.2020.22.

[11]Hilde De Weerdt“, TheUsesofDigitalPhilologyinTang-SongHistory-Part1,”MARKUSForum:Research Blogs, January 14, 2017, 

https://dh.chinese-empires.eu/forum/topic/30/the-uses-of-digital-philology-in- tang-song-history-part-1.

[12]Donald Sturgeon“, Digitizing Premodern Text with the Chinese Text Project,” Journal of Chinese History, vol. 4, no. 2, 2020, pp. 486-498, DOI:10.1017/jch.2020.19.

[13]Hilde De Weerdt, Brent Ho, Information, Territory, and Networks: The Crisis and Maintenance of Empire in Song China, accompanying data and visualization site, 2015.

http://chinese-empires.eu/reference/ information-territory-and-networks/.

原刊《数字人文》2021年第3期,转载请联系授权。

en_GBEnglish