您正在访问旧版存档页面。This is the old version archive of our site.
系列笔谈之三:历史地理信息系统的建设与发展
DH Research Center of Peking University
张晓虹(复旦大学历史地理研究中心):“中国历史地理信息平台”的建设与应用
我主要介绍一下我们现在正在做的“中国历史地理信息平台”的建设和使用情况,这个平台的建设是在复旦大学历史地理研究所和哈佛大学研发的“中国历史地理信息系统”(CHGIS)的研发过程中发展起来的,所以要先介绍一下该系统的研发过程。该项目组中方负责人是著名的历史地理学家葛剑雄老师,美方的项目负责人是哈佛大学著名汉学家包弼德先生。后来因为做行政工作,所以我参与到这个项目的管理过程中。这个项目大概在2016年结束,后续做的工作都属于“中国历史地理信息平台”的建设工作。
大概从三个方面来讲。第一个方面,是“中国历史地理信息系统”(CHGIS)的研发过程。应该说这个项目是最早把GIS引入历史地理研究的重大项目,甚至引发了历史地理学研究范式的转型,引领了中国历史地理学研究方向近20年的发展。第二个方面,简单介绍我们现在和云图信息技术有限公司正在合作研发的“中国历史地理信息平台”的建设情况。第三方面,介绍“历史地理数据平台”的应用。
首先谈“中国历史地理信息系统”的研发。中国有着非常悠久的书面文字记录的历史,这为我们做历史地理研究提供了一个最基本的保障。复旦大学中国历史地理研究所的前身是历史地理研究室,是基于谭其骧院士编纂《中国历史地图集》(以下简称“谭图”)项目而建立的。1987年《中国历史地图集》全部出版完成后,成为迄今为止国内外同类地图集质量最高、内容最详细、印制最精美的地图集之一。只要是对历史地理有兴趣,甚至是对历史有研究,就都知道《中国历史地图集》是一部案头必备工具书。中国古代一直有“左图右史”的传统,所以地图研究是非常重要的。但是,这本图集出版完成到目前已经30多年了,此外它同样存在传统纸质历史地图集一样的不足:其一就是标准年代的代表性。当然标准年代应用到历史地图集中,是谭图的发明。但是在使用过程中,它其实是有缺陷的,即对非标准年代的政区是难以表达的。另一个缺陷是使用者再加工的便利性不足。对其进行再加工有一定难度。最后一个缺陷是修订版的复杂性。经过这么多年,新的出土资料不断地涌现,历史政区研究也有很大进步,很多读者对谭图中出现的一些考订的错误,甚至一些系统性的问题,都提出了修订需求。但事实上,谭图修订带有非常大的复杂性。总体上来讲,这是纸质历史地图集的缺陷,任何一个纸质历史地图集都有这样的缺陷。
此外,信息化时代对历史地理学提出了新方向、新需求。这涉及的不只是地理学,因为地理学本来是研究空间的,人类信息中的绝大部分都和空间有关,跟地理位置有关,在历史上也是这样。正如前面我讲的,之所以要用“左图右史”,之所以去编纂《中国历史地图集》,大家知道其原因与毛泽东主席阅读历史文献有很大关系。那么纸质地图集存在的这种缺陷在目前信息技术发展的情况下能否改变?这是对历史地理学提出的新需求。
在信息化时代,GIS即地理信息系统,是表述空间问题的重要技术。GIS具备对地理数据进行采集、存储、管理、运算、分析等强大功能,是一门技术性非常强的学科。现在已经不使用“system”一词而用“science”取代。所以,把一个有强大数据时空间处理能力的技术应用到历史地理学中,严格说,为历史地理学面对信息化时代,面对传统的经典研究所不能解决的问题提供了实现途径。从下图1我们可以看出地理信息系统可以做哪些工作。
图1 GIS与历史地理学研究关系示意图
综上所述,正是学术发展的三大趋势:一是全球范围内的数字化趋势,二是技术发展的支撑,三是中国传统延续不断的文明,成就了“中国历史地理信息系统”项目的启动。从2000年开始,当时的复旦大学中国历史地理研究所所长葛剑雄教授就开始陆续和ECAI机构开展合作,召开了专门利用GIS进行历史地理研究的国际研讨会。随后开始与哈佛大学合作展开“中国历史地理信息系统”的研发工作,并确定中方的负责人是葛剑雄老师,美方的负责人是包弼德老师,当时主要资金来源是Henry Luce基金会的资助。因为历史地理信息或者历史地理的数据储存在前现代或前信息化时代的古籍中,那么怎样把这些古籍中具有的时空间信息落实下来,用现代的数据去处理?首先需要对历史记载进行考订。正好当时编谭图的老学者们基本上还可以工作,如团队编纂者有邹逸麟先生、王文楚先生、张修桂先生等。另外,还带动了一些年轻的学者,比如傅林祥老师、路伟东老师、孙涛老师和孟刚老师。他们作为主力的考订团队,成为“中国历史地理信息系统”最重要的学术支撑。除此之外,复旦大学中国历史地理研究所很多学生也参与到这个项目中,做一些数据的收集整理,甚至考订工作。当时还组成了编纂委员会和管理委员会。编纂委员会由包弼德先生、Crissman先生、葛剑雄先生、唐晓峰先生及著名的汉学家施坚雅先生组成。我是后来作为管理委员会成员参与到该项目中,最后在项目的完成过程中做了一点工作。
2001年项目启动后,先采用1820年的数据作为演示数据。在此过程中,澳大利亚格里菲斯大学的数据处理中心退出了,原因是他们发现在处理历史地理信息过程中的困难远较想象的大。所以,最后整个数据研发过程是当时的副所长满志敏教授主持的,他作为执行主编研发后续所有的数据格式、数据库结构。2002年项目组发布了CHGIS第一版数据,到2016年一共发布了六版。大家可能注意到我们所的中文版本主要用的是第四版数据。版权分配方面,复旦大学在中国大陆境内享有版权,哈佛大学则享有大陆以外的版权。最初CHGIS服务器设在哈佛大学,2016年以后,服务器迁移至复旦大学,中文版网址为http://yugong.fudan.edu.cn/。归属单位使用的是教育部人文社科重点研究基地复旦大学历史地理研究中心之名,中心实际上和复旦大学中国历史地理研究所是一体的。
2016年CHGIS项目全部完成,其中的主要工作内容,一个是时间序列的数据。之前提到,我们在做地图时,严格说无论是谭图还是“中国历史地理信息系统”基本上都属于普通地图;第二是专题数据,即1820年和1911年的专题数据,是叠加在DEM数字地形数据上的。那么,“中国历史地理信息系统”的价值和意义是什么呢?
第一个价值是形成了一套时空数据制作的技术标准。过去GIS主要应用于空间数据的储存与管理,在其上叠加时间维度遇到了相当的困难。“中国历史地理信息系统”的完成形成了一整套时空数据制作的技术标准,这一点是对历史地理学界的最大的贡献,反过来应该说也是对GIS的一个很重要的贡献。
第二个价值是引发了历史地理学研究范式的转型和研究精度的提高。大家做古籍数字化工作都知道,古籍的某些版本价值非常高,而对于有些底本不好的数据,我们过去在使用过程中也都非常小心。但是我们通过“中国历史地理信息系统”去处理各类历史文本中的数据,可以提取出大量信息进行相关性分析。此外,过去不能用的一些资料,包括图像资料、文献资料等,因为数据量太大而无法人工处理,现在利用技术手段都可以处理。因此,这就引起了历史地理学研究范式的转型和研究精度的提高,并引领了近20年中国历史地理学研究发展方向。
“中国历史地理信息系统”也有不足。第一点,数据在时间、空间两个维度上都不完整。1820年和1911年两个图层较为完整,而其他时间段的数据在考订过程中因为难度太高、资料不系统等原因其实没有完成。还有一部分边疆地区的政区复原没有完成。第二点,数据类型相对比较单一,也即专题数据量是比较少的。第三点,数据使用有门槛。大家登录我们的网站,会发现使用CHGIS需要掌握基本的GIS使用技能。第四点,我们的推广和应用工作相对来说做得不够好。
在这种情况下,2016年CBDB项目完成以后,我们力图使系统有一个升级,于是开始了第二阶段的工作——“中国历史地理信息平台”的建设。该平台的建设同样基于以前CHGIS系统以及复旦大学中国历史地理研究所以往的数据成果和平台。我们所自21世纪初期就做了大量的数据库建设工作,利用学校和教育部的经费在做专题研究的同时,积累了相当数量的历史地理专题数据库。比如明清驿站分布、历史水系变迁。这些数据库都有空间信息,可以落实到地图上。还有一些数据库,虽然没有具体的空间信息,但也可以整合到CHGIS上,为其他学者所用。其次,谭先生编纂《中国历史地图集》时积累了大量古旧地图,另外这些年做项目时我们到世界各地也搜集了许多电子地图。我们于2016年把这些古旧地图建设成一个古旧地图浏览平台,但因为国家地图管理条例,这个平台只能本所内部使用。但是我们认为它非常有价值,包括CHGIS的时空地名查询辞典平台也非常有价值。如何让一些没有CHGIS基础的历史研究或相关研究者使用,一直是摆在我们面前非常重要的问题(包括我们研究所的一些老师也不会使用CHGIS)。
与此同时,国内外的一些历史GIS平台也给我们很大启发。首先是和我们有合作关系的哈佛大学历史地理信息系统,它的很多资源目录有专门的中国部分;还有几乎和我们同时开始利用GIS建设历史地理数据的台湾“中研院”范毅军教授领衔建设的“中华文明时空框架”,它也是一个GIS的数据平台;另外是张萍教授团队研发的“丝绸之路历史地理信息开放平台”。在2016年华南师范大学召开的第二届历史地理信息研讨会上,张萍老师对“丝绸之路历史地理信息开放平台”做了介绍。之后我进行了详细了解,并和张萍老师沟通,明晰了专题历史地理信息平台建设的基本状况。而CHGIS严格说属于普通的历史地理信息平台。那么如何把我们已有的所有CHGIS专题数据库、古旧地图数据平台整合在一个更大的历史地理数据平台上呢?这成为我们主要考虑的问题。我同张萍老师沟通以后,就认识了张学宝老师,再与张学宝老师进一步沟通,希望我们也能够做一个对读者友好的数据平台。同时,我们对国内外的历史信息平台做了调查与总结,因为历史地理信息系统有一些不足之处,而通过借鉴国内外历史地理信息平台的建设经验能够在一定程度上加以弥补。
除了专业技术问题外,我们还考虑到数据平台的使用面问题。我认为当使用者更多地使用数据平台时,可以有效提升其行业影响力和社会效益。既然CHGIS已经带动了整个历史地理学的学科发展,我们相信这个平台建设仍然可以继续推动学术发展,尤其是帮助一些暂时不能够掌握GIS专业技术的学者也可以利用这个平台去做自己的研究,进行科研成果的发布。
在这种情况下,我们就设定了“中国历史地理信息平台”的建设目标:其一是历史地理数据的综合管理,其二是科研成果的发布,其三是促进学科交叉研究。因为要申请经费,我们去和学校谈——我们希望给凡是需要时间和空间信息数据的不同学科搭建一个平台,把信息、数据按照合适的时间和空间置入,一定程度上能够达到促进学科融合的目的。尤其在当今推动学科融合、推动新文科建设的背景下,应该说“中国历史地理信息平台”对学科的交叉、融合有非常大的推动力。
我们的思路首先是建起来。先建一个历史地理时空数据库,建立一套体系,同时建立一个科研发布平台。其次是管起来。把我们现有的所有数据用合理的方式管起来。当然最终目的是用起来。我们就这个思路不断地和西安云图信息技术有限公司沟通,最后达到了建设统一的服务门户的共识,将“时空框架”、“古旧地图库”、历史地名模型分析服务体系、用户地图和监控运维等内容都整合在一个平台上。特别是在张萍老师团队做的“丝绸之路信息平台”上用户自己可以制图,这点对我们启发非常大。现在社会上很多人对历史地理或者对历史有兴趣,他们希望根据自己的需求来做自己的地图,而不是仅仅依靠学者来做研究、制作地图。这点对整个平台建设来说非常重要。所以,我们平台专门设计了服务器的数据、用户数据和志愿者数据。
服务器数据是什么呢?就是我们说的矢量化的《中国历史地图集》。实际上我国台湾“中研院”的“中华文明时空框架”应用的就是矢量化的《中国历史地图集》数据。我们平台上主要的服务器数据是CHGIS的数据集,另外还有一些历史时期的河流的数据集。
在“中国历史地理信息平台”注册登入后,能够进入网站首页。其主要核心是“CHGIS”,另外两个核心部分是“资源中心”和“古旧地图”,还有“数据库”和“时空架构”。首先点击进入“CHGIS”,左侧显示很多控制选项,点击“模型分析”后会出现分析线段图标,在地图上划线后,就会出现地形剖面图形,可以分析地形特点。点击进入“古旧地图”,再点击进入“民国时期五万分之一分省地图集”,选择陕西省的褒城,就直接可以添加到“时空框架”里,还可以调整透明度,来看它的配准情况。当然,我们还可以测距。再看“时空框架”,根据资源目录,我们可以使用V6数据来呈现全国的地名。还有“数据库”,它包括“中国古代自然灾害数据库”“近代上海出版印刷数据库”“3000年来云南地区土地利用数据库集成”等,这些数据库无法定位,但其数据是有价值的。比如,“中国古代自然灾害数据库”包括了从秦汉到北宋的中国古代自然灾害文献信息,“近代上海出版印刷数据库”中的出版机构模块,其表格包含了编号、创办人、起始时间、起始类型、地址等信息,但是既然有这些出版机构的地址,为什么不能落实在地图上呢?因为当时的福州路271号跟现在的福州路271号可能并不是一个位置,所以这些地址都是需要考订的。最后,因为“资源中心”是有权限的,校外不能访问,就不再演示。
以上,我们看到了“中国历史地理信息平台”的整体架构,接下来就涉及其应用。我想从历史地理信息系统在历史地理研究中的应用谈起。为什么我们过去做历史政区地理研究时,基本都是以断代为主呢?因为数据量实在太大。所以,要想把千年尺度的政区演变过程逐年表现出来,一方面必须得结合史料进行考证,另一方面需结合CHGIS。
众所周知,我们研究所在历代政区地理研究方面力量是比较强的。但是在做断代政区地理时,首先需要制作一个政区沿革表,即用二维的表格来体现三维的时间和空间的变化,这是有难度的。但是CHGIS将这一问题解决了。它可以把近千年的政区变化过程动态地呈现出来。当然这个演变过程一定要基于科学而精准的历史地理考订。这种呈现方式,严格说,用传统的历史地理研究是无法实现的。而CHGIS不仅可以呈现长时段的政区变迁过程,而且还可以把谭图无法反映的政区逐年变化也表现出来,这无疑极大地推动了历史政区地理研究。
CHGIS在历史地理研究中,尤其在历史气候变化研究中有着重要作用。清光绪三年(1877),华北地区发生了非常严重的旱灾,这对华北地区,甚至对整个晚清社会都产生了非常重要的影响。2000年,满志敏教授尝试研究这次灾害背后的气候过程和驱动因素。通过传统方法,这项工作是比较难解决的,所以当时满志敏老师就尝试整理整个华北地区受灾村庄的数量,然后用krigring插值法,把其天气过程复原出来,并得出这次灾害由厄尔尼诺现象造成的结论。这篇文章是早期GIS在历史地理研究中最为经典的成果。
图2 CHGIS中的1820年图层
我们除了可以把传统的历史地理研究用CHGIS方法进行可视化表现外,其实GIS还有更强大的功能就是空间分析。空间分析包括在模型分析应用中,模型分析应用还包括剖面分析、属性分析、可视区域分析及条带剖面分析。利用属性分析,用户可以上传自己的CSV文件,进而呈现出一个图像空间分析结果。利用可视区域分析,可呈现特定地点的可视区域,尤其针对山区,这在交通与军事地理研究中具有较高价值。模型分析应用还包括缓冲区分析、热点图分析、遗址方向分布分析。这些分析工具应该说使“中国历史地理信息平台”较之前的“CHGIS”有明显的提高。另外,还有时态分析应用,可以展示不同年代的数据情况,直观地体现历史时期地理状况的变化过程。再看CHGIS的截面数据,比如,选择1820年的数据,可以反映这一时期政区、聚落和水系的基本状况(图2)。再比如,选择1820年的河流数据,其他的数据都不要,呈现的就是整个1820年河流的分布。类似的,我们还可以看到湖泊的分布,甚至1820年太湖地区县级政区和村镇的点状分布状况以及县界的状况。如果我们选择任意两个地点,还可以呈现两点之间的地形剖面图。我们在做历史地理研究时,尤其在不能实地考察时,利用这些分析工具,就能够通过地形变化等自然地理条件的特点展开自然环境对人文地理的影响等方面的研究。
最后还有一点,我们的平台建设还可以实现多方面共享,比如可以申请数据共享。从研发CHGIS之初,复旦大学中国历史地理研究所就秉持着数据共享的基本原则。包括古旧地图在内的一些数据,都是可以在学术界共享的,只要使用者提出申请就可以获得,但用途仅限于学术研究。还有论文成果的共享,包括一些数据成图等。目前的历史地图基本上都以谭图为标准。此外,还有大型专题数据标准制定和生产。目前,“中国历史地理信息平台”是基于CHGIS基础数据格式整合多种要素、不同专题的历史地理信息系统,是一个多要素、多专题的统一架构的数据平台。最终,我们希望实现历史地理、时空数据的统一储存管理、查询、分析和可视化,以及大众需要的一张图的综合使用。
目前,“中国历史地理信息平台”的用户数有7,000多。通过宣传可能使用者会更多,在一定程度上,使用者越多,平台价值也越高,所以我们希望更多的人来使用。“中国历史地理信息平台”自2021年于复旦大学召开的中国历史地理年会正式发布,在不到一年的时间里,平台累计访问量已超过30,000人次。
“中国历史地理信息平台”建设的学科意义主要分为几个方面。第一个方面,实现历史地理多源时空数据的综合管理和集成。如何将不同来源、不同特点的时空数据放在同一平台上进行管理、集成,并且覆盖不同时期,此种结构是我们在平台搭建中得到的一个启示。第二个方面,探索开放的数据共享机制。因为现在很多的数据库不开放,原因各种各样,我们希望能够通过开放使得数据可为学术界共享。基于学术共享机制,能够形成更强大的学术生产力——这是我们希望探索的学术共享机制。第三个方面,希望实现多学科交叉综合研究。因为很多时候,包括GIS的发展其实就基于不同学科的交叉综合研究成果,历史地理学也是一个交叉学科。在这个过程中,通过“中国历史地理信息平台”的建设与发布,一方面我们希望推动数字人文的发展,另一方面也希望推动更多的学科交叉与融合。尤其是当前在整个学科构架不断调整的过程中,面对大数据时代,如何为学科发展做出自己的贡献,也是我们需要考虑的重要问题。我们也希望通过这样的架构讲好中国故事,将绵延几千年的中华文明形成过程用可视化的方式呈现,将其丰富的文化内涵表达出来。
最后,提供给大家五篇参考文献。首先是前面所讲的满志敏教授发布在《复旦学报》的文章:1.满志敏:《光绪三年北方大旱的气候背景》,《复旦学报(社会科学版)》2000年第6期。这篇文章是最早利用GIS进行历史地理研究的经典之作。2.潘威、王哲、满志敏:《近20年来历史地理信息化的发展成就》,《中国历史地理论丛》2020年第5期。这篇文章是满志敏教授团队对近20年历史地理信息化发展的总结。3.赵耀龙、巢子豪:《历史GIS的研究现状和发展趋势》,《地球信息科学学报》2020年第5期。赵耀龙教授专门做GIS研究,但这两年也开始尝试进入到历史GIS的研究中,做了非常多有价值的工作。4.张萍:《丝绸之路历史地理信息系统建设的构想及其价值和意义》,《陕西师范大学学报(哲学社会科学版)》2016年第1期。张萍教授的“丝绸之路历史地理信息系统”建设相关成果当然不容忽视。5.党荧、李爽、姚艳霞、孙涛:《古旧地图专题平台的建设思路及实践》,《地理信息世界》2021年第6期。此文是孙涛、李爽老师团队关于古旧地图专题平台的介绍。
希望通过以上介绍,能使大家对“中国历史地理信息平台”有一定了解,也希望更多的学者,尤其是古籍使用者利用这个平台做一些非常漂亮的学术研究工作。
张 萍(首都师范大学历史学院):古旧地图数字化:文献转换与空间定位
我硕士毕业以后,在黄永年先生手下工作了六年。黄永年先生是古籍整理的大家。我非常喜欢古典文献这个专业和内容,所以也比较关注古籍文献如何数字化。我比较幸运,因为做HGIS平台比较早,那时国家对地图管理没有现在这么严,所以我们的“丝绸之路历史地理信息开放平台”申请了域名(www.srhgis.com),目前是开放平台,大家输入这个网址都能访问(平台首页如图1),查阅比较方便。
“丝绸之路历史地理信息开放平台”与张晓虹老师主持建设的“中国历史地理信息平台”不同,它是专题平台。我们当时设计专题平台,是围绕着历史地理研究的基本脉络,强调自然与人文相结合,所以选择数据和要素基本上按照这一思路。比如,一个关于水文的专题数据,怎么把水文数据可视化并在平台上展示?因为当时CHGIS的构建以政区为主,那么如何融合政区的数据,我们可以参考CHGIS的模版。但“丝绸之路历史地理信息系统”是个综合数据库,有很多专题性的数据没有一个可参考的标准。比如,这个水文数据是在我们不断地尝试中完成的,并且把它融入平台,也实现了它的平台展示和属性数据的管理。并且我们还做了丝绸之路沿线2000年间土地利用变化的数据,这些数据也是为了辅助人地关系研究,我们把它也融入平台。把数据融合之后,按省级来划分区域,重新整合到我们数据库中,是比较好用的。此外,去年平台入选了“百家数字出版精品项目献礼建党百年专栏”,项目里有一些涉及丝绸之路沿线的民族和宗教的数据内容,目前处于屏蔽状态。
图1 “丝绸之路历史地理信息开放平台”首页(局部)
做数据平台必然要涉及到古旧地图,对古旧地图进行数据提取,然后实现数字化,这一过程相对较为容易。所以我们在平台建设初期,就开始收集古旧地图。目前丝绸之路沿线的古旧地图是非常全的,但是非常遗憾,我们没有像复旦大学历史地理研究所那种长期积累的地图,因为地图版权的问题,没有办法把它发布出来。但是在收集的过程中,我们做了一些共享和合作,去年我们出版了《西北城市变迁古旧地图集粹》(西安地图出版社,2021年5月),这是由我主编,和国家图书馆、台湾“中研院”合作的西北地区的城市古旧地图集。因为西北地区相关地图出版特别少,所以这本书可以部分展示丝路沿线古旧地图的面貌。
我今天要讲的内容包括五个方面:一是古籍文献重要的组成部分——古旧地图的基本特征;二是地理信息系统如何实现古旧地图数字化;三是数字化和问题研究是什么关系;四是古旧地图数字化对于智慧古籍建设有什么帮助;五是未来古旧地图数字化的趋势和当前我们面临的一些问题。作为古籍文献最重要的一个组成部分,古旧地图有它自己的定义。古旧地图,一般分为两部分。一部分是古代的地图,即近代测绘技术没有引入之前绘制的古代的地图;近代以来的地图(1949年之前),我们一般把它称为“旧地图”。两者合起来,称为古旧地图。古旧地图是古籍文献的组成部分,在书籍如地方志中,我们都能看到古旧地图,它在测绘史、地图史、历史地理等各方向的研究中非常常见。然而,不同时期的古旧地图差别是比较大的。
地图大家王庸认为古代地图产生是非常早的事,比文字还早,因为它是以图像的形式来做阐释。比如左江花山的壮族岩画,是一幅狩猎图,画面中有方向、符号等——这是比较原始的地图。除了原始地图之外,我们今天在中国能见到的最早的地图,是发现于天水放马滩的木板地图和纸质地图,图2的纸质地图是战国时期的,它的发现把中国的造纸技术发明时期又往前提了好几百年。
图2 战国时期的纸质地图残片
古代地图的种类比较多,如地形图、驻军图、城邑图,等等。长沙马王堆的汉代帛书地图,已经是呈现较为完整、标准的地图了。除此之外,到宋代以后,石质地图较多,我们能看到比较早的如北宋元丰三年(1080)的《长安城图》,现在虽然已经破碎,但是残片藏在西安碑林博物馆。石质地图中最有名的就是西安碑林博物馆所藏的《禹迹图》和《华夷图》。此外,我们在敦煌石窟还发现一些敦煌壁画地图,比如《五台山图》可以说是中国山水画地图的滥觞,这幅壁画地图把河流、山脉、道路和五台山的走向都完整呈现出来,甚至带有一定的立体效果。中国古旧地图当中山水画形式的地图数量最大。山水地图之外还有平立面地图,平立面地图一般在城市地图中表现较多,平立面地图就是平面带有一定立体效果的地图。除了这些,带有一定比例尺的地图,例如计里画方地图,是测绘史上一次非常重要的革命。光绪时期设会典所,绘制会典舆图,会典舆图是实测地图和计里画方地图相结合的比较有特点的一种地图。近代以后,由于测绘技术引入,产生了一些实测地图。实测地图有比例尺、经纬度等,编绘者编绘地图的形式大体一致,这种地图对于我们数字化的帮助是非常大的。
古旧地图到底有多少?目前没有人统计,也很难统计,因为过去地图属于皇家秘藏,一般人是见不到的。20世纪五六十年代,一些大型的机构,比如复旦大学历史地理研究所要绘制《中国历史地图集》,国家才允许其利用并占有相关的地图。一般来说这种地图是秘不示人的,所以在过去我们很少有看到这种地图的机会。但是随着近些年计算机技术、数字化技术等的出现和发展,各个图书馆把这些地图进行扫描、电子化并对公众开放,大家才开始利用。所以,到底中国古旧地图有多少,其实目前没有准确的数量统计。但是根据估测,数量应该非常大,比如中国国家图书馆于1997年编的《舆图要录》,收录中文的古旧地图6,827种,注意是“种”不是“张”。一些大比例尺的地图一种可能有数十张或一百余张,所以古旧地图数量非常大。近年来中国国家图书馆还在收录古旧地图,1997年以后收得更多,所以还有一些没有编到《舆图要录》中。
国家基础地理信息中心收藏的近代地图是比较多的,现藏各种比例尺近代地形图大概六七万张。还有一些地图出版社,如中国地图出版社,因为主要出版地图,所以收藏的古旧地图也很多。他们建设的“中国地图出版社古旧地图平台”收录大概有四千多幅中国古旧地图。其他国外收藏的一些地图,如李孝聪老师编的《美国国会图书馆藏中文古地图叙录》(文物出版社,2004年)、《外国所绘近代中国城市地图总目提要》(中西书局,2021年)等,收录数量达上千幅。还有一些城市地图,如胡阿祥等编的《南京古旧地图集》(凤凰出版社,2018年)搜集整理比较全面,据他们的统计,仅南京地区大概就有300多种、1,500多幅古旧地图。一个城市区域的古旧地图就这么多,所以中国古代地图真的是一个“富矿”,但目前其实我们利用得并不多。
我国台湾地区也有很多古旧地图。“中华文明时空基础架构”里的地图也非常多,我们跟台湾“中研院”也有合作,基于他们收藏的地图进行数字化合作。他们的一些非常重要的航片现在也开放了,目前正在整理胶卷库,数量很大,因为工作人员非常少,所以特别希望能够合作开发这些内容。但是这些内容开发起来是比较难的,因为这种航片没有波段,所以要进行数字化,可能现在技术还不能支持。
现在我们进入了信息化时代,出现了数字地图,什么是数字地图?按照定义来讲,数字地图就是以数字形式来记录、存储和使用的地图。这种地图其实大家在生活中都能用到,比如我们手机里的“百度地图”(应用软件),或者你要打车,在“滴滴”(应用软件)里输入要去的地方,它就会告诉你距离,是不是堵车,等等。数字地图的好处就是地图以数字的形式存在,表面上看它是一个空间的地图,但它背后有一系列属性数据存储在数据库里,表面上看不到。为什么打车会显示路程、交通情况?是它背后的属性数据向用户提供的。所以数字地图不仅是一张图的呈现,它可以进行分析、研究,即对地图进行数量统计、可视化、区域分析等,这是它非常好的方面。数字地图出来后,就向纸质地图提出了一个疑问——能不能把纸质地图数字化?数字地图向上追溯,最早是和地理信息系统相关联的,而最早提出地理信息系统概念的是加拿大测量学家罗杰·汤姆林森(Roger Tomlinson),他在1963年首次使用这一术语,并于1967年构建了加拿大的地理信息系统(CGIS)。那么我们能不能把1967年以前的纸质地图转换成数字地图?只有把它转换成数字地图,才能和今天的数字地图进行衔接和分析,才能把可研究分析的时段向前推。
举一个例子,大家可能都非常熟悉中亚地区的咸海。咸海这几年变化特别大,从地球影像上,我们能一目了然地看出它各个时期的变化。为什么出现这种变化?因为哈萨克斯坦在上游建水库截流,导致下游水量减少,而且咸海处在高原地区,蒸发量特别大,截流之后导致水越来越少。咸海现在分为南咸海和北咸海,据科学家预测南咸海到2030年可能就在地球上消亡了。现存的咸海影像数据可以追溯到1977年,再往前基本上都是纸质地图。那么纸质地图可不可以数字化?ArcGIS软件给大家提供了方便,ArcGIS软件中有一个工具可以进行地图配准和地图数字化。但地图配准和数字化也存在一定问题,它不像文本的数字化这么容易——文本数字化可以进行OCR文字识别。当然OCR也有一个发展的过程,今天的OCR技术分辨率非常高,错误率也非常低。但是古旧地图数字化存在一个显著问题,因为地图是有数学基础的。地球是一个类似鸭梨型的椭球体,那么椭球体要把它展成平面才能画成地图,所以需要投影系统。目前地图测绘所使用的投影系统最主要的有圆锥投影、圆柱投影和方位投影,地图信息在同一投影系统下可以匹配成功,但是不在同一投影系统下是匹配不上去的,匹配上去它就变形了。但是自从GIS技术发明并应用之后大家就在琢磨着怎样把地图数字化。1980年代末,美国国家地理中心曾经召开以空间数据库精度为核心的专题研讨会,目的就是对GIS数据进行误差拟定。数字化地图经常会出现误差,而且某些误差太大就无法利用,所以针对纸质地图的数字化,他们将地图数字化误差大致总结为三个方面:一是数据源误差,即地图测绘本身质量就不好,导致数据质量不高;二是数字化过程中产生的误差,因为大家进行数字化的方法都不一样,虽然是同一种地图,但每个人尝试的方法可能都有差别,因此数字化过程中还会出现误差;三是应用误差,即把地图数字化之后,在应用过程中还产生误差。目前国际GIS研究机构都把GIS的精度分析和质量控制作为当代GIS研究的一个战略重点,所以古旧地图数字化还有很艰难的路要走。而且在古旧地图数字化之后,如何能够使之为我们所用?这是问题的关键所在。
古旧地图数字化涉及到古代的地图和近代的地图。古代的地图可能就更难一些,而近代地图虽然经过实测,但是测绘标准不一样,比如有些地图有比例尺没有经纬度,这样的近代地图在中国也很多。我给大家看的这个图,是我们做的1930年代陕西的一个一比十万地图的数字化成果。数字化之后,图片上的这些箭头,全部是它偏移的方位,我们能看到在陕南地区它向西、西北方向偏移特别严重;在陕北地区,它向东南方向偏移特别严重,所以这样的地图怎样去进行数字化,这也是我们探讨的一个问题。
那么古代的地图是不是就不能数字化了?当然不是,古代地图是可以数字化的。比如我给大家展示的这张地图,是民国时期陕西的黄陵县,黄陵县因传说黄帝葬于此地而得名,近几年每年清明节在黄帝陵还要举行祭祀大典。把其地图放在天地图影像上可以看出,在民国时期它的城区范围非常清晰,现在它的城区往西部进一步拓展了。大家肉眼都能看出这个城市的变化方向,也能清楚看出它的主体城市还是在民国时期的城市基础之上发展而来。所以要把这样小范围的地图进行数字化,还是比较容易的。
古旧地图数字化对我们的科研工作是有帮助的。其实我建“丝绸之路历史地理信息平台”是按照历史地理学的使用方向设计的,主要用于科研。古旧地图数字化可以帮助我们进行很多的研究,如张晓虹教授已经讲过的环境变迁研究,满志敏教授做的关于历史时期聚落、城市形态研究,我们则就丝绸之路在交通地理方面研究较多。所以,我们能利用古旧地图数字化解决非常多的问题,地图数字化还为我们研究地图学史和测绘史提供方便。在测绘史研究方面,清代有三大舆图:《康熙皇舆全览图》《雍正十排图》《乾隆十三排图》,目前研究的人很多。在民国时期大家认为《康熙皇舆全览图》采用三角测量法,1991年汪前进老师则认为使用桑逊投影,即正弦曲线等面积伪圆柱投影,当前学界基本上敲定了三大舆图使用桑逊投影。在《康熙皇舆全览图》中,西边只测量到河西走廊,再西的新疆没有测量,北边也没有测量。但是《雍正十排图》和《乾隆十三排图》对此进行了补充,它是怎么补进来的?我们团队就进行了相关的探究。我指导的研究生李振德考证了《雍正十排图》中俄罗斯地区的地图是怎么绘的,其中就涉及到地图投影。最后经过研究,得出结论:《雍正十排图》俄罗斯地区绘制所参考原图的投影类型应是三角形等面积投影。而拼接进来时并没有改变投影方式,这就造成图的两部分投影是不一致的,《乾隆十三排图》直接挪用《雍正十排图》的内容,形成拼接部分的投影与原图投影不一致的现象。在数字化的过程中,我们经常会遇到相关的问题。可以说,数字化对测绘史有很大的贡献。我们在做丝绸之路研究时,城市地图数字化的成果是比较多的——城市面比较小,做起来比较容易。数字化城图在我的平台上数量比较多,我们做了乾县的数字化城图、民国时期的天水城池图、武威的数字化城图、兰州的数字化城图,等等。兰州的数字化城图是一个典型成果,我们把从魏晋时期,到隋唐、宋代,一直到明清时期的兰州城池做了三维图。兰州是从明代才发展起来的城市,它是各民族交错的地方,清代时“汉三回七”,我们利用数字技术复原了它的城楼,兰州的城楼基本上采用了传统的汉民族营建模式,这对于我们研究民族交往和文化传播有很多帮助。除此之外,我们也把西安作为一个重点,并且做了它的数字化城图,基本上绘制完成了民国时期西安地区城市的交通路线等。由此可见,古旧地图数字化对智慧古籍建设的帮助非常大。
这些年数字人文的发展可说是突飞猛进。我最早接触OCR技术是陕西师范大学袁林教授做二十五史数据检索时,大概1990年代末他就已经在做数据库,当时的数字化文本都是人工使用电脑敲入,是非常艰难的,可以说这是第一代人在做文献的数字化,但是特别好用。之后在2010年,我到美国哈佛大学访学,跟随国际汉学家包弼德教授学习ArcGIS,他那时候正做CBDB项目,但是进展得很艰难,我也参与了一些工作,当时OCR技术识别繁体字正确率还很低,所以校对工作很繁琐。而今天OCR技术识别繁体汉字的正确率已经能达到96%—98%了,发展特别快。但是目前我们做地图数字化,在技术方面仍然有一定难度。
从最基础的查询到现在的结构化数据,再到智慧古籍,文献数据库发展特别快,这就更需要历史地理信息系统的帮助。那么,古旧地图数字化对于智慧古籍建设的帮助有哪些呢?我想应该有以下两个方面:一是地名定位,智慧古籍建成之后要把地名落实到地理上。我觉得南方地名更好落实,越往西北走地名复杂性就越大,比如“热海”。“热海”即吉尔吉斯斯坦境内的伊塞克湖,《大唐西域记》中记为“大清池”,唐代有人把它称为“热海”。为什么称为“热海”?因为虽然是高原湖泊,但是它含盐量太高,终年不冻,所以当玄奘走到这个地方时觉得很奇妙,认为它水里的鱼不能吃,吃了一定会毒死人,因为里面有妖寄居。在清代它属于清朝管理,《西域图志》记为“图斯库勒”,《乾隆十三排图》里写作“特穆尔图诺尔”,《西域水道记》《清实录》《大清一统志》等都有不同的记法,其实都是指今天的伊塞克湖。大家把古籍内容识别出来后肯定要面对各种地名,而且我们研究丝绸之路也在做地名数据库,所以希望把所有的不同地点的地名,按照经纬度统一起来以确认地点。做地名数据库,过去我们做点,现在还做线、做面,比如河流、道路等。丝绸之路沿线的国家,像伊尔汗国,可以以面数据的形式进行呈现。要进行定位的话,“丝绸之路历史地理信息开放平台”应该是较为准确的,因为我们都经过了扎实的考证,做了很多智慧化古籍的基础工作。
古旧地图在这方面帮助特别大,比如我们把民国二十二年(1933)测绘的一万分之一比例尺的《西京市区图》数字化了,我们选择了最好的方法,以精度最高提取其定位数据,落地之后它的平均误差基本上在88米左右。大家想一下,88米是在100米以内,一个聚落在地图上看是一个点,但落在地上它是一个面,100米之内一定是偏离不了这个聚落的,肯定能定位到聚落之中,所以地名就非常准确。这套图一共有991个聚落地名,今天还能找到的有758个,其他233个地名已经消亡了。我们通过数字化把消亡的地名落实到了今天的地图上,找出它原有的地址,并且位置一定是准确的。在文献资料里,我们常能看到一些古代的地名,像地方志里记载着县里有哪些镇,镇下有哪些村,但只告诉你村的名字,是找不到村在哪的。但是通过数字化,就可以直接落实到地图上了,所以这对于地名提取是非常有帮助的,至少在我们做的数字化《西京市区图》里,民国时期所有的聚落都能找到,而且非常精准。
越偏远的地方,地名越不好找。青海地区一比三十万的地图,一共73幅,我们把它拼接之后也进行了数字化,随后做了地名提取,得到聚落地名近1,300个。地图偏差是比较大的,玉树地区、西宁到格尔木的公路沿线地区偏差较小。聚落地名基本上落地没有问题,但一些偏远的地方、测不到的地方,落实到地面,误差还是比较大的。我们现在也结合地名考证,尽量把它都落实到地面。所以,我认为地名数据库的建设对智慧古籍的帮助是非常大的。
在文学研究领域,王兆鹏老师团队研究唐诗宋词时经常做一些行迹图,大家都知道杜甫的《石壕吏》写在石壕村,可是我们在地图上找到的石壕村其实并不是唐代的石壕村,唐代的石壕村距离它还有八公里呢,在现在的硖石村。所以很多东西一旦落实到小地名上,可能就会有很多问题。
古旧地图数字化对智慧古籍建设的帮助之二,是通过地图数字化之后,可以达到诸多地理要素的复原,这些地理要素都能辅助结构化数据开展研究与分析。以交通为例,我们把西北地区的邮政舆图全部落地之后,从陕西到新疆的邮政舆图都可以分级,邮政路线也可以全部落实。交通路线数字化对智慧古籍帮助是比较大的,例如行迹图,行迹路线可以形成三维定向,把它放在手机APP里,我们可以跟着它走——这是今天能实现的。玄奘的行迹图可以作成三维的,想要重走玄奘路,可以把它做成APP,就可以按照它走下去了。那么这有什么好处?我已经说过了,我们建平台是为了辅助科研。过去我们都是看交通路线示意图,今天把它落地了,我们可以统计交通路线所经区域的海拔高度、坡度,可以研究古人怎么走,看看古人怎么选择交通道路。比如汉唐以来,政府一直设驿站,驿路是不是最好走的路线?商人走不走这条路?战争的时候选择哪条路?我们进行研究之后,会有很多启示——各种路线的方便程度对于各类人群是不一样的。
比如丝绸之路,我们把最重要的唐代的这条穿越天山的路线和北宋以后的这条路线进行比较。统计海拔高度后,可以看到唐代这条路线跨越更多的高海拔地区,到宋代以后人们就不走这条路了。古人对于高海拔地区是比较敬畏的,但唐代受民族争战与边界分割的影响,玄奘走的是这条路,《新唐书》记载的是这条路,怛罗斯之战的军队走的还是这条路,这是唐代最主要的,但也是非常难走的一条路。相似的案例还有青海西宁河湟路一带,我们也做了一些分析,就不再详细展开。
古旧地图数字化的趋势和问题有如下四点:一是GIS技术的产生为纸质地图数字化提供了很大方便。二是就目前来讲智能技术发展还有一定的缺陷,因为古旧地图数字化,需要有数学基础,信息匹配也有一定难度,不管是地理学界还是历史地理学界,解决这些问题都存在一定的困难。有些地图的数字化操作比较难,我们期待有朝一日科技发展能够改变这一困境,像OCR技术一样,不断地发展、进步,越来越好用。三是古旧地图数字化的数量还非常有限,工作任务非常艰巨,要做的工作有很多。四是智慧古籍的发展从知识图谱、结构化数据,再到地理定位相结合,对未来数字人文的发展帮助应该是非常大的。我们历史地理领域建设GIS平台,将自然和人文结合起来,但是我们希望把“人”也引入其中,比如关注到内容中的人名、地名、人物等方面,希望在GIS平台中也有“人”在活动,这是我的一个期待。
张学宝(西安云图信息技术有限公司):“中国历史地理信息平台”构建的关键技术
“丝绸之路历史地理信息开放平台”从2016年开始构建,“中国历史地理信息平台”项目则是在2018年启动,迄今为止已有数年的储备和积累,目前我们在做二期的迭代工作。
我从技术角度大概分析一下如何去构建这样的一个平台。我的分享包括以下三个方面:首先是HGIS对古籍以及数字人文建设的意义,其次是“中国历史地理信息平台”的关键技术,最后简单介绍一下我们公司基于历史地理和HGIS技术构建的一些与历史地理和人文相关的应用案例。
HGIS为数字人文提供基础设施。近年来古籍整理和数字人文在很多方面有了长足的发展,从我们的角度来理解,大概有六个方面:文献来源、技术趋势、顶层设计、标准规范、时空特征和数据形态。
我们构建一个古籍或文学的数据库,首先要有文献来源。文献一般来源于传世文献,如古籍、方志、家谱等,此外是出土文献,出土文献一般以甲骨文、金文、墓志、石刻、印章、简牍等资料为基础,还有就是以考古资料为支撑的数据来源。
从技术发展角度看,近年来不管是古籍,还是数字史学,都是从电子化向数字化,以及到结构化、智能化发展的趋势。我们知道电子化算是第一代信息化方式,其实就是利用一些扫描技术,对我们传统的古籍进行高清拍照和数字化扫描,形成图形和图像的数据库。后来,类似王军老师团队做的数字化工作,则利用OCR技术来对图像、对古籍进行智能识别,包括繁体字识别。甚至有一些学者基于OCR,利用深度学习技术,对西夏文字进行识别。再上升到结构化阶段,结构化实际上是构建数据库的一个基础,比如构建一个数字人文数据库,我们需要对数据进行一个结构化的组织和整理。未来的发展方向就是智能化,即结合现在最新的人工智能技术构建以符合实体与属性关系的二维表格结构,让数据本身具备智能的特点。比如,人名本身体现出来的是一个实体,地名也是一个实体,智能化后它就不仅仅是一个词条的简单概念。人名和地名之间可有多重关系存在,如某人于某个时间居住在某地,或者在某地做了什么具体的事情。
由此,可能更多的还需要学术界在整个顶层设计上来做一些思考。因为现在各个学术机构都在构建自己的数据库,各个数据库构建的技术标准、体系和思路可能都有差异,而且实施上也有差异,那么如何实现这些数据库之间的互联互通?我觉得要考虑我们到底要通过哪些要素来进行数据之间的关联,这是一个基础。
在构建数据库时,如果了解了哪些基础数据是可以共享的,哪些标准是可以共享的,那么我们就可以减去重复发明轮子的工作。所以在这个过程中,标准非常关键,包括数据的标准、技术的标准以及共享的标准。我们构建一个平台,这个平台未来对学术界或公众提供数据,到底是以数据还是以服务的方式,这肯定都是需要我们考虑的。
HGIS相对数字史学或者数字人文,最重要的特点体现在时空特征上。时空特征本身是GIS或者HGIS一个固有的特征,可以从两个维度考虑,一是它的时间维度,二是它的空间维度。从空间维度出发,我们一般会关注地图的可视化的方式、时态的变化以及空间分析的能力,这是GIS给数字史学提供的一些益处,比如高德地图、百度地图的一些应用特点。
另外从数据形态角度看,实际上现在多是通过文本的描述或者特征的属性来组织大量数据。当然如果通过知识化来进行组织,我们就要去构建数据的本体,比如人名的本体、地名的本体,包括时间点,甚至一个时间段,我们都可以把它当作一个要素或者本体来进行构建。当然还有图形、图像、三维的模型以及音视频等其他不同的数据形态。
我觉得从整个数字人文基础设施的角度来看,构建一个系统要综合考虑这六个方面的问题。
HGIS对数字人文建设的意义,我大概总结了几点:第一点,HGIS可以提供时空的基础设施,在时间上和空间上提供基础框架,来给我们的要素提供如地名的定位及时间的标定的基础。第二点,HGIS对历史时期人文要素的支持,其实更多体现在它的GIS功能,比如数据的存储、管理和服务,为跨库检索、数据整合提供基准。当然就像“中国历史地理平台”一样,它还会提供一个基础的底图服务作为背景,如为国家构建的“数字城市”提供的天地图,包括影像图、卫星图、地形图等。第三点,历史GIS其实也需要提供历史时期的基础底图,来为历史时期人文要素提供空间定位基准。第四点,在此基础之上,历史地名服务其实是一个很关键的要素。对历史时期的研究,实际上更多是需要通过地名来进行验证和定位的,所以构建一个庞大的历史地名数据库对整个历史GIS的定位是非常关键的。除了管理能力、服务能力以及检索能力,更多的则在于第五点——可视化能力,以及第六点——空间分析能力。
以复旦大学“中国历史地理信息平台”为例,在左侧的资源目录里面提供了CHGIS连续的数据,比如府级点、县级点以及府级边界,在右下角的位置可以拖动时间轴对这些要素进行连续的时间的变化展示。当然在CHGIS里也提供了几个截面的数据,比如1911年和1820年的数据,这两个截面数据的要素要更加齐全,包括了湖泊、水系、交通等要素。这样的底图,可以成为我们历史研究的时空基础框架。打开“中国历史地理信息平台”,在它的底图里,我们可以看到有1820年的基础底图,可以当作一个灰色背景,学者可以登录平台上传数据,把自己的数据叠加在1820年的基础底图之上,来进行标注或者制图。当然未来可能会提供多个连续时期的标准底图。再以上海为例,目前平台也提供了1965年的美国锁眼卫星的数据。复旦大学团队其实也对上海地区历史的卫星影像进行了下载和拼接矫正处理,相关数据也发布在这个平台,我们可以通过放大和对比工具看到各个城市街道要素的变化。当然,现在我们也在做类似的研发,以西安为例,因为它的地图原始分辨率大概只有两米,我们利用一些AI技术和图像增强技术对锁眼卫星的历史地图进行增强显示,以期达到更高的分辨率。大家可以看到,这两者之间的差异还是很明显的。因为现在锁眼卫星基本上公布了全国的卫星数据,对城市历史地理的研究、乡村的研究,包括对历史时期的地名的考证、遗址的考证及古代墓葬的考察都是很有帮助的。
复旦大学“中国历史地理信息平台”提供了可视化功能,对不同的要素通过不同的符号来进行地图的可视化展示。比如我们对不同的村镇点或府级点要素进行的展示,用户也可以在平台上做自定义样式。平台也提供历史地名服务。历史地名是做地名考证时一个很重要的基础,打开地名搜索,可以搜索历史时期的地名,也可以对现代的地名进行检索,然后实现古今地名的对照和分析。平台还提供古旧地图服务。现在基本上建设了全国五万的地形图和两万五的地形图的数据,虽然没有全覆盖,这些数据现在也已经在平台发布了。以河南省为例,截取河南省开封市的一比五万地形图数据,放大这个点位时,大家可以看到民国时期测绘的地形图,在地图上进行了精确叠加。而且我们知道,五万地形图和两万五地形图的原始数据是分幅存储的,平台也进行了精细化的矫正,如对等高线以及相关河流、道路的精细化矫正。那么,这个数据实际上可以作为历史研究或城市历史地理研究的基础。
HGIS为史学计算提供空间分析能力。比如,HGIS可提供关于社交网络的分析,我们可以模拟在古代不同时期各个城市之间的贸易量,或是人员的流动数据,并进行展示。线条越粗,代表这两点之间的贸易量越大。还可以在地形上设定一个范围,比如路线、行迹,画了路线后可以分析它在空间上的地形坡度和地形高层的变化。HGIS还可以提供可视区域的分析,对一些边疆地区研究来说,可以以长城上的烽火台的点位为基础,去设定比如它周边五公里或十公里的范围,来展示它的可视区域,红色范围代表这个点位周边10公里内不可见,绿色范围代表的是以这个点位为基础周边能够看得见的地方。当然还可以提供一些空间分布的呈现,输入一些遗址的范围可以分析不同时代的遗址,比如唐代遗址或是汉代遗址在空间分布上的趋势以及方向变化,我们可以划定一条断面,分析这条断面高程的变化,并且在演示时地图上红色的点和剖面的点位是联动的。
对城市研究来说,HGIS可以提供三维复原能力。现在利用一些测绘的技术,比如三维扫描技术、近景摄影测量技术——利用无人机拍摄或者静态拍摄、融合建模技术等,来对古城进行3D重建。GIS不仅具有二维显示能力,它还提供三维显示的能力,我们可以把历史GIS从二维变成三维。
第二部分,重点探讨“中国历史地理信息平台”的关键技术。我们对“中国历史地理信息平台”构建要解决的技术问题进行了梳理。第一点就是它首先要对CHGIS数据、古旧地图(当然现在的古旧地图更多指的是旧地图,即大部分民国时期的有测绘基准的地图,而不是古地图)、历史地理专题这三大类要素实现数据的存储、管理和在线服务,为史学数字化提供历史时空基础框架。还要提供一些基础地图以及数据服务。我们把它叫做平台,因为它不是一个封闭的系统,还需提供API接口服务,比如平台里所有的民国时期地形图以及CHGIS数据都可以通过OGC标准的服务方式来进行调用。另外,我们还要提供一些在线的空间分析服务,允许用户上传数据,然后再利用平台本身提供的一些数据来进行融合分析。还要提供在线制图服务,大部分历史学者可能不太了解专业的技术,那么他们可以利用平台的制图能力,上传点位或线路,然后利用平台的符号化的能力,叠加已有数据,就可以实现在线制图,而且制图成果也可以进行分享,这是一个基础的要求。另外我们需要提供中国历史中连续和截面的政区的数据服务,这其实是对CHGIS数据的扩充,它需要提供一个时间轴,因为历史GIS和普通GIS相比最大的特点是它具有时态的能力,即时间轴的能力,所以提供时态分析能力是非常关键的要素。而且针对这些数据我们也要提供在线化API,所谓的在线API就是允许第三方平台和其他系统能够调用本平台的功能或服务。当然还要实现对历史地名的管理、更新、检索和调用,以便实现古今地名的对照。对于用户上传的数据中的地名,能够根据历史时期将其与地名库中的历史地名进行地址匹配,把二者的经纬度关联起来。用户也可以上传一些矢量的要素,比如自己绘制的点要素——区域的遗址点、古城遗址点等,通过野外考察采集的一些要素及个人收集的一些老地图等,也可以实现在线的上传、编辑、配准,对用户的数据实现在线管理。当然用户可以按照一定权限自行管理这些数据,也可以分享给其他的人,那么有权限的用户就可以基于其数据进行二次编辑。平台还有一个很重要的功能就是提供CHGIS数据任意范围裁剪、下载、打印输出等功能,我们现在提供的是一个中国的连续地理范围、连续时间段的全地图范围要素,更多的用户可能只需要一个范围、一个行政区划,比如西安府范围内的一些要素,那么用户可以在地图上设定裁剪范围,就可以下载指定范围内的要素,也能够打印、输出。当然,我们平台还要提供更多的空间分析功能。这是“中国历史地理信息平台”所解决的一些技术上的要素。
“中国历史地理信息平台”构建的总体思路(其实这也是复旦大学历史地理研究中心向我们提的要求)主要分为四个方面。首先,这是一个开放共享的平台,要易于扩展。我们现在可能只提供了一些基础的建设,比如“时空框架”“古旧地图”,未来可能还会再扩展更多的专题数据库或者更专业的分析功能,比如我们现在只提供了不到十个模型,未来我们可以结合历史地理研究的需求去扩展一些新的模型。第二,要支持泛在的访问。目前平台提供的是PC端的,即网页的访问,我们现在也正在构建一些面向终端的,比如电视或手机版的访问。同时也要支持数据的下载,而且这种下载是要有支持任意范围的。开放性还要体现在支持第三方、其他平台的调用,而不是一个封闭的数据库,那么就要支持国际化的标准的接口,允许有权限的用户对平台数据进行访问。服务的在线化体现在三个方面:一是数据服务,用户有权限下载原始数据;二是平台把数据变成了地图,即对数据做好了制图化,把数据转化为地图,并能调用到用户的系统里作为底图;三是平台自身也可以提供一些服务,如空间分析功能,其实都可以通过接口调用形式来把它集成到自己的系统里。这些服务都是通过接口的方式引入——有的是OGC标准的接口,有的是我们自研的符合REST标准的接口。第三,在协同方面,如地名、路线、边界线的考证等,都可以通过平台多人同时操作,因为系统里有协同标注的功能。比如,在考证点位的时候,实际上可以多人同时进行考证和标注,那么大家就可以共享这些信息。第四,平台要支持交叉研究。以我们现有的历史地理研究作为框架和基准,它可以结合历史自然地理、历史人文地理,并且未来在技术上,我们可以去融合三维建模技术、深度学习技术等,来扩充平台。
在平台的架构的实施方面,我们系统主要是用了以下技术体系:首先是基础设施层,另外是平台层、业务层以及展示层。在基础设施层里,我们要构建历史GIS,实际上用户首先关注的是数据到底存储在哪儿。目前,我们是以开源的PostGIS集群为基础作为空间数据引擎,通过PostGIS对点线面要素进行存储,它还提供一些空间的运算算子,如空间的叠加分析、缓冲分析,通过包装就可以把这些算子变成服务。为了增强系统的性能,我们也利用了如Redis集群等的内存缓存,促进加速访问。另外,平台利用了Elastic Search技术应对常规的全文检索,提高系统检索能力。我们也利用了消息机制,用户可以给他的协同用户发送消息、分享信息。在底层设计中,我们利用了如RocketMQ等一些开源的消息引擎来作为支撑。当然在底层GIS引擎中,我们目前也用了GDAL等技术,作为用户主动发布古旧地图的引擎。用户可以上传任何一个古旧地图到我们的后台,我们知道一般的古旧地图都比较大,如果几百兆或者上千兆的数据量在前端直接展示,实际上是非常卡的,所以我们后台利用了GDL的切片技术来对古旧地图进行自动切片,当然也用了一些如基于开源GeoTralis封装后的CloudMap支持对专题历史地理要素,特别是矢量要素的发布。我们也集成了一些分析功能,比如ArcGIS的空间分析功能,可以接入平台。
在平台构建上,整个系统现在采用了微服务架构来实现平台未来的任意扩展。我们把系统大概分了几个模块,如“古旧地图”“时空框架”“专题数据库”,通过一个个的微服务来对这些模块进行组装,并对用户管理和监控等公共组件进行调用。针对GIS,我们也封装了一些引擎,提供微服务机制,便于系统的弹性扩展以及未来的可扩展性。在整个技术栈方面,我们现在的运行环境可以托管在私有云环境上,目前部署采用Docker容器方式对平台来进行装载。数据库则利用PostGIS实现底层GIS数据存储,用Redis来实现内存缓存。我们现在正在构建地名库,准备采用Neo4j图数据库来实现地名府级节点及其子级结点之间的关联关系的管理。我们知道图数据库的强大之处在于树查询,所以我们用Neo4j代替原始的Access数据库。在此基础上,我们整个采用Spring Cloud机制来实现微服务的调用,前端采用的是VUE等,后端采用了GeoServer和CloudMap等多个开源的组合来实现系统运行。前端和后端是分离的,而且未来要实现的是前端也支持任意屏幕,既支持电脑端也支持手机端的访问,目的就是实现一套数据存储、一套微服务的标准,针对前端我们通过适配技术来实现不同的访问。这是我们构建的一些相关的关键技术。
第三部分“公司案例简介”就仅做简单的分享。我们公司给自己定的使命是“数字重建历史,用地图讲好中国故事”,当然我们更多是通过一些交互式的体验,构建好的数字地图,更好地讲解故事。目前我们主要的定位方向是做文化遗产相关项目的整体解决方案。我们也做了几个重大项目,如国家文物局文物科技资源共享平台试点项目。目前也与国内多所高校有合作,我们在历史地理领域和首都师范大学张萍老师团队构建了“丝绸之路历史地理信息开放平台”,该平台在2020年获得了国家级数字出版精品奖。我们与复旦大学合作开发、提供技术支持构建了“中国历史地理信息平台”,现在的注册用户数已经超过1万了。我们和西北大学正在合作构建“中国出土文献数据库”,目前主要以碑刻和简牍文献为基础来构建数据库。
我们自己也在构建古都数据库,比如西安古都数据库,我们把不同历史时期的锁眼卫星图进行了精确校准来构建一个基础框架。这是我们针对历史地理领域开发的“历史地理虚拟实验室”。目前,可以实现从二维转到三维,通过三维技术引擎可以对历史时期的要素,以及我们自己建的遗址模型进行管理。当然在三维的基础之上也可以实现一些分析功能,比如地形的剖面分析、三维的可视区分析等,这些都可以实现。三维的好处是更加直观,在做城市历史地理相关研究时,比如都城复原,隋唐长安城有108坊,如果能把这些坊结合历史地理和考古资料进行复原,那么利用三维的展示形式可能就更加直观。当然我们也做了一些结合,以历史地理为基础构建了一些人文的要素。以长安城为例,大概收集了400多个名人在里坊的宅第位置。如褚遂良住在哪个里坊?定位在哪个点位?我们结合相关的历史地理研究以及一些墓志资料,把点位落到地图上来。
这个地图(“初遇长安”)可以在微信小程序上搜索到,而且这个地图和高德地图是可以进行叠加的,比如你到西安来,当前在安仁坊,安仁坊周边有哪些名人之前在这里住过,他写的诗有什么,其中都有展示。我们也设计了几例角色,比如皇帝,他带你游长安,给你设定一条一日游的路线,向你讲解先去哪个点再去哪个点(图1)。
图1 “初遇长安”小程序示意图
图2 “文物考古一张图服务平台”首页
其实我们也构建了一些面向文物领域的系统,比如花费六年时间构建了整个西安市的数字“文物考古一张图”(图2),把整个西安市的文物资源,如考古的墓葬点、遗址、古建筑、石窟寺等要素全部叠加到这张图上,为城市遗产保护的研究提供基础。
最后附上几个参考资料,复旦大学的“中国历史地理信息平台”(http://timespace-china.fudan.edu.cn)、“丝绸之路历史地理信息开放平台”(www.srhgis.com)及前面提到的结合历史地图或卫星影像地图实现高清的图像修复技术(http://map.weixin.qq.com/s/J40V3ICGql5WK-QftKKVXQ)
王长松(北京大学城市与环境学院—历史地理研究所):人地关系的时空格局演变过程与影响因素
我是CHGIS的获益者,首先简短地介绍一下对CHGIS数据使用的感性认识,有三个研究案例。我个人认为在中国历史地理信息数据领域,它是最权威的数据库,投入了大量的时间和精力。我在读研究生的时候,也参加过这一项目,对北京和北方其他地区的行政建置历史信息进行整理。今天这三个案例使用的是第六版数据。我在清洗数据的时候,看到很多前辈学者的名讳,如邹逸麟老师、满志敏老师,他们对这项工作有非常重要的付出和一些美好的期盼,所以我在使用过程中也有一种缅怀的心情。
至于历史地理研究,就是我们所说的区域的问题,我就不做展开。尺度分为时间尺度和空间尺度。因为CHGIS有如此大的数据量,所以我敢做这个大空间尺度和长时间尺度的探索,在过程中也进行了几个时间剖面的分析。CHGIS时间数据强于面和点位的数据,也是一个基础数据。所以我觉得做数据库或者数据平台的人都是非常伟大的,他们有“前人栽树,后人乘凉”的功德。
在研究的过程当中,需要根据自己研究的问题进行清洗或者再编辑数据。相关数据还要进行一定的考证和补充,比如在长江流域,明显感觉西南地区的数据数量、质量稍微差一点,所以在研究过程中还应进行补充,总体来说,我们补充了100多个聚落点。
首先介绍一下黄河流域城市空间格局演变与影响因素。至于什么是流域,什么是历史的流域,这是历史地理的问题,这里不展开探讨。这篇文章在2021年的复旦历史地理国际学术会议上获得了“第五届谭其骧禹贡基金优秀青年历史地理论文二等奖”,给我们很大的鼓励,也发表在《自然资源学报》上。
我们进行数据清洗的对象,主要是认定为县级及以上行政等级的城市。时空分布特征分析不只看数量的分布情况,还叠加了其他的数据,比如气候数据。把历史气温数据叠加上去,观察城市数量在不同历史时期的波动,之后可以判断环境是决定还是影响城市数量增长。文章的结论在审稿过程中也得到了专家的肯定。一直到现在,有很多学者认为气温的波动影响人类活动,有时甚至是决定性影响。但是我们认为,它起码不是决定因素,而是一个影响因素。我们做了城市数量增加和减少展示,看到县级城市数量变化基本上是比较平稳的。
我们又做了一个空间分析。虽说跨度有2,600多年,但其实为了保证展示不同时间段城市发展变化的过程,选择了九个时间截面(即cross section),九个时间截面叠加起来就是垂直主题。比如西汉时期,是一个黄河流域城市建设的高速繁荣期。另外,我们的黄河流域包括了黄河下游河道影响过的海河流域和淮河流域。我觉得基于这样大的区域才能探讨不同历史时期的城市发展演变问题。
魏晋时期虽然战乱比较频繁,但是是城的建设比较繁荣的发展期,到辽金之后又出现了一些变化。用核密度分析可以看到哪个地方城市的密度比较高,图上颜色比较深的地方城市密度是相对来说较高的,即太行山东麓大道地区、两京地区(洛阳和西安)三个区域。辽金时期开始出现明显的转变,城市密度上也有了变化。我们发现,在元朝运河对城市的拉动作用非常明显。除了时间和空间分布特征分析,我们观察发展趋势,也即定量分析城市的空间重心的转移。再把人口数据叠加起来,观察他们在空间上的转变趋势。早期城市的重心位置也在东京(今洛阳市)周围,西汉时期是城市建设高潮,重心位置在西北达到最高点,西汉后开始回缩。南北朝时期游牧部族南下,重心位置处于南端。之后开始北移,表示城市建设向北推进,清朝达到北端,这是元明清时期以北京为都城的原因。人口和城市变化的方向又是不一样的,里面有很多好玩的细节,我就不再细述。
黄河流域内部的空间差异本来就很大,比如河东地区和河西地区之间差异明显,所以我们就探讨一下内部的空间差异。我们把黄河流域内部空间分成三个——海河流域、淮河流域、关中地区。三个地区的城市重心位置发展趋势也明显有不同的特征,比如淮河流域在西汉之后回缩,尤其在唐宋之后往回缩,原因是受黄河下游河道南摆的影响。但是元代之后,运河对城市空间格局的拉动作用非常大。我们看关中地区在明代有一个往西北方向移动的趋势,而在我们的历史印象中总觉得在明代西北地区的城市建设是向内陆回缩的,但其实在城镇建设过程中西北地区出现了比较大的重心迁移,这可能和边墙的建设有比较密切的关系。
黄河流域内部空间差异非常大,我们又探讨了城市延续稳定区,即哪部分稳定,哪部分波动性比较大。我们选定的一个标准就是府州级城市的行政建置的时间,比如保定府,它作为府级的行政建置持续了多长时间?所以我选择了两个尺度——一个是100年的尺度,一个是500年的尺度。500年的尺度图分析结果显示有两个比较大的核心区域,一个是关中,一个是今天的河北南部与河南北部地区。100年尺度图中,明显分成了几条城市带,和今天的分布非常相似。那么以CHGIS数据为基础,在这样长时间的尺度下,我们很难探讨影响因素非常细节的东西,但可以探讨一些比较大的影响因素,比如与河流的距离。在黄河流域,我们总觉得城市离大河流多要远一些,但是我们看离河流近的城市占大多数,这是考虑取水的问题。相似地,大部分城市分布在海拔低的地区。再把今天的降水大概情况进行叠加,然后分析黄河的改道对城市布局的影响。这篇文章也受到了同行的认可。
随后,我们研究了长江流域,看长江流域和黄河流域有什么不同。在研究过程中我们想突出长江流域中水的因素,所以就选择了水灾相关的数据。我们对黄河流域的研究主要利用CHGIS数据再叠加人口、地形、水文、历史气候等数据,那么这篇研究长江流域的文章中,则是把CHGIS数据清洗之后,再叠加水灾相关数据,进行空间的展示分析。
人对洪水是又爱又恨的,在可掌控范围内还要使用它。因为一篇文章的体量只有那么大,所以我们尽量不做非常复杂的水灾的成因分析,以及等级的划分和判断。而只是探讨水灾和城的关系。我们用大量的精力来整理水灾数据,然后进行配比,再在空间上和CHGIS数据进行叠加。由于今天的长江流域相对黄河流域变化小一些,因此我们研究历史时期中的长江流域初步选择了今天的流域范围。但是我们回头一看,发现长三角地区一直有较大的城市集聚区,那样选择会抛弃很多历史信息,所以就选择了今天的长江经济带的大概区域。用CHGIS中1820年和1910年的省级面状数据与今天的数据比对,发现它们较为相似,只有部分地区有差异。
图1 长江经济带洪涝频率等级分布图
图1中在不同圈层、不同历史时期,城市的密度分布的集中趋势从黄色调一直到红色调,是一个由远及近的时间分布范围。汉水流域在早期出现了城市密度高峰,但随着时间的发展慢慢消退。云贵地区、湖北西南部地区、成都平原这三个区域的城市分布集中区域随着时间的发展,其分布格局在不断变化而且和整体的中国历史上北方人口迁移是有关系的。
水灾本来是一个区域灾害现象,一个区域遭受水灾,有时候可能是整个流域性的,有时候可能只发生在支流流域,所以非常的复杂。那么要探讨大区域的趋势怎么办?我们就采用了一个比较“偷懒”、也得到了认可的方法。我们就把水灾标识在城市点上,这样也能显示出其分布变化趋势。很多老师跟我说,注意的人多了,水灾的记载可能就多了。确实如此,尤其到宋元之后,水灾的关注度变得更高,文献记载量也非常大。那么这些数据能采用吗?我鼓励我们团队的学生积极向前探索。
结果分析出来之后,我们结合水灾的频次与等级来看,长江的干流和几大湖泊周围的城市就是水灾发生频率比较高的地方。这和我们的初步判断,和今天的观测水文的记录也是相似的。由此,我们可以反过来进行判断,这些水灾记录文献是具有科学价值的。
接下来,我们做了水灾的冷热分析,结合城市发展的趋势进行叠加。根据红色点看冷热区域都在什么地方——冷点区域集中在中上游,尤其四川盆地是冷点集中区域,洪涝发生频次低,长江中下游干流及支流则是洪涝发生热点区域。还有一个比较有意思的现象,水灾频率较高或者承受过大规模水灾、城市行政等级越高的,比如安庆、汉口等几个城市,反而在长江边上或者在长江干支流交叉的地方,因此我们就有一个初判,即在历史中的长江地区,古人对于躲避水灾还是利用水灾,以及一些经济问题、交通问题,肯定是有特殊考量的。水灾和人或和城的关系是非常紧密的,可能是共生的关系。
还有灾害程度分析。明显很多长江沿线的大城市或行政等级高的城市,受灾程度也是较高的。比如我们对汉口地区进行了考察,民国时期江边上的建筑多是一次性的,也就是木头棍、草皮做的房子,过水之后第二年重新修——他们还是离不开对交通的需求。我们把人口数据同样进行叠加,做了关联度分析。在纬度方面关联度能达到0.7,所以人和城、水灾的关系是非常紧密的,但是在经度方面,相对来看则没有那么紧密。所以在经度方面,我们做了冷点和热点区域的分析。
第三个方面,考察其他数据或空间中的文化意义是什么。本来想研究全国的,尤其是明清之后至少18省的“八景”问题,因为时间和精力有限,我们缩小区域到黄河中下游来研究“八景”的空间格局。这其实还是在研究河流相关问题,工作量我们也承受得住。
文学界研究“八景”的文化意义相对多一些,但如果在空间上进行展示,很多问题就可以迎刃而解。我们的文章数据主要来源于明清方志,然后配比基础数据。景观数据分为五类——地文、水体、气象、生物、人文,在此基础上对数据量在各县的占比做出判断。我们发现水体类景观对于其他四类景观都有促进作用,尤其北方景观的营造和水的关系是非常密切的,比如北京的西山地区如果没有水,或是没有泉水、湿地的存在,可能就没有“三山五园”了。
在空间上进行展示,地文景观与人文景观呈现明显的空间分布差异。地形对景观塑造的影响是非常大的。其实“八景”除了景观格局、种类来源之外,还存在两个重要的问题。其一是地方性问题——地方需要宣扬自己的文化特征,因此我们选择了信仰性景观和纪念性景观。
信仰性景观偏向于宗教,纪念性景观偏向于历史人物。我们分析地区比较喜欢或者倾向塑造哪一类景观,比如山东胶东半岛的道教景观是比较突出的,也是为人们所熟知的。纪念性景观在时间分布上,人们尤其喜欢春秋战国时期和西汉时期,当然各个区域的数据有所差异。纪念性景观是地方性的,某个地方有名人,那么名人就是代表区域的一个文化特征。核心区的空间格局非常有趣,比如我的老家保定,荆轲的影响从春秋时期到唐宋,一直延续到现在。甚至今天雄安新区的文化建设中,还是强调易水和荆轲文化。但是,它有一个特定影响的范围。
地方性有地方意义,但是朝廷有朝廷的考虑。朝廷强调中央和地方的关系,体现出对外的或者对整体的形象的考虑。尤其黄河流域的“八景”,突出呈现三个方面——一是黄河禹迹,二是孔子与弟子的行迹,三是泰山—东岳信仰。我们看它分布的格局,比如黄河禹迹,涉及到黄河和大禹治水的景观大致都分布在西汉河道附近。泰山—东岳信仰的相关景观点呈跳跃性分布,比如黄河河口地区、今天的泰山和东岳地区,还有关中地区的泰山和东岳的景观。关中地区泰山和东岳的景观形成于唐代武周时期,可能受到王朝正统思想的影响。孔子与弟子行迹的景观空间分布呈现核心边缘的格局。我们还做了一些书写方面的特征分析,相对来说比较简单。
以上是我觉得三个基于CHGIS做的比较好的研究案例。最后,CHGIS和历史地理研究是什么关系呢?我经常引用王阳明《传习录》中一个南镇观花的公案:
先生游南镇,一友指岩中花树问曰:“天下无心外之物;如此花树,在深山中自开自落,于我心亦有何关?”
先生曰:“你未看此花时,此花与汝同归于寂;你来看此花时,则此花颜色一时明白起来,便知此花不在你的心外。”[1]
这也是我的心境。
整理:
霍世图/华南师范大学文学院
刘钰昕/哈尔滨师范大学历史系
范正芳/青海民族大学图书馆
(编辑:徐璇)
注释:
[1]王守仁:《王文成公全集》卷3《传习录》,北京:中华书局,2015年,第133页。