大数据里的唐宋诗词世界

人们习惯用史料来描述文学史的高峰状态,而在当今大数据时代,我们或可尝试用大数据来显示和验证,并透视数据背后的文学史意义……

作者:王兆鹏 ;转自:公众号 DH数字人文

王兆鹏 / 国家社科基金重大项目“唐宋文学编年系地信息平台建设”首席专家、四川大学文学与新闻学院讲席教授
——————————

人们习惯用史料来描述文学史的高峰状态,而在当今大数据时代,我们或可尝试用大数据来显示和验证,并透视数据背后的文学史意义,进而反思数据存在的问题和展望未来努力的方向。唐宋诗词世界华茂繁荣,大数据可带我们领略其中新的风采。

唐宋诗词的多个“第一”

唐诗是中国诗歌史上第一座高峰。据统计,东汉到隋末近六百年,诗歌总共才五千余首,而到唐代,诗歌第一次超过万首并直接跨越到五万多首,达到前所未有的高峰。唐诗比之前的八代诗增加了七倍多,诗人由六百余位增加到三千余位,诗人和诗作都达到前所未有的量级。唐诗历经三百余年,其顶峰在盛唐。其时诗人五百余位、诗作近八千首。依据诗歌在历代选本中的入选频次、被历代诗论家品评的频次、被后人追和的频次和当代学者研究的频次、被网页著录及评论的频次等数据加权计算,一定程度上可评估一首诗的影响力。通过这种可量化的计算,我们可将影响力位居前列的视为名篇。在唐诗百首名篇中,盛唐占59首。而唐诗的十大名篇,盛唐更独占8首。按名篇数量排列出的唐代十大诗人,盛唐占6位:杜甫、李白、王维、王昌龄、孟浩然和岑参。

宋词是中国词史上第一座高峰。词人近一千五百位,词作超两万一千阕。较之唐五代,宋词用调增加了七百余种,词人词作都增加了十多倍,表现出词体的丰富、整体面貌的繁荣。唐五代词人中,唯温庭筠、冯延巳、李璟、李煜四家有词集传世,而宋代有三百多家有词集流传。词人有词集传世,意味着作品多、知名度高、社会需求量大。数据显示,宋词在唐五代之后已达到高潮,元祐时期更达峰值。其时词人近二百位、词作约四千阕,比宋初和庆历两个时期的词人词作总数还多出一倍有余。在百首宋词名篇中,元祐时期占27阕,名列宋词六个阶段的首席。

人们习惯以宋词作为宋代文学成就的代表,其实,宋诗也是重要的一部分。数据显示,宋代诗人诗作的数量超越唐诗而达到新高度,诗人九千多位,诗作二十五万余首,是唐诗作品量的五倍多。值得注意的是,宋诗的顶峰也在元祐年间,其时诗人一千六百余位,相当于前两个时期诗人数量的总和;诗作五万余首,比前两个时期的诗作总和还多出七千多首;宋诗的十大名篇,此时独占5首;苏轼、黄庭坚、王安石等影响深远的大诗人都生活和创作在这个时期。近人陈衍论诗,说唐宋诗史上有三个辉煌的高峰时段,所谓“上元开元、中元元和、下元元祐”,数据印证了他的判断。

从个体诗人来看,唐诗宋词里谁的作品最多?数据显示,白居易名列唐诗作品量的榜首,诗作近三千;杜甫和李白紧随其后,都超过千首大关。宋词中辛弃疾的词作量位居第一,有六百余阕,其次是苏轼、刘辰翁。宋诗的篇数,则由陆游称雄,凡九千多首,其次是刘克庄和杨万里。

作品多的诗人词家,是否影响力大、知名度高?根据综合影响指数排名,唐代诗人影响力第一的是杜甫,其次为李白、王维,而作品量居第一的白居易,影响力排在十名之外。宋代词人作品量和影响力第一的都是辛弃疾,苏轼和周邦彦分别居第二、第三。高居宋诗影响力榜首的是苏轼,作品量雄居榜首的陆游紧随其后。

“第一”背后的文学史意义

数据不仅标示谁第一、谁领先,还蕴含更深层的文学史意义,可以探究其背后隐藏的历史过程和变化动因,揭示规律性认识。比如,通过检视和分析唐诗名篇崔颢《黄鹤楼》的各种数据,可以发现第一接受者李白的评价和创作比拼发挥了重要作用。可见,除自身的艺术含量外,故事传播和意见领袖的评价也是名篇生成的重要因素。

数据能具体显示诗人词家名声的高下。提到唐诗宋词的名家,人们习称“李杜”“苏辛”,似乎李优于杜、苏胜于辛。但综合影响指数表明,杜甫高于李白、辛弃疾强于苏轼。更令人意外的是,最受追捧的词人不是苏辛而是周邦彦。在一百首和三百首宋词名篇中,周邦彦各占15首和40首,占有率远高于苏、辛。王国维说“词中老杜,非先生(周邦彦)不可”,堪称卓识。周济《宋四家词选》也推周邦彦为学词的最高典范,所谓“问途碧山,历梦窗、稼轩,以还清真之浑化”,数据印证了周济的眼力。

数据可以明确展示名篇名家影响力的时代变化。宋明以来,崔颢《黄鹤楼》诗和苏轼《赤壁怀古》词的影响长盛不衰,故分别成为唐诗宋词的第一名篇。而陈子昂《登幽州台歌》、张若虚《春江花月夜》等声名卓著的名作,明清以前影响甚小,到近现代才广受注目,故综合影响力排名靠后。岳飞《满江红》、陆游《卜算子·咏梅》等也都是到现当代才被发掘出的名篇。周邦彦的影响力,在明清时期的词坛远大于苏辛,只是到现当代由于文学价值观念的变化才下滑落后。

数据还反映出诗人影响力与作品量的关系。杜甫、李白的诗作量名列前茅,辛弃疾、苏轼的词作量也是第一、第二。由此可以说,影响力大的诗人,其作品量也很大,但不能说作品量大就一定影响力大。白居易诗作量位居唐代诗人之首,综合影响力却没进入前十名。陆游的诗篇比苏轼多出两倍,综合影响力却在苏轼之后。由此可见,精品名作多才是成为影响力大的诗人的决定性因素。宋人赵汝腾《石屏诗序》说:“诗之传,非以能多也,以能精也。精者不可多,唐诗数百家,精者才十数人,就十数人中选其精者,才数十而已。惟少陵、谪仙能多而能精,故为唐诗人巨擘也。”苏、辛的精品名篇量也印证了赵汝腾的判断。

数据的“不可为”和“可为”

虽然数据能在一定程度上描述显示文学史的发展面貌和进程,揭示隐藏在历史背后的真相与意义,但数据也有明显的局限性。一是效度有限,只能说明文学史的部分问题,而无法有效解决所有问题。二是信度受限,无论是人工挖掘还是机器自动提取,受人的认识水平和技术水平的制约,数据的信度会有优劣高下的差异。

由于指标种类少,目前衡量名篇名家的数据还不充分完备,尤其缺少内质型数据,因此需要持续不断地挖掘和充实。挖掘数据的难度,不仅在于到哪里找数据,更在于要找哪些数据。文学史上从来没有数据意识和数据存量,什么样的数据对衡量一个时代或一个时期的文学繁荣程度、评价作家作品的优劣高低有用有效,这既是实践操作问题,也是理论认识问题。

大数据时代的文学数据,需要分类分层建立起文学史数据的指标体系,以确保数据的信度和效度。可以探索和讨论:一个时代或一个时段文学的繁荣状态,除了用作家作品的数量增长来衡量,还有哪些量化指标、特别是内质型指标可以体现?在创作主体维度,文学群体、文学流派的数量和规模是否应该作为衡量文学繁荣的指标?又该如何测度个体作家和文学群体或文学流派的艺术贡献、文学史地位?在作品文本维度,如何衡定其思想情感含量和艺术审美含量?也许应该考量以下三个层面:形式层面,体裁体式的创新度、丰富度;内容层面,表现主体内在精神世界和外在社会生活世界的深广度;艺术层面,表现技巧的难度和艺术表现的完美度等。有了完整的指标体系,才有目标和途径去寻找发掘数据,才有可能借助人工智能技术,让计算机自动分析提取数据,不断扩大数据的种类和体量。在此基础上,通过计算机自动提取获得海量数据,不断满足大数据时代学术研究的需求。

来源 |《光明日报》( 2022年03月23日 11版)

zh_CNChinese