来源: 发布时间:2017-11-27 17:6:21
孙显斌:科技典籍整理的思考与展望

 
思考:“最好”与“最坏”的时代
 
清代学者姚鼐对传统学术有一个经典概括,即义理、考据、辞章。近代学者陈寅恪、傅斯年等也指出史学研究的创新不外乎新材料、新问题和新方法三个方面,史料的整理无疑是重要的基础工作。随着史学研究视野的不断拓展,考古遗迹与文物、口头流传及图像资料等史料的利用逐渐活跃起来,但仍然无法撼动文献这一最重要史料的地位。
 
就科技史研究来说,整理文献依然是不可或缺的基础工作,理应得到足够的重视。英国作家狄更斯在《双城记》的开头富有哲理地说:“这是最好的时代,这是最坏的时代。”如今这个时代对于典籍整理来说也正是如此,一方面我们迎来了基本文献占有的小康时代,另一方面,文献整理研究的深度和广度都向我们提出了更大的挑战。
 
先来谈谈基本文献的占有情况,科学史所李俨图书馆近几年的文献资源建设工作就足以说明问题,作为一个科技史专业图书馆,我馆的纸本书刊已达到18万册,典藏空间成为发展瓶颈。因此,我们下大力气引进电子文献资源。目前,已经卓有成效地建立起覆盖中外文科技史基本文献的文献资源体系。
 
先说中文方面:通过先后引进雕龙、书同文、爱如生等系列古籍数据库,保障了2万余种基本古籍的图文检索利用;开通晚清民国期刊全文库,几乎覆盖了全部近2万种晚清民国期刊,而民国图书库前三期则收录图书15万种,已近存世民国图书数量的一半;在现刊和学位论文方面,CNKI、维普、万方覆盖了大陆范围,台湾华艺则作为台湾地区的补充;通过读秀数据库可阅览和申请文献传递的图书数量达到310万册;报纸方面初步选择了《申报》《大公报》《中央日报》《人民日报》《光明日报》和近代英文报刊库等大报,以提供近现代重要事件人物新闻报道的查证检索。
 
外文方面:我们开通了EEBO-EEB(17世纪以前英文及非英文文献)、ECCO、NCCO(18、19世纪英文文献)等数据库;通过Springer、Elsevier、Wiley、Cambridge、Oxford、JSTOR、MUSE等数据库覆盖近200种外文科技史及科技哲学期刊,还可通过百链云申请外文文献传递。可以不夸张地说,这是一个基本文献的“嘉年华”。
 
然而,面对这样前所未有的好时代我们却似乎高兴不起来,因为海量文献的突然涌来同样带给我们前所未有的挑战,我们如何以一己之力阅读、挖掘和分析如此多的文献?面对文献,我们从来都是充满了喜悦和兴奋,如今直面这个“嘉年华”却让我们不觉有一种困惑和迷茫。
 
应该说明这里的海量数据还不能和时下流行的“大数据”相提并论,“大数据”特征经典描述为4V:Volume(巨量),Velocity(几何级高速增长),Variety(数据类型的多样性),Value(平均价值低),就更非我等可以想象了。
 
不过没关系,回过头人文学科毕竟有自己的看家本领,就是经典文献的解读和分析,这是方法论层面人文学科区别于自然科学、社会学科的最重要表现。而这一时代又向我们提出了更深度和广角地分析解读一部经典文献的挑战。我们无比熟悉和亲近的典籍文献领域正在上演一部“双城记”。
 
展望:科技典籍整理的未来
 
聚焦到科技典籍整理上来,据《立博体育在线:古籍总目》,现存1912年以前出版的古籍约为20万种。其中与科技相关的典籍主要分布于如下几个类属:史部地理类总志之属(444种)、政书类考工之属(81种)以及水利之属(314种),子部农家类(467种)、谱录类花木鸟兽之属(339种)、医家类(6684种)、天算类(1656种)、新学类(884种),合计10869种。西学东渐相关典籍除此处“新学类”外,又据《近代汉译西学书目提要(明末至1919)》计算合计1678种,其中心理学25种,地理272种,自然科学1381种。当然,“汉译西学”和“新学类”有部分重合,再加上以上暂时忽略的零星分布,估计现今留存的立博体育在线:古代科技典籍数量在1.2万种左右,约占古籍总量的6%。科技典籍中医学类典籍因为涉及应用,整理数量最多,估计超过存世数量的10%,农学次之,其他科技典籍整理十分有限,估计不超过2%,所以科技史文献的整理还是亟待解决的瓶颈问题。
 
在学术整理体式方面,我们通过国家古籍整理出版中长期规划项目“立博体育在线:科技典籍选刊”做了新的尝试,采用图、文、校释对排的样式,兼顾了典籍原貌保真和整理成果呈现两方面的需求,取得了不错的效果。 进一步,我们认为在定本式整理的基础上附加汇校,将有益于对典籍传播史的考察研究。
 
要加快推进典籍整理工作,就要在文献整理工作中充分利用信息技术,开拓典籍数字化,这是如今方兴未艾的“数字人文”中的一个重要方面。
 
在信息时代从事人文研究,人脑和电脑应该如何分工和合作?我们认为人脑还是研究的主导,主要承担的工作是理论和算法的创新以及具体问题的考证和分析,通俗说就是“脑力活”;而电脑的长处在于检索、计算和排列等工作,通俗说就是“体力活”,但这种“体力活”不可小觑,它可以大大缩短研究时间,节省研究者的精力,使一些费时费力的研究项目变得可行。
 
另外,随着计算语言学理论的发展,电脑参与学术研究的程度必将越来越深。 典籍数字化可分为三个层次,即图像化、全文化和数据库化。图像化和全文化大家都比较熟悉,尤其是全文检索,有其优势,但缺点也很明显,即检索失误是不可避免的,造成检索失误的原因是多方面的,其中文本质量只是一部分原因,还存在汉字的别体、语义的切分及别称等问题,这些都会导致漏检或多检。要解决以上问题最重要的方法是实现文本语义的“本体化”,而“本体化”要求我们推进典籍数据库化。 数据库化除了本体的结构化,还包括由本体建构起知识的语义网,以达到“数字人文”可计算的目标。科学史所与哈工大有关院系正在合作开发“典籍分析平台”,初步设计具有目录导航,图、文、校释对排,本体标记与编辑等功能,还将不断根据研究实践推进分析功能的开发。我们希望早日投入使用,共享给学界。■
 
《科学新闻》 (科学新闻2017年11月刊 佳作)
发E-mail给:      
| 打印 | 评论 |