首页 >> 中国史 >> 中国近代史
加强档案数字化建设,催生民国史研究线上转型
2020年09月16日 15:54 来源:《民国档案》2020年第3期 作者:金以林 字号
2020年09月16日 15:54
来源:《民国档案》2020年第3期 作者:金以林

内容摘要:

关键词:

作者简介:

  梁任公有言:学术乃天下之公器。支撑学术研究的档案文献,自然更是天下之公器。否则,无学术可言。《民国档案》创刊35年来,无论是公布珍贵史料,还是刊发专题研究,始终抱着开放的心态,矢志不渝,成为民国史学界的重要阵地。这一荣誉,不是说出来的,而是实实在在地干出来的。

进入信息化时代,学术公器的形式也在不断发展变化。从传统的私人收藏到各级公立档案馆、图书馆的对外开放,已不能满足新时代的需要。在信息化时代,充分、高效、快捷地掌握史料,成为史学研究者的基本功。同时,也对各研究机构、文献收藏单位提出新要求,尽最大可能地将档案文献数字化,通过网络提供给研究者使用。只有充分掌握史料,才有可能做出有创新、更接近历史真相的研究成果。近年来,我服务的中国社会科学院近代史研究所承担了国家社科规划办委托项目,建设民国史专题文献数据库。结合近四年来的工作,我想谈谈档案数字化对民国史研究的推进。

  一、永远在您身边的数字图书馆 

  

2015年在纪念抗战胜利 70周年之际,习近平总书记针对进一步加强抗战史研究,特别强调“史料共享,共写史书”。为落实习总书记讲话,国家社科规划办特别成立“抗日战争研究专项工程”,其核心项目之一就是建立“抗日战争与近代中日关系文献数据平台”(以下简称“抗战平台”)。由中国社会科学院、国家图书馆、国家档案局牵头,近代史研究所负责执行。自2016年12月立项,2017年10月上线试运行至今,“抗战平台”平均每月上线近百万页文献,即使是在新冠肺炎疫情期间仍坚持不断。该平台以“公开、公益”为理念,致力于汇集所有和抗日战争与近代中日关系有关的文献数据,并借助百度云的公益服务,现已上线文献2600余万页,向全球学界提供永久免费服务。

  

“抗战平台”上线的文献,可以说涵盖且超越整个民国史研究范围。平台的全称是“抗日战争与近代中日关系文献数据平台”。甲午战争影响近代中日关系深远,此类文献自然是我们收集的重点。《毛泽东选集》第三卷论抗日战争,不仅是重要的历史文献,更是对抗战研究有着指导作用,我们不能只上线第三卷,而不上其他各卷。1972年中日建交、战后日本教科书问题、历史认识问题,都是影响中日关系的重要因素,我们当然也要花功夫收集。我们希望将“抗战平台”最终建设成反映整个近现代中国历史文献的数据库,所以平台的英文域名是www.modernhistory.org.cn。
“抗战平台”共设有十个板块:报纸、期刊、图书、档案、音频、视频、图片、红色文献、特色专题、研究性论著等。目前的建设重点是前四项,其中上线的报纸已有1000余种,可以说是全球最大的近代中国报纸数据库。许多报纸都是连续出版几十年的,除《申报》《大公报》《时事新报》《盛京日报》《中央日报》《解放日报》等耳熟能详的大报外,还有很多各大图书馆都不常见的报纸,如日俄战争后日本“满铁”在大连发行近30年的《满洲日报》、近代香港出版时间最长的华文报纸《华字日报》等;期刊上线3000余种,图书上线近6万册,其中半数以上是抗战时期的出版品。有些史料非常珍贵,如国民政府军事委员会核心作战部门以及各战区参谋部门在战时编辑整理的战役总结等文件,大都加盖“秘密”“机密”印戳,这些资料如果存放在档案馆就是档案。我们是在各图书馆的藏书中征集到的,就将其归类在“图书”项下,以方便学者引用时著录出处。还有大量1949年后中华人民共和国各级机构整理出版的档案史料集,也非常有价值。我们已上线了部分影印的档案文献,而许多排印出版的专题档案史料,因涉及部分知识产权,我们暂时只能完成整理、编目,还不能上线。
有许多学者向我们建议,“抗战平台”应该多上线一些原始档案。但根据《中华人民共和国档案法》规定,档案的开放要经过相关部门的审查。且许多开放的档案也已陆续整理出版,所以大量上线原始档案暂时还有一定的困难。但我们并没有放弃原始档案的收集。最近,我们同一些高校和研究机构合作,系统收集了战时苏联、美国、英国、法国、日本、德国、意大利等主要参战国的政府外交档案,大都是缩微胶卷。此前这类缩微胶卷因价格昂贵,一般只有国内个别高校或研究机构才买得起。现在,我们共同合作,先将缩微胶卷转换成电子版,重新编目,再在“抗战平台”呈现。这样不仅可以避免重复购买,还可解决微缩阅读机只能单人阅读的问题。此类档案有近500万页,会陆续上线。此外,近代史研究所还承担社科院一项重大工程——“近代中国海外珍稀文献收集整理与研究”,系统征集海外原始文献。我们复制了美国哥伦比亚大学藏顾维钧档案约18万页,台北中国国民党党史馆100余万页档案。这些档案极大地拓展了民国史的研究空间,但因与合作方有协议限制或著作权约束,还不能上网公开,仅提供馆内阅览。我们准备在“抗战平台”提供目录检索,欢迎到近代史研究所查档。
此外,我们还尝试通过民间众筹的方式来扩大档案的来源。抗战时期著名音乐家陈田鹤先生谱写过许多抗战歌曲,陈先生晚年自费制作成音频,还有一批战时创作的手稿。陈先生的后人将这些资料无偿捐赠给“抗战平台”。现这些资料已作为专题文献全部上线,研究音乐史的学者会很感兴趣。诸如此类,民间蕴藏的史料多到让人无法想象。前段时间,我们无意中在黑龙江省佳木斯市的一个农场发现一批远征军档案。这家农场是1948年辽沈战役结束后解放军改造部分国民党起义部队组建的。他们中有数百人是国民党“新一军”“新六军”的尉级军官,大多是抗战后期知识青年从军,参加远征军,解放战争中又到东北打内战。他们留下了一批日记、个人档案——包括何时参加国民党,为什么去中印缅打仗,什么情况下被俘成了解放兵,等等,记录得清清楚楚。我们同农场合作已全部扫描完成6万页,正在编目。这批档案足够做一个非常有趣的专题研究,也可丰富我们对基层军队的了解。同时,沦陷区的史料也是我们搜集的一个重点。比如太平洋战争爆发后上海发行的地方小报《海报》《平报》,反映了沦陷区的社会、经济、文化、民情等。此外,战时银行的各种统计报表、海关的进出口月报,我们也扫描上线。把这些材料汇集起来,能让我们对民国史有更全面的了解。
“红色档案”是“抗战平台”的另一大特色。同样,民间也有很多富矿。战时八路军总部长期驻防山西武乡县。当地政府同八路军将领的后代们合作建立“八路军纪念馆”,馆藏相当丰富,有许多根据地编印教授游击队、民兵如何打地雷战、地道战的小册子;有各个根据地出版的不同版本的《论持久战》;还有一些油印的小报,如太岳军区三分区《战斗报》等。这类文献往往档案馆看不上眼,又进不了图书馆的收藏。如果将这些散落在民间而又数量可观的文献经过众筹,汇集到“抗战平台”,可以极大地丰富我们对抗日根据地的认识,推动根据地史的研究。
我接触到的最好的历史文献数据库,是日本“亚洲历史资料中心”。该中心成立于2001年,陆续将日本原国立公文书馆、外务省外交史料馆、防卫厅防卫研究所图书馆收藏的从明治初期到太平洋战争结束为止的有关亚洲资料进行数字化,并在互联网上开放,面向全球提供免费服务。它经过近20年的建设,已收录文献约3000万页,为全球学者研究近代日本历史,提供了巨大的便利。我们的目标就是要超越它。按目前进展,到2021年7月中国共产党建党百年之际,“抗战平台”可以达到3000万页的上线文献,为中国文化走出去,讲好中国故事,打好最坚实的基础。

  二、改造我们的学习方式 

  

历史文献数据库的发展方向,首先应是一个可以随时随地“借阅”的电子图书馆。它将改变人们的学习方式。

  

目前,民国史学界研究成果在宏观领域还存在着一定的概念化倾向,而在微观领域中又有一种声音认为现有研究过于碎片化。我个人体会,宏观研究必须要在微观基础上才能达成,不能简单地定义、定性。碎片化也有它碎片化的必要,我们只有把无穷的细节研究透了,才有可能高度概括出一个有说服力的宏观叙事。最近几年,无论是民间的需求,学界的兴趣点,都在慢慢转变,越做越细。其中民间的冲击,是一股有生力量。许多历史爱好者,能从分散在各国的中外文献中,认真考证细节,比如交战双方武器弹药使用黑色炸药和黄色炸药的比例是多少、枪弹的有效射程、作战服装等。有些内容读起来不仅有趣,还很有说服力。传统的学院派研究思路往往更关注国际关系、重要会议决议、重大战役等,太过宏观。理论上该不该如此,与实际上能不能做到,时常是脱节的。所以关注细节很有必要。但普通史学爱好者又因缺乏专业训练,在史料运用上常会将时间、空间搞混,容易造成硬伤。不过最近几年成长起来的硕、博士研究生已经改变了这种状态,他们做的研究非常细致,有些博士论文讨论抗日根据地的后勤建设,详细论述医药是如何保障的,医生、护士是如何培养的,受伤战士治疗后是如何重返战场或因伤严重而重新就业等问题。这些细节的研究,能够推动民国史走向深入。而“抗战平台”提供的丰富文献,可以为此类研究提供扎实的基础。
影像史学也越来越受到学界和社会的广泛重视,仅仅靠传统的文字史料是不够的。为此,“抗战平台”专门设置了图片(舆图)、音频、视频等专栏,努力尝试让历史可听、可看。近代史研究所已从美国国家档案馆、斯坦福大学及台湾地区相关机构等收集到战时照片数万张,盟军收缴的日军作战地图2000余幅,还有战时盟国、日本“满映”(长春电影制片厂前身)拍摄的纪录片300余小时。这批资料正在编目、著录中,会陆续在平台呈现。
影像史料不仅可以让历史学界受益,还能为全社会提供丰富的资源。中央美术学院的一位学者,在平台上看到很多近代报刊上刊登的广告、插图和漫画,就很兴奋。以前他要到各地图书馆一页一页翻旧报纸去寻找有用的文献,而图书馆往往只能提供馆内阅览,他千辛万苦找到的影像文献,有时翻拍多了,收藏单位又会有意见。因此,他对“抗战平台”提供的近代报刊特别看重。现在他的团队每天都要在平台上工作数小时,寻找感兴趣的图片下载。中央电视台纪录片频道的编导对“抗战平台”也很认可。以往他们拍片时常需要采集一些旧报刊的镜头,或者找一段当年的抗战音乐、影像资料等。非专业历史学者找资料的难度是很大的,经常会为几张图片跑多家图书馆。有了这个平台,可以轻松检索感兴趣的文献直接下载。如果网上照片不清晰,我们还可以提供更高清的原始文件,只要记住索引路径就可以。
民国时期的图片史料需要经过一定专业训练的学者识别、考证,才可以完成编目著录。这类文献能极大拓展民国史研究的领域。我个人认为图片数据库要充分发挥史学研究的效能,至少要有三个标准:一是图片要有足够大的数量;二是图片要相对清晰;三是要有清楚的来源,包括图片蕴含的信息——时间、地点、人物、事件等文字描述。现在网上时常会有很多历史老照片,仅用一句“三十年代北平社会风貌”的简单描述,不能给研究者提供准确的史料信息。
“抗战平台”不仅是一个服务于历史研究的专业数据平台,同时也是服务于全社会的历史教育平台。
今年爆发的新冠疫情,造成了前所未有的史学教学和科研危机,需亟待改进现有研究和教学方式。联合国教科文组织曾发表声明称:“如今,我们走到了历史性的关键时刻。新冠疫情改变了教育范式,改变了全世界各年龄段学习者获取学习资源的方式。因此,目前至关重要的是,国际社会要齐心协力,利用开放教育资源推进信息知识普及。”由此可见,线上研究和线上教育恰逢其时,必将成为促进高等教育和科研高质量发展的有效手段,逐渐成为全球学人的共识。“抗战平台”积极配合研究与教学向线上转型,不断扩大上线文献规模。2020年1—6月间,我们努力保持每月上线80万页,半年的访问量近250万人次,较去年同时期增长近60%。
“抗战平台”有效解决了传统历史教学资料不全的问题,能让各地师生接触到以往难以找到的珍贵史料。其数量与质量已远远超过众多商业数据库,大致达到省级图书馆的收藏量。这些历史文献对所有研究者平等开放,极大地拉近了学者与史料的距离,让每一位学者面对同等的材料开展研究。特别是二三线城市的高校师生,在选题时不再受距离或史料的限制,大大拓宽了研究的视野和范围。我们也积极尝试同科技界广泛合作,努力摸索以人工智能、大数据等新兴技术为基础的创新研究,努力推动历史研究的模式变革和生态重构。
“抗战平台”欢迎并渴望各学术机构共同加入“公益、共享”的队伍。我们不仅可以将著录标准无偿提供给各机构,也可以协助完成文献的数字化,在共享基础上免费开放给学界。

  三、打破垄断,避免重复建设 

  

目前各类为学术服务的数据库非常多,使用起来也很方便。虽然它们大都是“开放”的,但并不“公益”。纯商业化的数据库追求市场效益,这点完全可以理解,否则没人会主动投入,为学术服务。但开放的商业数据平台,需要购买才能阅读,不能广泛满足历史教学和科研的需要。主要表现在以下几方面:

  

第一,价格高昂。现有的史学数据库,往往因投入成本巨大、商业模式运作等原因,导致价格高昂,只有少数资金雄厚的高校或研究机构才能购买,不要说让普通民众望而却步,即便是一般学校的研究者也无缘得见。
第二,材料分散。由于数据库建设多是商业行为,缺乏统一规划,所以数据库的内容往往没有系统性。商业机构大都是同文献收藏机构合作,针对他们的收藏,东开展一处西开发一处,研究者不得不折返于不同数据库之间,既不经济,也降低效率。
第三,用途单一。相当多的数据库是依托特定项目而开发,往往只能供少部分人研究使用,且大多数数据库没有对公众开放的意识,也无法实现教育功能,不符合研究教育一体化的史学发展趋势。
此外,还有很多国家机构为了保护民国时期的文献,大都使用各级政府经费在做数字化工作,但这类机构常常为弥补其经费不足,只好采取收费方式开放。对此,我们也能理解。但遗憾的是,这期间会存在大量的重复建设,造成巨大的浪费。比如 A省图书馆申请了一笔政府经费,完成部分馆藏民国文献的保护,仅限本馆使用;B省图书馆也会申请经费,完成数字化后同样只在内部使用,或是通过购买阅览权有限开放。由于信息不畅,管理权限制等因素,造成大量重复馆藏文献被多次扫描,不仅浪费,还在扫描过程中对文献造成二次人为损毁。
在“抗战平台”的建设过程中,我们与许多机构合作,努力避免重复建设。各级图书馆都有提供公共阅览的社会需求,高校等学术机构的图书馆为了满足教学和研究需要,也要购置一定数量的商业数据库,或是完成自身馆藏数字化建设,都需花费国家经费。现在,我们可以通过对馆藏文献查重后,寻找“抗战平台”没有收入的文献,共同合作完成数字化。他们馆藏民国文献中只要“抗战平台”已有电子版,我们就免费提供,只扫描双方都没有的原始文献,最终实现资源共享,节省大量国家经费。民国时期出版的纸质文献和洋装图书,纸张脆化、酸化严重,远不如中国传统宣纸图书的保存现状。这些文献可以说借阅一次,损坏一次。还有缩微胶卷,如果没有恒温恒湿的存储条件,胶片也很容易脆化,在阅读器上旋转不小心就会折断,且只能供一人阅览,效率极低。“抗战平台”已协助多家学术机构将各自保存的缩微胶卷转换成电子版,实现共享。
此外,我们有一个强烈的感受,各数据平台之间客观存在的壁垒,既造成不必要的重复建设,也使得研究者们不能更好地利用新的科技手段提升研究效率。“抗战平台”建设之初,我们就想到“汇多库于一库”的想法,将不同文献种类汇聚在一起,呈现给读者。随着我们工作的深入,“汇多库于一库”的理念进一步拓展,我们正在努力尝试将现有各类民国史文献数据库整合为一库。作为合作方,任何机构都可以为“抗战平台”提供文献内容,也可提供文献网站链接,甚至可以只提供文献目录并告知读者在何处查询。如此,读者就能像逛“淘宝”“京东”等网购平台一样,实现“一站式资料获取”“一站式研究服务”。不断拓展合作范围,加强与高等院校、研究单位合作,不断打破既有的资料壁垒、研究壁垒,是我们今后的发展方向和动力。我们相信,只有打破壁垒,实现合作,才能真正方便读者的研究使用,营造整个研究领域的良好生态。
我们最大的成就感就是,“抗战平台”文献可以让全球学者和社会各界免费使用。在我看来,大量利用各级政府资金建立的数据库,应努力实现共享与开放。当然,共享也有一定的条件限制,特别是在知识产权方面,许多已出版的档案文献资料,因有编辑权、版式权等的限制,我们还不能全部上网。为此,我们曾咨询过许多出版社的法律顾问、普华永道的专业律师和法院知识产权厅的法官,在尽可能不影响著作权人的权益的前提下,共享和公开。此外,我们与一些海外机构合作复制的民国文献,因有协议要求,限制开放,我们也要遵守协议。

  四、全文检索值得吗 

  

现在有很多商业数据库,特别强调全文检索功能。西文实现这一功能相对容易,但中文比较困难,因此这类数据库的制作成本比较高。如可进行全文检索的《申报》和《大公报》数据库,的确非常好,但成本太高,购买一套要二十多万元。只有很少有实力的大学才会购买,同时如学校不能实现远程登陆,师生离开校园网就无法使用。“抗战平台”上线的《申报》、《大公报》虽然不能全文检索,但读者在世界各地,只要打开电脑,连上网络就可以阅读。

  

全文检索数据库固然非常便利,能够极大地推进学术研究。使用者只需检索关键词便能浏览到数据库中所有相关资料。尽管如此,全文检索数据库在我看来仍存在两个问题:
第一,部分内容不能实现检索。如海外某公司将英国外交文件缩微胶卷转换成可全文检索的数据库进行销售。为了实现全文检索,该数据库只将打印类文件进行全文识别,而剔除了部分手稿资料。虽然手稿数量较少,但或许就是这少部分资料的缺失,导致某些研究得出的结论完全不同。此外,如《申报》全文检索数据库,无法实现广告、照片、漫画等图像类资料的全文检索,这也限制了报纸的丰富性和全面性。因此,我感觉使用者不能过分依赖全文检索数据库,需要谨慎使用。
第二,成本过高且成本流失太快。当今科技进步速度极快,举例来说,如投资1亿元进行全文识别建立的数据库,随着技术进步,十年后其开发费用完全可能降到原有成本的十分之一。当然,如果有钱又任性,全文检索数据库自然是研究者求之不得的好事。但在经费投入有限的情况下,最大限度地满足“数字图书馆”的建设,我们认为是当前最行之有效的办法。无论是哪种类型的数据库,都需要保证拥有足够数量的原始资料。将以前分散在图书馆的文献数字化后呈现在网络上,这是数字图书馆的基础工作。而对于构建更加快速、准确的检索系统,是我们今后努力的一个重要方向。目前,我们上线的图书可检索到版权页和目录页,期刊可检索篇名,报纸只能按年月日检索,全部可检索到的文字近10亿字。而以现有投资做全文检索数据库,恐怕只能完成《申报》《大公报》两个规模的数据库。
任何一个全文检索数据库的基础,首先是要完成高质量的文献扫描。只要基础打好,今后更多的人工智能技术就能为历史研究提供更多全新、丰富的课题,而不仅仅是全文检索。举例来说,近年来人脸识别技术进步迅猛。“抗战平台”2000余万页报刊、图书文献中,有非常多的人物照片、插图,我们只要准确识别100张“翁文灏”的照片,就可轻松利用人脸识别技术,快速在全网2000余万页的图片中“找”出更多的翁文灏照片,为我们了解翁文灏的人脉往来,发现和解决新问题,提供不可想象的资源。
最初有很多读者拼命下载“抗战平台”文献,生怕过几天就过了免费期。一些朋友还特意找我,要求多开放些下载量。我只好反复说明:“放心吧,永久免费开放。”本来我们不限制下载页数,但我们的合作方“百度云”表示受不了,因为占用的带宽太大。仅以《申报》为例,20余万张高清图片先后下载2万次,相当于50亿张图片下载量。“百度云”基本是在做公益,免费提供服务,只收很少的运营维护费。为此,我们规定1个账号1个月只能下载2000页,足够读者1个月的阅读需要。我自己也是史料控,家里以前存有数十个硬盘,当要找一份资料真是累呀。特别是当拥有两三百万页文献,又不可能下载检索平台,自己想用时都找不到了,还不如直接到“抗战平台”上检索、阅读。
我们的口号是:“永远公开、公益!”

  五、自我反思和今后努力方向 

  

国家社科基金规划的“抗战平台”建设目标,是呈现1亿页的文献资源。如果按照民国时期图书每本200页左右计算,大致可容纳50万册图书的收藏数量,规模大致相当于省级图书馆,而且还是一个专业的专题图书馆。

  

我在近四年来的数据库建设中,走过不少弯路,总结工作中的得失,有如下几点深深的体会:
第一,一定要有开放的心态,努力扩大合作领域,避免重复建设和资金浪费。
第二,对原始资料的编目、整理、呈现格式要有统一标准。现有的历史文献数据库大多是各有各的格式,彼此不能通用,给研究者使用造成许多不必要的障碍。
第三,文献数据库越综合越好。在我看来,如果国家能够投入更精致和包容性更强的数据库平台,并呼吁各个机构共同往这一平台补充内容,既节约资金,也会提高数据库的质量和综合利用程度。
第四,充分利用商业公司的“云”服务,不必各自建站。最初,我们也想“肥水不流外人田”,自己建机房,购买服务器、租用带宽、招聘人员等。但前期投入就要近2000万元,还未必能管理好。而专业公司的技术储备、前期投入,完全能为我们提供更优质的服务,远比各机构重新开发系统要便捷、高效得多。他们的防火墙设计、带宽、“云”服务等,都可以满足数据库的呈现需求。这样的“性价比”最高。百度热心公益,除了必须的运行维护经费外,其他都免费提供,并保证24小时运营,满足10万人上线阅览。此外,百度还可利用自身技术优势,持续开发针对特定人群的专题库,也可采取有偿服务的会员制回收成本。
第五,培养专业技术人才,是打破信息技术与历史文献之间壁垒的一项重要基础工作。技术团队的开发人员,对于历史文献的特点与情况了解不多;而历史学者对技术发展知之甚少。这就往往造成,某些在我们看来很难呈现的内容,在技术人员来看并不复杂;而我们觉得很容易呈现的内容,在技术人员看来则难于上青天。随着时代的发展,年轻一代历史学人,已经开始主动接触信息科学技术、拥抱“大数据”,但这还远远不够。我们期待,通过“抗战平台”的建设和同其他历史文献数据库的合作,为历史学界培养史学基础牢固、技术水平过硬的复合型人才,应对日新月异的技术进步,谋求历史研究的可持续发展。
我们最大的愿景:无论是专业的历史学人、业余爱好者,还是寻找素材的纪录片拍摄者、非虚构文学写作者,抑或是想重温家国烽火岁月的普通人,都能在“抗战平台”上找到需要的历史信息。我们希望将“抗战平台”打造成一个民国史料的展示平台,一个历史研究的整合平台,历史通识教育平台,历史文化宣传平台,为构建中国特色历史学学科体系、学术体系、话语体系,推动民国史研究的长远发展贡献一己之力。“抗战平台”将用无可争议的翔实史料向世界发出中国声音,讲好中国故事,最终实现为国存史,为国著史,为国传史的目标。
最后,我还要特别感谢《民国档案》杂志。在数字化时代,《民国档案》没有停止前进的步伐。为方便更多学人,杂志社已同意“抗战平台”上线《民国档案》,免费提供给学界使用。

作者简介

姓名:金以林 工作单位:中国社会科学院近代史研究所

转载请注明来源:中国社会科学网 (责编:郭飞)
W020180116412817190956.jpg

回到频道首页
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们
中国社会科学院概况|中国社会科学杂志社简介|关于我们|法律顾问|广告服务|网站声明|联系我们