12月9日,《儒藏》数字化项目启动仪式在北京大学举行。
《儒藏》工程是新中国成立以来最大规模地系统整理海内外儒学典籍的一项基础性文化建设工程,将收录自先秦至清末重要儒学文献。
2003年,北大成立《儒藏》编纂工作小组。由于体量巨大,最终决定《儒藏》工程将分两步走,先编“精华编”,再编全本。
2022年,内容近2亿字的“精华编”中国部分完成。但这对《儒藏》来说仅仅是个开始,次年全本《儒藏》编纂工作启动,预计内容近10亿字。一位编纂专家担忧,这样大的体量,“如果按部就班地来进行,照着原样做下去,那何时是个头?”
数字化整理就在这时被提上日程。
部分《儒藏》精华编
在《儒藏》数字化项目启动仪式上,北京字节跳动公益基金会向北大教育基金会进行了捐赠,用于资助北京大学《儒藏》工程。同时,字节跳动也和《儒藏》编纂与研究中心开展合作,通过识典古籍平台的智能技术助力《儒藏》整理提高效率。
未来,《儒藏》相关成果也将在古籍数字化平台“识典古籍”上线。
做一项永传后世的文化工程
北大未名湖旁的才斋便是《儒藏》编纂与研究中心的所在地。
2003年,北大成立《儒藏》编纂工作小组。第二年《儒藏》编纂与研究中心成立,汤一介教授是中心首任主任。
历史上,把相关典籍收集在一起的文库称作“藏”,“儒释道”三家中已经有《佛藏》和《道藏》,在中国历史和文化中占据主流地位的儒家却没有相关文库,其中一个原因在于《儒藏》的编纂难度太大。
儒家典籍浩如烟海,且儒家影响范围不仅仅在中国,所以最终决定《儒藏》工程分两步实施:第一步“精华编”,将我国和韩、日、越三国共650种汉文儒学文献编纂成册,共计约2.3亿字;第二步全本,收书规模将增大到3000余种,共计约10亿字。
不仅如此,《儒藏》没有采取相对容易的影印方式,而是立足现代,采取繁体竖排、现代标点附校勘记的形式,准备整理出完足可靠、便于阅读使用的文本。
《儒藏》“精华编”执行总编纂、北大哲学系教授魏常海说,《儒藏》错误率要低于万分之一,“这不是为一个时代,它是超越时代的,我们做出来以后别人就没有必要再做了”。
这些都让《儒藏》编纂从一开始就面临困难。
沙志利是《儒藏》“精华编”责任编委,现任《儒藏》编纂与研究中心副主任。2005年他从北大中国古典文献学博士毕业,正赶上《儒藏》中心需要人手,便来此工作至今。
据他介绍,《儒藏》中心与国内25家单位合作,有48位部内主编和项目负责人,组织了全国近50所高校及研究机构的约400位专家,一起承担“精华编”国内部分的校点工作,交稿后再由《儒藏》中心把关。
编纂初期,来稿质量参差不齐,很大比例的稿件不符合要求。为了保证质量,《儒藏》中心慢慢摸索建立了一套细致详实的多达十一个环节的流程,并制定了相应的制度。可即便如此,还是有不少来稿需要反复退改,甚至更换了校点者。这些都大大拖延了工程进度。
汤一介于2014年去世时,“精华编”尚未完成,直到2022年5月,《儒藏》“精华编”中国部分完成出版。
找到一个大大提升效率的工具
如何提高《儒藏》编纂效率在内部几经讨论。
“精华编”全靠人工,一位参与“精华编”编纂的专家表示,全本编纂时一定要使用新技术,“人工点校的方式,一遍一遍地来做校对,费时费力,这些基础工作都要人手来做的话,那需要多少年?”
北大数字人文研究中心主任王军也持此观点。2023年,他在全本《儒藏》编纂启动大会发言,希望结合现有的古文献数据库,从智能编纂平台、数据库发布平台等方面,推进全本《儒藏》数字化工程。
王军的信心来自于2022年字节跳动与北京大学合作研发的古籍数字化平台“识典古籍”的上线。
“识典古籍”平台源于字节跳动在古籍领域的公益项目,结合了字节跳动的人工智能技术优势、产品研发能力及北京大学数字人文研究中心的学术能力,是一个免费开放的古籍资源平台。
除了可以阅读,“识典古籍”还开放了整理平台,有古籍整理需求的个人和机构,可以借助自动古籍文字识别(OCR)、自动标点、自动命名实体识别、自动文言文-白话文翻译等人工智能工具,以及配套的协作校对工具更高效地整理古籍。
“识典古籍”首页截图
“识典古籍”的工作人员介绍,经过两年多发展,智能整理更加成熟,《儒藏》的数字化整理可以在此被解决和提效。《儒藏》相关文献的影像上传平台后,人工智能会进行初步整理,当遇到不确定的情况时会标注出来,并放上底本供专家检查。这样,专家不再需要花太多的精力在机械枯燥的校勘异同上,可以把精力更好地集中在一些关键的部位和环节上,做好更有深度的学术判断,这将大大减少传统模式下校点人花费的精力,还能节省时间。
同时,“识典古籍”还有协作整理的功能,支持以团队的形式开展工作,将大大节省沟通成本。
魏常海教授对此充满期待。他回忆,以前是校点人、《儒藏》中心、出版社三方接力工作,必须要等整部稿件前一步做完才能寄送到另一方开始下一步。今后在“识典古籍”上,参与编纂工作的各方能在同一时间看到对方的进度,完全不需要花费交接时间,而且还能把书打散,以更小的单位进行不同环节的轮流加工,压缩了不少等待的时间。
就这样,《儒藏》工程与“识典古籍”平台走到了一块。
“识典古籍”让更多人看到《儒藏》
在《儒藏》数字化项目启动仪式现场,北京字节跳动公益基金会向北京大学教育基金会进行资金捐赠,该资金将专门用于支持并推进北京大学《儒藏》工程的实施……
《儒藏》数字化项目相关海报
北京字节跳动公益基金会理事长表示,“未来《儒藏》的相关成果也将陆续在‘识典古籍’阅读端上线,实现全民共享,让中国传统文化、儒家文化,能够被更多人以更方便的方式去检索和阅读。”
这背后是从2021年6月起,字节跳动就通过公益捐赠助力古籍修复,并持续投入技术、平台资源来开展古籍修复、数字化与活化。截至目前,“识典古籍”已上线开放了一万余部古籍,累计有超过9994.5万人次通过头条古籍频道、网页版等了解和阅读古籍。
《儒藏》“精华编”执行总编纂魏常海对开放非常期待,“我们做《儒藏》的人只有一个想法,就是把它编出来,发布出去,让全中国、全世界的人都能看到,都能用起来,而这个意愿的实现就是靠‘识典古籍’平台。”
其实,当初汤一介教授提出编纂《儒藏》时就希望,能让更多人更方便使用。他曾写到,“此次编纂《儒藏》……以纸质本与电子光盘同时出版发行……可以利用电脑进行全文检索。”
现在,这个愿望正在被更好地实现。
【未经授权,严禁转载!联系电话028-86968276】
