北京大学未名湖畔矗立着四栋仿明清式古典建筑,由西向东数去第二栋的才斋内,藏着一个《儒藏》编纂与研究中心。而在才斋的东北方向,一场关于《儒藏》数字化编纂工作的启动仪式拉开了序幕。

12月9日,由北京字节跳动公益基金会、北京大学教育基金会联合举办的《儒藏》数字化项目启动仪式在北京大学教育基金会顺利举办。在启动仪式上,北京字节跳动公益基金会理事长张羽表示,决定向北京大学教育基金会捐赠人民币2500万元,并提供“识典古籍”智能整理平台的技术,支持北京大学更好地开展《儒藏》的编纂与研究工作。

《儒藏》的编纂与研究工作不可谓不繁重。北京大学《儒藏》编纂与研究中心曾公开表示,《儒藏》编纂与研究工程“将传文献与出土文献、域外文献萃为一编,既系统完整,又各自保持其相对的独立性,这在中国丛书编纂史上尚属首次”。

值得欣喜的是,人工智能技术给繁重的编纂和研究工作带来了便利,古籍数字化进程正在加速实现。“识典古籍平台希望通过持续不断运用技术助力古籍研究、整理和阅读,让古籍中丰富的文化滋养和思想资源能够应用于每个人的生活之中。”字节跳动相关负责人表示。

以盛世修典赓续传统文化

《儒藏》是什么?20世纪90年代,北京大学哲学系教授汤一介先生在张岱年、季羡林、饶宗颐等老一辈学者的大力支持下,提出了把历代儒家典籍文献汇编成一个独立文献体系的设想。2003年,北京大学成立《儒藏》编纂筹备委员会和领导工作小组,邀集国内外专家学者启动《儒藏》编纂工程的论证。同年12月,以汤一介先生为首席专家的“《儒藏》编纂与研究”作为哲学社会科学研究重大课题攻关项目在教育部立项。

《儒藏》总编纂合影

作为新中国成立以来最大规模地系统整理海内外儒学典籍的基础性文化建设工程,《儒藏》编纂与研究分《儒藏》“精华编”编纂与《儒藏》全本编纂两步走。其中,先期成果《儒藏》“精华编”收录中国历史上最具影响力和代表性的儒学文献,包括传世文献和出土文献510种,以及韩、日、越三国历史上用汉文著述的儒学文献160种,编为339册。《儒藏》全本则计划收书3000余种(含“精华编”),将基本囊括中、韩、日、越四国历史上有价值的儒学文献。

历时20年,如今,《儒藏》“精华编”中国部分510种、282册全部整理完成,全本《儒藏》编纂工作已经启动,总字数预计达到10亿至12亿。

部分《儒藏》“精华编”

如此庞杂的工作,为什么引得一批批学者和人才投身其中?

“在整个中国传统文化中,儒家占据主体地位,它不仅是一些概念、观念,也是人们在生活过程中间所遵循的一种价值原则。”北京大学副校长、哲学系教授、《儒藏》工程首席专家、《儒藏》编纂与研究中心主任王博公开表示,“我们如果想理解当代的中国,就必须了解历史的中国,必须了解历史中国文化主体。”

因此,在《儒藏》的序言中有这样一句话:“把儒家经典及其各个时代的注疏、历代儒家学者的论著和体现儒家思想的各种文献,编纂成一部儒家思想文化的大文库《儒藏》,无疑将使我们可以更系统、更全面地了解中华民族生存和发展的思想文化根基。”

扎深了文化的根基,民族才能更好地生长。就如有学者所言,“举凡成功的现代化道路,无不深深植根于各自的历史传统和现实基础,受到自身文化积淀的深刻影响。”所以不难发现,无论是以人民为中心的发展思想,还是创新、协调、绿色、开放、共享的新发展理念,亦或是构建人类命运共同体理念,都蕴藏着“民惟邦本,本固邦宁”“天人合一”“协和万邦、仁覆天下”的儒家思想和追求。

人工智能技术加速编纂进程

虽然说如今诸多儒家经典文献传承一直没有中断,但千百年来,始终没有一部完备的儒家著述总集。“尽管明清两朝均有人提议编纂《儒藏》,都因为工程浩大未能实行。”《儒藏》编纂人员感叹。

这其中的工作量可想而知。为了使更多的学者和广大的读者方便阅读使用儒家文献,《儒藏》工程再次启动之初就决定放弃更为稳妥的影印法,而以更加适应现代的、经过校点的排印方式出版。然而儒家文献浩如烟海,书目选定、底本和校本选择、标点附校勘记等环节都影响着成书的最终质量。

为了保证质量,在“精华编”的编纂过程中,《儒藏》编纂与研究中心制定了一套细致详实的编纂《凡例》,并在流程中设置了多达十一个环节,几乎达到“五审五校”。而在早期的编纂工作中,这些环节几乎都要依靠人力来完成。据《北京大学校报》记录,为保证标点和校勘的质量,编纂人员往往需要仔细调查对比多个版本,有时仅仅为了核查一个小小的标点,就可能需要花费数小时的时间。

《儒藏》整理手稿

所幸数字技术的发展为整理工作带来了变化。目前,全本《儒藏》编纂工作已经计划利用现代科技手段,在对底本原稿进行扫描的基础上,通过OCR识别实现数字化,并附以底本、校本影像作对照,再进行标点和校勘,最终以排印和数字化的方式出版。

除此之外,张羽认为,《儒藏》工程中的很多工作还可以在人工智能技术的辅助下被解决和提效。“我们希望通过‘识典古籍’智能整理平台助力《儒藏》数字化整理。”

“识典古籍”作为古籍数字化平台,本身就结合了字节跳动的人工智能技术优势、产品研发能力及北京大学数字人文研究中心的学术能力。

张羽介绍,经过两年多的发展,“识典古籍”平台已经具有版式识别、自动标点、结构整理、校勘等涉及古籍整理的全流程整理功能。《儒藏》的整理者将相关文献的影像上传平台后,由人工智能进行初步整理,如自动命名实体识别能力可以自动标记古籍中的人名、地名、书名、时间和职官,专业人员再进行校对及做出更有深度的学术判断,改正错误或缺漏的命名实体。

此外,张羽介绍,“识典古籍”平台还开发了协作整理的功能,支持以团队的形式开展工作。“这将大大减少编纂人员在基础性工作上投入的精力。接下来,我们也将根据《儒藏》整理的需求,进一步优化产品功能,让专家们可以更加高效、便捷地开展工作。”

儒家经典走入大众间

当然,数字技术和人工智能虽然已经能够成为《儒藏》工程的技术手段之一,但是依然不能解决所有的问题。

一方面,当前我国古籍数字化仍有提升空间。中国是全球拥有古籍最多的国家,国内现存汉文古籍300万部,散落在海外的古籍超过40万部,已完成数字化的古籍7.4万部,这其中,大多数只是完成了初步的影像扫描。对比庞大的现存文献规模,完成数字化的古籍不过是沧海一粟。

另一方面,即便是已经完成数字化的古籍,大多被束之高阁。让古籍文献“活”起来不能单纯依靠的整理和留存,还需要让公众近距离接触古籍,让经典得到更多人的认知。

这也是“识典古籍”平台支持《儒藏》的编纂与研究工作的动力——张羽表示,未来《儒藏》的相关成果也将陆续在“识典古籍”平台阅读端上线,实现全民共享,让中国传统文化、儒家文化,能够被更多人便捷检索和阅读。

目前,“识典古籍”平台阅读端已上线了一万部古籍,同时为了方便用户的检索和阅读,上线了全文和分类检索、字典、古籍译文、命名实体查阅百科、古籍智能助手等功能。

“识典古籍”首页截图

在字节跳动相关负责人看来,计划在“识典古籍”平台阅读端上线《儒藏》相关成果为阅读古籍的读者提供了便利,也拉近了公众和《儒藏》之间的距离,让经典更加触手可及。

“存世古籍只有让更多的学者、专家有更多的机会、更高效的方式,对古籍里的知识内涵,进行充分的挖掘、研究和阐释,古籍的‘能量’才能释放,古老的文明才能‘新生’。我们也才能更全面、深刻理解我们的历史、文化,并得其滋养,从而知古鉴今,知来处,明去处。”字节跳动相关负责人表示。