20万页海外古籍如何“数字化”回归?

laomao @ 2021年05月20日 乐活

新京报贝壳财经讯(记者 罗亦丹)流落海外的古籍能够以怎样的方式回归祖国?5月18日,包括《苏文忠公文集》、《宋百家诗存》、《居业录八卷》等在内的一共20万页藏于加州大学伯克利分校的古籍通过"数字化"方式回归故土,并落地"汉典重光"古籍平台,未来公众可通过该平台翻阅、检索古籍。  







汉典重光项目发起人之一的高晓松在接受新京报贝壳财经记者采访时表示,古籍数字化回归这件事需要古籍收藏方与古籍数字化团队双方的配合,但也需要有技术有情怀的企业愿意以公益方式参与进来。"文字是中国文化里最具有代表性的,中国文字不光具有文献意义,还有美感,古籍数字化能让更多年轻人了解到中国文化之美,我觉得有很大的推动意义。"  



据了解,"汉典重光"项目由阿里巴巴公益基金会、四川大学、美国加州大学伯克利分校、中国国家图书馆、浙江图书馆合作开展,旨在寻觅流散海外的中国古籍并将其数字化、公共化。目前,借助阿里达摩院的技术,首批20万页古籍已完成数字化,并沉淀为覆盖3万多字的古籍字典,公众可通过汉典重光平台翻阅、检索古籍。  



海外古籍现状:颠沛流离  



2019年,阿里巴巴和四川大学提出"数字化回归"设想,四川大学历史文化学院王果副院长与该院教授、中央文史研究馆馆员陈力牵线搭桥,沟通北美、欧洲、日韩等地藏书机构,获得加州大学伯克利分校支持,达成共识,由伯克利提供古籍的扫描图片和编目数据,达摩院将其全部文字化。  



据不完全统计,目前散居海外的中国古籍超过40万部、400万册,包括甲骨简牍、敦煌遗书、宋元善本、明清精椠、拓本舆图、少数民族文献等等。总体而言,日本最多,此外还有韩国、美国、加拿大等地。以文澜阁《宋百家诗存》为例,该古籍成书两百多年以来极有可能经历了从杭州文澜阁(约1790年)到南浔嘉业堂,再到日本三井文库,最后到加州大学伯克利分校东亚图书馆(约1950年)的步骤。  



"由于各种原因特别是近代以来国家衰落,大量珍贵古籍流失海外,成为中华民族的一段伤心事,当中华民族重返世界舞台中央,伟大复兴在望之时,'宝贝回家'是全体中国人的共同愿望。"全国政协副主席、九三学社中央委员会常务副主席邵鸿表示,"这次整馆回归伯克利分校所藏古籍,是一个很好的开始,但是对于数量巨大的海外古籍来说,我看到可能比较大的一个数字,超过40万部400万册海外汉籍,这次伯克利分校的回归才是20多万页,只是万里长征走出了第一步。"  



在阿里巴巴达摩院院长张建锋看来,古籍传承面临三大痛点:实体藏书分散、查阅调用成本高、古籍数字化技术难。"经过两年的努力,达摩院的技术专家与四川大学古籍专家联合攻克了一系列古籍数字化的技术难题。我们研发搭建了集古籍数字化交互式训练、古籍全文内容检索、古籍汉字字典三大功能于一体的汉典重光古籍数字化平台,希望通过此平台能满足古籍专家、古籍爱好者和普通读者在古籍阅览和古籍研究方面的不同需求。"  



"古籍数字化的工作量特别大,伯克利能以这样的方式第一个参与进来我觉得很感动。此外,古籍数字化的工作并非设计出一个AI机器人就能够完成,这需要企业既要有技术,也要有情怀、耐力,愿意用公益的方式把事情一点点做起来。"高晓松告诉新京报贝壳财经记者。  



如何将古籍"数字化"?  



"古籍数字化是个非常复杂的跨学科课题,涉及到古籍影像文本的分类标引、检索、挖掘、关联等多方面信息技术的应用。"中国国家图书馆副馆长、国家古籍保护中心副主任张志清说,"古籍数字化已经成为学术研究的基础,如果不能系统整理全部古籍文献,就不能在前人基础上完整可靠的开展研究,如果不能大幅提高检索效率,提供便捷、高效、准确的查询工具,学术研究就没有源头活水和津渡桥梁。"  



中央文史馆馆员、四川大学历史文化学院教授陈力在接受记者采访时表示,数字化对于原件的保护,文物价值本身的保护,也是一种很好的保护,"古籍已经有几百年甚至上千年历史了,如果我们经常去翻阅它,对古籍原件会造成损害,翻的越多损害越多,数字化了以后,原件在非必要的情况下,我们可以尽量的少用,但是内容我们已经能获得了,所以对于原件来说,也是保护。"  



据介绍,目前古籍数字化完整流程分为几大环节:采集侧(纸质书变为电子扫描版)-数字化生产侧(电子扫描版变为文字版)-应用侧(文字版变为古籍研学系统,涵盖检索、字典、知识图谱等功能)。贝壳财经记者注意到,伯克利主要负责了采集侧的工作,而达摩院所做的工作则主要集中于数字化生产侧、应用侧两个环节。  



张建锋透露,达摩院自研了一套全新的AI古籍识别系统,可以规模化、系统化对电子扫描版古籍进行识别,在首批数字化的20万页古籍上,达到了97.5%的识别准确率,覆盖3万类古籍文字,比人工录入效率提升近30倍。  



"?针对现在古籍的文字,我们要思考我们需要采用什么样的技术,让这个数字化成为可行,并且能够达到一定的准确度。我们面对问题的挑战有三点。首先,现代文字是有字典的,但是很不幸的是,古籍是没有现成的字典,第一步要去找到我们要想去做文字识别的目标是什么,我们需要去构建这个字典,这需要大量古籍专家,一个字一个字把这个东西标记出来,是很耗时耗力的。"达摩院视觉实验室负责人徐盈辉告诉记者。  



徐盈辉表示,他的团队通过技术手段解决了字的聚合问题(即把同类字放在一起以提高标注效率),再由四川大学的古籍专家告诉我们哪里识别错了,当反馈信息回到后台,再进一步的去更新表征模型,再产生相应的单字聚合结果,再回馈给古籍专家,形成这样一个闭环的工作模式。这样的话,系统就越用越聪明,最终产出有效的字典。"将来,我们只要在平台输入一个命名实体,比如一个人名、地名,就知道这个人名曾经出现过哪些典籍里面,将来可以完成全文检索的能力。此外,基本可以确定未来整个系统都会捐助出来。"  



"我们希望与阿里巴巴公益基金会合作,把汉典重光做成一个开放的平台。拥有文献的学者可以上传文献,丰富平台内容,不上传也可以利用平台本身来搞研究,进行字评词评统计分析等,为学者提供一个很好的研究工具;对于普通大众来说,它也是一个帮助学习古文的平台。"陈力告诉记者。

 

 

链接