免费开放390部经典,未来3年整理上万本古籍,这座图书馆上线了测试版
#北大联合字节上线免费古籍阅读平台#
近日,由"北京大学-字节跳动数字人文开放实验室"研发的古籍数字化阅读平台"识典古籍"测试版正式上线。该平台涵盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。
在很多人的印象里,古籍文本往往艰涩难懂,而且接触机会不多。在数字时代,这种情况正在发生转变。借助现代技术对典籍进行数字化呈现,将卷帙浩繁的古代典籍"复活",让那些尘封已久的字符重新跳动起来,成为每个人触手可及的工具与资料库。
近年来,OCR(光学文字识别)、AI(人工智能)句读和知识图谱等技术的快速发展让古籍数字化有了更多可能。一些科技公司与专业机构和科研院校合作,将技术优势与专业知识进行有效打通与融合,积累了较为成熟的技术和经验。
这些技术支撑起如今的"识典古籍"测试版,也成为更多古籍数字化的起点。未来三年内,"北京大学-字节跳动数字人文开放实验室"将陆续完成10000种古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。
"识典古籍"测试版网站首页
为什么古籍保护需要更开放?
古籍作为中华民族文化传承的重要渠道之一,记载了大量中华民族文化形态和发展历史。但由于朝代更迭、战争、自然灾害以及年代久远等原因,大量古籍已流失或毁坏。2007年,"中华古籍保护计划"开始实施,迄今已有15年。
经过全国古籍普查,每部古籍都拥有了一张"身份证",研究人员还发现了包括《永乐大典》"湖"字册在内的一批珍贵文献。收藏环境方面,全国1000余家古籍收藏单位的库房条件有所改善,超过2000万册/件古籍得到妥善保护。
古籍修复师在工作
而在2022年的当下,人们阅读古籍和查找资料的习惯和场景越来越多地转移到线上。同时,普通读者对于古籍的关注度也在不断上升。今年初,98岁的古籍版本目录学家沈燮元因为一部纪录片,受到广泛关注,在网络走红。
在抖音上,国家图书馆副馆长、国家古籍保护中心副主任张志清,国家图书馆古籍修复专家杜伟生、故宫书画修复专家沈洪彩等,通过短视频的形式介绍传统经典作品的保护与修复工作,让更多人了解到其中的知识和意义。
然而,古籍保护工作仍然任重道远。据"识典古籍"项目负责人介绍,目前亟需修复的古籍数量达到1000万册/件。20万种古籍中,已有8万种完成影像数字化扫描,近4万种完成文本数字化。古籍修复人力成本很高,培养一名专业修复人员需要极高的时间成本,而古籍数字化工作也面临资金缺口大、技术难度高等困难。
在社会各界的努力下,一批数字化古籍平台涌现出来,包括中国哲学书电子化计划(Chinese Text Project)、书同文古籍数据库等等。这些平台有着各自的优势,但也有不同局限。书同文古籍数据库收费较高,普通读者无法随时随地进行查阅和使用。中国哲学书电子化计划目前囊括了超过三万部著作,但未能解决一个基本问题,用户常常无法访问。
在这样的背景下,更加开放的合作与探索开始出现。
开放合作下的新趋势
在文物保护与传承的过程中,文保机构、科研院校与科技公司的跨界合作越来越普遍,珍贵古籍、专业团队、先进技术由此得以汇合。2018年,半导体公司英特尔与中国文物保护基金会合作,启动了利用3D建模与AI识别修复长城的项目。2021年3月,腾讯联合敦煌研究院开发了AI病害识别技术,用于壁画修复与保护。
2021年5月,阿里巴巴公益基金会联合四川大学、美国加州大学伯克利分校、中国国家图书馆等,推出"汉典重光"古籍平台,让一批珍藏于加州大学伯克利分校的中文古籍善本,以数字化的形式回归。该平台涵盖的古籍数量为20万页。
从2021年6月开始,字节跳动联合国家图书馆等机构、中国文物保护基金会等,在古籍修复、活化和数字化等领域开展了一系列合作,包括捐资1000万元,联合成立古籍保护专项基金等,定向修复百余册件珍贵古籍。
字节跳动古籍保护专项基金启动现场
2022年3月17日,北京大学与字节跳动合作成立"北京大学-字节跳动数字人文开放实验室",致力于研发开放的"古籍数字化平台",将人工智能和大数据应用在海量的古籍文献上,实现对古籍内容的智能化整理和古文本知识图谱的自动生成。
近期上线的"识典古籍"平台测试版,便是这一合作的最新进展。据项目负责人介绍,该平台主要使用了三种技术,即文字识别、自动标点、命名实体识别。
文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。目前行业内OCR识别准确率平均为93%至94%,"识典古籍"的准确率为96%至97%。
同时,这些先进技术也离不开人的支持。北京大学数字人文研究中心主任王军表示,北大在这次合作中联合各大高校学者和文献专家,负责人工审核与校对,弥补人工智能有识别错误率的短板,并利用自有学术平台,连接更多专业研究者和学生群体。
该平台测试版已免费向所有用户开放,在数字化文本内容之外,提供足够权威的影印底本作为参照,同时提供主题词检索和繁简体转换功能,方便专业研究人员、古籍爱好者以更加高效便利的方式获取古籍内容。同时,"识典古籍"测试版也存在一些不足,比如典籍数量相对较少,标点错误率还需进一步降低。
"识典古籍"测试版页面
接下来,"北京大学-字节跳动数字人文开放实验室"计划通过人工智能技术,实现全自动整理校对,借助全社会的力量,更高效地实现存量古籍全部数字化。同时,"识典古籍"还将向全社会开放古籍阅读检索研究能力,助力古籍文化传承和传统文化研究。
我被自认为最爱自己的枕边人背叛,才发现自己就是一个小丑相信很多人都经历过背叛,我也经历过背叛,曾经把他当作自己的全部,在刹那间,仿佛上天给自己开了一个天大的玩笑,当时的第一反应就是,全世界的人可能都会背叛,唯独他不会背叛,当时的天旋地
中英双语绘本告诉我出生时候的故事头条创作挑战赛中英双语绘本告诉我出生时候的故事唯美温馨讲述孩子zui爱的出生时候的故事,共享亲子时光用简约幽默和优美的方式讲述了和出生有关瞬间,充满感动每个孩子都是独一无二的,让孩
济南功能区管理精简高效激发经济发展新活力近日,在济南新旧动能转换起步区,总投资150亿元的比亚迪新能源乘用车及零部件产业园项目实现首台整车下线。这个项目主要建设冲压焊装涂装总装四大工艺厂房,我们全程提供保姆式服务,项目从
今日大雪丨寒意浓雪渐盛今日大雪丨寒意浓雪渐盛大雪冬季养阴每天喝好三杯水大雪时节是一年中阴气较盛的季节,这时如果借助天气的优势养阴,则可以调整体内的阴阳平衡。冬季养阴最好的莫过于多喝水,很多人觉得口渴就喝
今日大雪,建议大家牢记5个饮食禁忌,调理体质,安稳过冬俗语有云冬天进补,开春打虎。由此可见,从古至今,冬季的饮食对于身体有着很重要的意义。在大雪前后的更要饮食得当,摒弃不良的饮食习惯,才能养护身体,更好地度过冬天。虽然无法左右冬天的气
吃降压药不能喝牛奶吃柚子?医生服降药时,真正要远离的是3物高血压的发展为严重心脑血管疾病的高危因素,近几年高血压发病概率持续新增,占到全国总人口的25。9,相当于每个家庭当中就存在12个高血压患者。确诊高血压后,不仅要坚持服用降压药,还要
冠心病的预防措施有哪些?这篇文章告诉你随着经济的增长,人们生活方式的改变,精神压力大等导致冠心病的危险因素不仅存在,而且逐年增加。如肥胖高血压高血脂糖尿病等疾病的比例逐年上升,使得冠心病的发病率和死亡率持续增加,患病年
大雪节气养生,做好这三件事大雪节气过后,天气越来越冷,很多女性朋友整个冬天都手脚冰凉,这是气血不足的表现。中医认为,冬季正是调养身体的大好时机,做好这三件事御寒保暖规律作息适度食补,让你在这个冬天不再怕冷!
今日大雪,气温骤降,建议爱喝酒的改掉3习惯,平安过冬天今日大雪,气温骤降,建议爱喝酒的改掉3习惯,平安过冬天梅须逊雪三分白,雪却输梅一段香。不知不觉,就进入了节气中的大雪,很多地方都已经进入保暖防寒的状态。一到这时候,大家都会炖萝卜,
这4种屁要注意了肝郁屁多,胃积屁闷,肠积屁堵,气虚屁无力爱放屁的人要注意了,中医认为肝郁屁多,胃积屁闷,肠积屁堵,气虚屁无力,这4句话分别是什么意思,又该怎么去参考中成药调理呢?今天贾医生就来告诉你答案。首先为什么说肝郁屁多,肝主疏泄,
别再乱用凡士林啦,我来告诉你凡士林的正确用法凡士林一直都是家喻户晓的产品,不管是大明星还是贫民窟女孩都是人手一个,但是网上把凡士林吹得天花乱坠,各种奇葩用法令人瞪目结舌,接下来小编就来说说凡士林的错误功效以及如何使用可将价值