范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

当古籍修复遇上人工智能

  光明日报记者 韩业庭
  北京大学数字人文研究中心、北京大学-字节跳动数字人文开放实验室、北京大学人工智能研究院联合主办的"古籍智能信息处理"系列研讨会日前在线上举办。
  在研讨会上,北京大学数字人文研究中心主任王军算了一笔账:我国现存古籍约有20万种,从1949年到2019年,共修复整理出版了近38000种,照此速度,要将现存古籍全部修复整理出来,可能需要三百年的时间。不过,若利用人工智能技术辅助修复整理,大概二三十年就能完成。
  王军所说的"利用人工智能技术修复古籍",并非遥远的科学设想,它正在成为现实中的生动实践。"古籍智能信息处理"系列研讨会第一讲开讲后不久,字节跳动宣布向北大教育基金会提供捐赠,支持北京大学—字节跳动数字人文开放实验室研发"古籍数字化平台",利用智能技术加速中华古籍资源的数字化建设,预计三年内完成10000种精选古籍的智能化修复整理。
  古籍文本转化正在智能化
  很长一段时间里,古籍保护主要采用原生性保护方式,即把古籍当作"文物"保护起来。后来出现再生性保护方式,对古籍进行影印再造和影像保存,让古籍得以以纸本或缩微胶片的形式存在。现有的数字化古籍很多是由缩微胶片转换而成,分辨率较低且影像多为黑白色。
  即便将所有古籍用数字化手段影印出版,古籍也是"死"的,人们无法方便地使用。北京大学中文系教授杨海峥举了个简单的例子——影印的古籍没有标点符号,非常不便于阅读。另外,这也不利于对古籍内容进行检索,想查阅某个内容,得逐篇逐页阅读原文,很难快速找到想要的知识。因此,要提升传统古籍的利用率,必须将古籍内容转化为数字文本。过去,这种转化主要依靠专家人工录入,时间成本极高。
  "信息技术的发展,尤其是人工智能和大数据技术的出现,为古籍的修复整理带来了革命性变化。"王军说,近年来,包括北京大学在内的不少高校、科研机构在古籍数字化上开展了不少开拓性的工作,在OCR(光学字符识别)、AI句读、实体识别等方面积累了比较成熟的技术和经验。以OCR应用为例,用电子设备对纸本古籍一扫,古籍上的内容就会转录到计算机中,并生成相应的数字文档,效率比人工录入提升了不止千万倍。
  据了解,利用人工智能和大数据技术,北京大学数字人文中心在从先秦到明清跨时代的大规模古籍文本语料整理上,已实现对古文本的自动句读,平均准确率达到94%,同时还实现了对人名、地名、时代名、职官名、书名的自动识别,在中古史料上的准确率接近98%。
  在这些方面,字节跳动等互联网公司也有很多经验和技术积累。例如,OCR技术在今日头条、抖音等平台的图片文字识别、字幕翻译,以及商业化业务中的各类卡证票据及行业文档识别等领域均有广泛应用。"这些技术可以逐渐向古籍智能数字化的方向上迁移。我们在古籍数字化平台开发中,与北大在技术上能优势互补,进行有效的打通与融合。"字节跳动人工智能实验室总监李航表示。
  王军介绍,"古籍数字化平台"将会进一步提升古籍整理的准确率、智能化水平和开放度。一方面,可以对重点文本进行精校,满足专家学者对资料准确度的要求;另一方面,利用智能平台上的文字识别、校对工具,学者和古籍爱好者可以在线上一站式完成古籍整理工作,而不用像以前那样先在word文档中进行整理编辑,再传递相关的文档,在提高效率的同时,也方便公众参与。
  古籍利用有望智慧化
  四川大学中国文化全球传播大数据中心教授王兆鹏认为,技术的进步为古籍修复整理智能化带来两个面向:一是古籍文本转化智能化,二是古籍利用智慧化。
  把纸质古籍上的内容转化成数字文本,只是古籍修复整理的第一步。在此基础上,要解决的另一个问题是,如何将海量晦涩难懂的古籍内容进行整理归类,形成可交互、可触摸、可视化的数字人文作品,以方便人们查阅使用。否则,录入计算机的古籍依然会继续"沉睡"。
  基于人工智能技术,目前我国已建立多个古籍整理自动化和可视化平台。比如,王军主持设计和研发的"《宋元学案》知识图谱可视化系统",对240万字的《宋元学案》进行了文本处理和分析,将2000多位宋元理学学者、近100个学术流派所涉及的人物、时间、地点、著作等提取出来构造成知识图谱。然而,不少平台的智能化水平仍然较低,比如输入关键词,搜索出的内容各自孤立、凌乱无序。王兆鹏认为,更智慧的古籍整理利用平台,应该从1.0版向2.0版演进,比如内容检索应"以类相从",检索出的内容应彼此关联,且由人工智能进行有机分类。
  北京大学与字节跳动合作研发"古籍数字化平台"是提升古籍整理和利用智慧化水平的一次尝试。"我们合作的技术核心是将人工智能和大数据应用在海量的古籍文献上,实现古文本知识图谱的自动生成和对古籍内容的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘利用。"李航说,未来,"古籍数字化平台"不仅是一个古籍智能整理平台,还将是一个面向读者的数字化阅读工具,将提供免费开放的访问服务。
  王军预计,随着人工智能技术的运用,古籍文献中所蕴藏的古代历史文化知识将不断被抽取出来,构造成各种各样的知识库,并将会以知识图谱的形式支持互联网前端应用。
  由于在互联网产品研发、设计方面存在优势,互联网公司等社会力量的加入会进一步保障古籍数字化平台的服务质量。"我们有优秀的产品经理、设计师、软件工程师,能够不断优化、创新古籍数字化平台的产品功能,提供更好的用户体验。"北京字节跳动企业社会责任部产品总经理唐垲鑫表示,目前今日头条的设计团队和抖音的开发、测试团队已经加入"古籍数字化平台"的开发工作。
  需要跨学科通力合作
  随着人工智能技术在古籍修复整理领域的广泛应用,作为古典文献专业的老师,杨海峥经常被学生们问到一个问题:"学古典文献的同时,还要学人工智能吗?"虽然杨海峥不能确定,但一个事实是,人工智能技术与古籍修复整理的结合,将开辟出全新的交叉学科领域,利用人工智能技术修复整理古籍肯定需要更多复合型人才。
  王军认为,在这种情况下,高校古典文献学等相关专业如何培养兼具技术与学术能力的古典文献学人才,如何形成多学科交叉的课程体系等,都是亟待解决的问题。
  此外,人工智能并非"绝顶聪明"。在华南理工大学电子与信息学院教授金连文看来,古籍图像增强、修复,复杂版式古籍文档图像版面分析等问题都有待解决。而在对古籍内容的分析整理中,目前最大的技术难点是人工智能对古籍中人名、地名等专有名词识别后,如何进一步实现关系提取,从而为古代历史文化知识图谱的自动生成准备技术条件。
  因此,杨海峥认为,在古籍整理中,人文社科学者还是要积极介入,并加强与技术人员的合作,那样才能更好地利用机器而不是被机器牵着鼻子走,从而保证结果的准确性。
  人工智能技术的发展带来了古籍整理研究方法、思路的根本改变。业内的一个共识是,利用人工智能推进古籍修复整理需要进行跨学科、跨环境、跨文化、跨地区合作。正如王军所言,"古籍保护需要社会各界的共同努力,应欢迎更多古籍收藏机构、研究机构和热心古籍事业的个人加入,这样才能打造出一个开放的‘古籍数字化平台’"。
  《光明日报》( 2022年04月11日09版)

远程控制的5G空调您了解吗?前几天我关于手机有5G了,那您知道空调也可以实现5G互联吗?中讲述了5G空调的互联,今天带大家一起学习探讨VAM尊睿无界和VAM尊睿别墅以及VAM尊睿(全效型)还有SETFREE智防止被割韭菜,买新手机之前的4个忠告,让你新机多用3年苹果华为OPPOvivo小米魅族realme红米iQOO,这么多手机品牌的手机怎么选?高考完了,不管是分类高考,还是普通高考,只要考完了就代表我们解放了。考完的第一件是,很多人都是OPPOK10Pro全面评测全方位升阶,硬核不止性能从首款千元屏幕指纹手机OPPOK1开始,OPPOK系列的硬核之路便一发不可收拾。硬核初现的OPPOK3系列初尝5G的OPPOK7系列直至最近的硬核轻旗舰的OPPOK9系列均将硬核性vivo悄然发布中端机型,核心性能提升,1899元起步2022年的vivo虽然发布会时间较晚,但惊喜是一轮接一轮,发布会节奏非常快,从旗下首款折叠屏机型vivoXFold和大屏旗舰vivoXNote,到2022年的新款年度旗舰机型vi如何正确释放C盘提升电脑速度我经常发现电脑C盘内存几乎用尽,可用内存少的可伶,出现这样的原因是下载软件的默认位置放在C盘,而几乎很少有人去改变默认的下载路径,久而久之C盘内存就不够用了,当出现C盘容量不足时,吉利手机外观专利获批,网友与魅族有关吗?大家还记得前段时间行业内传言吉利收购魅族之事吗?虽然这个事没有了下文,但是吉利进军智能手机行业是板上钉钉的事,已经确认了。旗下的首款手机极有可能在今年发布,这不吉利首款手机的外观专发力第二曲线业务布局2022年中兴通讯(000063。SZ)手机业务坚持在产品品牌渠道上发力智通财经APP讯,中兴通讯(000063。SZ)在4月21日接受摩根士丹利等机构代表调研时表示,2021年第四季度单季毛利率环比下降主要受到国内运营商资本开支节奏,同时公司消费者业女子频繁索赔,被美团封锁账号,找电台曝光被怼你放过人家吧导读上海一女子疑似因薅羊毛被美团封杀,不服气想申诉,被主持人怒怼!近日,上海一女子的行为引发了争议。据悉,该女子于2月份频繁通过美团平台网购,每次网购的经历都不太愉快,不是配送超时明日之后IP加持,能满帧运行原神的红魔7迎来全新美学设计4月25日红魔品牌四周年新品发布会上,红魔游戏手机再次给我们带来了令人期待的明日之后特别版新机,让我们再次见证了红魔强大的产品创新力。据了解,明日之后特别版是红魔与国内废土生存手游安全节能精工品质,我选奥特朗即热式热水器家有热水器经常会遇到不少问题,比如耗电量高烧水效率低安全系数没保障容易出故障等,而且大部分家用电热水器还占空间,问题还真不少。我们家选用的奥特朗即热式电热水器,完美解决了这些问题。突发,网易云音乐起诉腾讯音乐不要把功夫下在邪道上4月27日,网易云音乐发声明宣布,正式起诉腾讯音乐不正当竞争,包括旗下QQ音乐酷我音乐酷狗音乐,并列出数个侵权行为。声明中提到,腾讯音乐恶意侵犯著作权涉嫌对抗整改,抄袭对网易云音乐
财富反超钟睒睒,中国首富再次换人,身价3785亿排名全球第202020年以来,功夫山泉创始人钟睒睒成为富豪榜最大的黑马,甚至一度登上亚洲首富的宝座。不过根据5月18日最新的福布斯富豪榜,钟睒睒被反超,国内首富再次被马化腾夺走。49岁坐拥378花几千块买的5G手机,为什么网速却仍旧很慢?答案出来了现在,不少人已经有了5G手机并自动开通了5G套餐,手机的信号显示上也看到了5G标识。不过在具体的体验上有时却感觉与4G没有太大区别,或者并没有想象中那么快,原因何在呢?相信很多人都内行帮你选都是120Hz,谁的屏幕更出色?一直以来,我们选择智能手机通常会去对比颜值设计性能表现续航快充以及影像水准等等,很多时候却忽略了最为关键的部分屏幕。咱们99。9的手机功能都是通过屏幕进行输出,一块好的屏幕能够让整超跑开门方式!极氪001剪刀门版曝光,装X成本或将大幅降低极氪001的热度还没有完全消散,就又被抓拍到了新车谍照。上海车展吉利全新独立的智能电动车品牌极氪带来了首款车型001,凭借着出色的动力续航性能以及超高性价比的配置上市即火爆。而最近没有宋紫薇是遗憾!IQOONeo5活力版黑科技公布,自带内存融合技术大家好,我是探长,距离IQOONeo5活力版的发布还剩4天时间。只不过,好像这款手机不会召开独立的发布会,而是直接启动预售,所以那些宋紫薇的粉丝们可能要失望了。紫薇和手机不可兼得,Android12正式发布,大多数品牌手机都可以下载了时隔两年之后,谷歌开发者大会再次召开,而这次的开发者大会也没有让我们失望,刚一开始就发布了不少人期待之中的Android12。图源网络侵删从已经公布的内容可以看到,Android1刚刚,华为发布的降噪耳机,比AirPodsPro便宜一半一年365天,科技圈有300天都在开新品发布会。可要说谁家的发布会最让人省心,小优心里非华为莫属。事前爆料少,一次放大招,产品从不挤牙膏,价格其实也不高。没错,此处暗戳戳拉踩某果。堪称地图界的全能王百度地图导航功能又有新发现众所周知,一旦走在陌生路段,走错车道错过路口停车难等问题便层出不穷,即使是经验十足的老司机也难免深受其扰,而对于新手来说,面对复杂路况更是完全凭感觉开车,危险系数up!其实,针对以iOS14。7Beta1版本推出!这个重要的隐私功能终于可以使用了iOS14。7Beta1在苹果结束了iOS14。6测试版之后,又火急火燎的推出了罕见的iOS14。7第一个测试版,要知道,iOS14。6正式版还没有推出!从更新间隔时间来看,本次更微软官宣放弃Windows10X系统相关功能将被集成到其它产品此前为了更好的适配双屏或折叠屏的PC设备,微软进行了Windows10X的操作系统开发,并且它也被大家视为微软应对谷歌ChromeOS操作系统的解决方案,不过随着微软自家的双屏设备游戏业务增速放缓腾讯继续切换新旧引擎来源北京商报从提出消费互联网和产业互联网这个战略重点后,腾讯现金牛业务增值服务和新设立的金融科技及企业服务的营收占比就起起伏伏。一季度,腾讯金融科技及企业服务和增值服务这两个新旧引