范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

领先神经网络朱松纯团队提首个基于符号推理的几何数学题求解器

  机器之心发布
  机器之心编辑部
  实现高级别的数学逻辑推理能力一直是通用人工智能追求的目标之一。近日,UCLA 联合浙江大学和中山大学的研究者提出了首个基于符号推理的几何数学题求解器 Inter-GPS。Inter-GPS 将几何题的图片和文字解析为统一的形式语言,运用相关的几何定理,逐步进行符号推理直至预测出最终的答案。Inter-GPS 实现了 57.5% 的准确率,远超神经网络方法的 33.0% 的准确率。
  几十年来,如何让人工智能算法具备复杂的数学推理能力,像人类一样求解各种数学题,一直是科学家们追求的目标。其中,求解几何数学题就是一项非常具有挑战的任务。求解几何题,算法需要理解题目的文字和图形信息,识别丰富的几何元素和关系,运用相关的几何定理,完成一系列的数值计算,直至求解出最终的问题答案。
  一道典型的几何数学题。
  心理学家和教育家的研究表明,求解几何问题需要符号抽象和逻辑推理的高级思维能力。人类在求解几何题的时候,会抽象出题目的结构化语义,从而完成后续的逻辑推理。形式语言是由基于一套符合特定规则的语句组成,通常用于语言学和数学领域。研究团队认为将几何题目输入解析为形式语言的描述是非常重要的。
  来自 UCLA、浙江大学和中山大学等机构的联合研究团队提出了一种基于形式语言和符号推理的、具有很强可解释性的几何解题方法:Inter-GPS。
  论文链接:https://arxiv.org/pdf/2105.04165.pdf 代码链接:https://github.com/lupantech/InterGPS 项目主页:https://lupantech.github.io/inter-gps
  Inter-GPS 实现了一个自动解析器,通过目标检测和规则匹配将输入的图片和文字信息解析为统一的形式语言表达。与已有的参数学习方法不同,Inter-GPS 将几何解题定义为问题目标的搜索任务,通过融入定理知识作为条件规则,逐步进行符号推理。同时,Inter-GPS 实现了一个定理预测模型,来推断解题可能所需的定理应用顺序,从而帮助获得合理的搜索路径 。Inter-GPS 展示了一种可解释的方式来解决几何问题,同时大量的实验表明,Inter-GPS 比现有的神经网络方法取得了非常显著的提升。
  Geometry3K 数据集的一个样例。
  团队还收集了一个大规模的几何数据集 Geometry3K,弥补了当前该领域的空白。Geometry3K 包含 3002 道高质量的中学几何问题,每道题目标注了详细的形式化语言,为后续的几何问题求解的研究建立了很好的评估基准。目前,该工作已经被 ACL 2021 收录,将在会上做口头报告。
  几何形式语言
  本文将题目表达为几何领域的形式语言。几何形式语言是一组由谓语和参数构成的语句组成。几何形式语言将用到以下几个基本术语: 谓词(predicate)表示几何形状、几何关系或者计算函数; 语句(literal,也称 logic form)是谓词作用于参数所构成的一条表达。多条语句组成了形式语言空间中对问题文本和图片的语义描述; 元素(primitive)表示一个基本的几何单元,例如图形中提取到的点、线段、圆弧或圆。
  本文一共定义了 91 个谓词和对应的语句模板。为了方便开发,根据不同的功能,它们被分为了 6 组:
  几何领域中的谓语及形式语言模板(部分)。
  Geometry3K 数据集
  数据收集
  已有的几何题数据集往往数据规模比较小、包含有限的题目类型,或者没有公开。因此,研究团队首先建立了一个新的大规模基准数据集,称为 Geometry3K。这些数据从两本中学教材收集,涵盖了北美 6 到 12 年级的几何知识。每道题收集了 LaTeX 格式的问题文本、几何图形、四个选项和正确答案。为了模型的精细评估,每个数据标注了问题目标和几何图形的类型。
  不同于现有的数据集,Geometry3K 对每道题的题目文字和图形标注了统一的形式语言描述。这些形式语言填补了传统方法处理文本和视觉内容存在的语义鸿沟,有利于问题求解器进行符号推理。
  Geometry3K 的数据样例。
  数据统计
  Geometry3K 数据集由 3002 个问题组成,分为训练集、验证集和测试集 3 个集合。问题文本的词数分布出现了长尾现象,这表明几何求解模型需要理解文本内容中的丰富语义。
  Geometry3K 的基本统计信息。
  Geometry3K 中问题词数的分布情况。
  数据比较
  目前,Geometry3K 是已公开中最大的几何问题数据集。除了已有数据集 [2,3,4,5] 包含的四种基本图形(线段、三角形、正四边形和圆),Geometry3K 还包含了不规则四边形和其他多边形。此外,Geometry3K 的问题涉及到更多的未知变量和运算符类型,这就要求求解器通过解方程来求得问题的目标。值得注意的是,在 GEOS 数据集 [2] 中,80.5% 的问题可以仅根据问题文本内容而被解答。相比之下,对于 Geometry3K 数据集,如果缺少图片信息,只有不到 1% 的题目可以被正确求解。总的来说,Geometry3K 是一个很有挑战的几何问题求解的基准数据集。
  Geometry3K 与已有几何数据集的比较。
  几何数学题解析
  题目文字解析
  题目文字解析是将文字内容翻译为几何形式语言。受到已有工作的启发,本文利用基于规则的解析方法来获得高精度的解析结果。本文也尝试了基于神经网络的语义解析方法完成形式语言的翻译。但是神经网络方法生成的形式语言会带有很多错误。这是因为神经网络通常是数据驱动,然而已有的数据集规模有限,因此削弱了这些高度数据驱动的方法。这些带有误差的生成结果并不适用于基于符号推理的几何求解器。
  题目图形解析
  对于题目的几何图形,本文实现了全自动的图形解析器,无需人工干预就能将图形解析为形式语言的表达。首先图形解析器利用霍夫变换(Hough Transform)提取图形中的几何元素。然后,解析器通过一个强大的目标检测模型 RetinaNet 提取图片中的符号和文本区域。这些文本区域进一步由 OCR 工具 MathPix 识别出其中的文字内容。
  提取到的几何元素集合 P(左)和符号集合 S(右)。
  在获得几何元素集 P 和符号集 S 之后,我们需要关联每个符号到与其相关的几何元素上。具体地,本文把关联任务定义为在几何关系约束下的优化问题:
  在上面的公式中,dist 度量了符号 si 和几何元素 pj 之间的欧几里得距离,F 定义了约束符号定位的几何关系。例如,垂直符号只能关联到两条正交的线段。最终,关联的几何元素和符号会通过简单的规则转换到最终的形式语言表达。
  这些形式语言表达了结构化、层次化的几何属性和关系,通过运用相关的几何定理,几何关系集会不断更新,直至求得问题的目标:
  形式语言所表达的层次化几何关系。
  Inter-GPS 求解器
  基于符号推理的求解
  本文提出了基于符号推理的几何问题求解器 Inter-GPS。Inter-GPS 将几何关系集 R 和定理集 KB 作为输入,应用定理预测器预测适用的定理序列,逐步对关系集进行符号推理,从而输出问题目标的答案。
  Inter-GPS 的框架。
  关系集 R 定义了给定问题中的几何属性和关系,被初始化为问题解析器生成的形式语言。定理集 KB 表示为一组定理,其中定理 ki 是由条件 p 和结论 q 组成的规则。在搜索步骤 t,如果定理 ki 的条件 p 与当前关系集 Rt-1 相匹配,则根据结论 p 更新关系集。在应用若干定理之后,可以建立起已知变量和未知目标 g 之间的方程组:
  通过求解这个方程组,即可求解该问题目标:
  定理顺序预测
  Geometry3K 中的几何问题是从高中课本中收集的,具有一定的难度,往往需要运用多个定理才能求解。那对于每道题,如何找到适用的几何定理呢?一种简单的搜索方法是暴力随机枚举定理集中的所有定理。然而这种随机搜索的方法效率很低,如果过早采用复杂的定理,还可能导致问题无法被求解。
  一个理想的求解器需要预测适用的几何定理应用顺序,从而高效地求解几何问题。一个表现优秀的学生可以通过一定量的解题训练,学习到几何知识,在实际测试中运用学到的知识快速完成问题的求解。受此启发,本文提出了一个定理预测器。定理预测器通过在训练数据上进行多轮尝试学习后,可以对测试问题预测出可能的定理应用序列。
  然而由于繁重的标注工作量,Geometry3K 没有为几何题标注适用的定理应用序列。为此,本文从定理集中多次随机抽样以生成序列。对于一个生成的定理应用序列,如 3-5-17,如果求解器应用了该序列能正确求得问题的答案,则该序列可视为正例。对于一道题的多个正例序列,长度最短的序列被近似认为是最优序列。经过多轮采样和尝试,本文获得了 1501 道训练题目的近似最优定理应用序列。
  给定问题的形式化被描述 L =
  ,定理预测器要重构近似最优的定理序列 T =
  。本文将该任务处理为序列到序列的学习,使用基于 Transformer 的序列生成方法,优化定理序列 T 的负对数似然损失:
  低阶定理优先的搜索
  在应用了定理预测器所生成的定理序列后,Inter-GPS 很可能仍然无法找到问题目标。一般来说,人类在解决数学问题时倾向于先使用简单的定理来减少复杂的计算。如果简单的定理不够求解问题,他们则会考虑使用更复杂的定理。为此,本文将定理集分为两组:低阶定理集 KB1,即简单的定理;高阶定理集 KB2,即复杂的定理。应用了预测的定理顺序之后,在接下来的每个搜索步骤中,Inter-GPS 首先尝试低阶定理集 KB1 中的定理来更新关系集 R:
  如果低阶定理不能进一步更新 R,则考虑使用高阶定理来更新 R:
  实验与分析
  实验结果
  受益于基于形式语言的符号推理,Inter-GPS 在 Geometry3K 数据集上实现了 57.5% 的总体准确率,远远超过神经网络最好取得的 33.0% 的准确率,甚至超过了普通成年人的准确率。如果采用人工标注的形式语言,Inter-GPS 可以进一步获得 20.8% 的提高。
  不同模型在 Geometry3K 上的结果。
  不同的搜索策略
  本文评估了不同的搜索策略: Random:即随机应用定理集中的定理; Low-first:在每一轮搜索中,优先使用低阶定理; Predict:先应用预测的定理,之后随机应用定理集中的定理; Final:先应用预测的定理,之后优先使用低阶定理。
  可以看到使用低阶优先(Low-first)的搜索策略,可以显著降低平均搜索步骤到 6.5 步。而 Inter-GPS 最终采用的搜索策略可以以较低的搜索步骤,实现最高的解题准确率。
  Inter-GPS 在不同搜索策略下的表现。
  不同的形式语言输入
  目前的 Inter-GPS 非常依赖形式语言输入的质量。实验表明,目前的文本解析器已经能实现接近人工标注的质量。然而图形解析器生成的形式语言表达还有很大的提升空间。
  Inter-GPS 在不同形式语言输入的表现。
  搜索步数的分布
  Inter-GPS 最终采用的搜索策略首先应用预测的定理顺序,然后优先使用低阶定理。该策略表现出非常优秀的搜索效率:对于成功求解的题目,65.97% 可以在 2 步内求解,70.06% 可以在 5 步内求解。
  Inter-GPS 成功求解题目所需的步数分布。
  符号推理 VS 神经网络
  目前,神经网络未能在 Geometry3K 数据集中取得令人满意的结果。一个主要的原因是由于数据样本有限,神经网络不能学习出问题输入的有效语义表达。另外,神经网络学到的隐式表征可能不适合几何问题解决这类复杂的逻辑推理任务。
  为此,本文做了一个有趣的实验,即将一个神经网络方法中的文本和图形输入替换为形式语言表达,结果取得了 9.2% 的准确率提升。这表明如果神经网络能够学习具有丰富语义的结构表征,那么其在逻辑推理任务上可以表现出较大的潜力。
  神经网络采用形式语言作为输入(formal)。
  失败场景
  尽管 Inter-GPS 取得了不错的结果,但还是无法处理一些难度较大的场景。如文本解析器无法正确解析复杂的文本表达,图形解析器无法处理含糊的标注和多个图形的组合。同时 Inter-GPS 还无法求解需要应用多个复杂定理的问题。
  Inter-GPS 失败的几个场景。
  结论与展望
  求解几何问题是数学问答中最具挑战性的任务之一。本文中,研究团队构建了大规模的几何问题基准 Geometry3K。Geometry3K 包含 3002 道中学几何问题,并且每个数据标记了详细的形式化语言描述。研究团队提出了新颖的、具有可解释的几何问题解决方法 Inter-GPS。Inter-GPS 将问题内容自动解析为几何形式语言,并基于定理知识进行推理以推断出答案。实验表明,Inter-GPS 明显优于已有的神经网络模型。本文的工作可以启发符号推理和可解释模型的研究,也可以促进智能教育领域的相关研究。
  主要引用文献:
  [1] Minjoon Seo, Hannaneh Hajishirzi, Ali Farhadi, and Oren Etzioni. 2014. Diagram understanding in geometry questions. In Proceedings of the AAAI Conference on Artificial Intelligence (AAAI).
  [2] Minjoon Seo, Hannaneh Hajishirzi, Ali Farhadi, Oren Etzioni, and Clint Malcolm. 2015. Solving geometry problems: Combining text and diagram interpretation. In Proceedings of Empirical Methods in Natural Language Processing (EMNLP), pages 1466–1476.
  [3] Mrinmaya Sachan, Kumar Dubey, and Eric Xing. 2017. From textbooks to knowledge: A case study in harvesting axiomatic knowledge from textbooks to solve geometry problems. In Proceedings of Empirical Methods in Natural Language Processing (EMNLP), pages 773–784.
  [4] Chris Alvin, Sumit Gulwani, Rupak Majumdar, and Supratik Mukhopadhyay. 2017. Synthesis of solutions for shaded area geometry problems. In The Thirtieth International Flairs Conference.
  [5] Mrinmaya Sachan and Eric Xing. 2017. Learning to solve geometry problems from natural language demonstrations in textbooks. In Proceedings of the 6th Joint Conference on Lexical and Computational Semantics, pages 251–261.

奥运会金牌重556克,含金量只有6克!日本真的这么抠门吗?文整点科普东京奥运会首日,中国运动员勇夺三枚金牌,前两日全红婵10米跳台三跳满分夺金更是让无数人惊叹天才,截至目前,三十余枚金牌不仅让国人热血沸腾,更让世界看到中国的力量和速度。中太阳系是由超级文明制造的?1万年前的洞穴壁画,或可解释文整点科普流浪地球被搬上大荧幕后,刘慈欣的三体也跟着火了,看完小说,许多人心里都有这样的疑问除了地球文明,宇宙中是不是还存在着不为人知的高级文明呢?甚至有科学家怀疑,太阳系就是被超为什么有的蚂蚁能进化出翅膀?蚂蚁眼中的世界,和人有什么不同?文整点科普任何一个物种都有其独一无二的进化过程,即使是人类这种高级生物,也有说法认为是通过古猿进化而来的。从天演论的角度来说,物种之所以会进化,是因为物竞天择,适者生存的大自然规律一万多面镜子,年发电近2亿千瓦时的发电站,比科幻大片还壮观文整点科普很多人小时候都做过一个实验拿一个放大镜,放到太阳底下,会发现太阳光透过放大镜能够将纸团点燃,其中的原理是聚光发热。试想一下,一万多面镜子组成的放大镜效果会怎么样?会不会产竹子开花寓意不详,竹子结果却受欢迎,为什么找到的人不愿意卖?文整点科普竹子在中国文人的心里从来就是高洁的象征,都很喜欢写诗写词赞叹竹子它在日常生活中也起到非常重要的作用,竹笋美味爽口竹叶泡茶酿酒竹竿制造生活用品果实更是医食两用等等,可谓全身杨利伟登空回到地球后,为何再也没有重返太空?真相令人感动文整点科普2003年,杨利伟乘坐神五顺利飞上太空,成为中国太空第一人,在这之后,我国陆陆续续进行了多次载人航天任务,但却没有见到杨利伟的身影。今年神十二号发射成功,飞天的3位航天员盔犀鸟头骨深受贵族的追捧,被称为鹤顶红,价格比黄金还贵文整点科普有一种鸟,它的头骨价值比黄金还贵,是文玩界的宝物,被称为鹤顶红。这里的鹤顶红并不是指毒药,而是一种珍贵鸟类头骨制作成的工艺品,这种珍贵的鸟就是盔犀鸟。盔犀鸟是国家二级保护追杀蓝鲸吃海豹的虎鲸,人送外号杀人鲸,为什么会积极救人?文整点科普大白鲨作为海洋中的霸主,可以在海面上横行霸道,素有食人鲨的称号,人类十分畏惧。但是,如此凶猛的大白鲨,在虎鲸的面前也只是小小的蝼蚁。虎鲸被人们称为杀人鲸,可它却从来没故意河南野猪泛滥,如今终于可以下狠手清除,为何野猪如此狂妄?文整点科普野猪家猪都是猪,但在我国,和吃饱长肥待宰的家猪不同的是,野猪可以掌握自己的命运,因为它们是国家三有保护动物,这个尊贵的身份让它们得以自由生长,甚至胆大妄为。近年来,我国多日本时速4812千米的列车,从大阪到东京只需10分钟?真相来了文整点科普一直都有人认为外国的月亮总是比较圆,崇洋媚外现象严重,对中国制造信心不足。日本作为亚洲的经济小强国,很多领域是亚洲的领跑者,但是有些东西也是被夸大其词,俗称日吹。有一位博美国军队污染排放量抵得上140个国家,研究者建议其削减军事规模近期,来自英国兰卡斯特大学环境问题研究中心的研究人员本杰明卡马克针对一向被公众考虑较少的美国军队污染排放量进行了调查研究。研究的结论是相当惊人的美国军队的污染排放量抵得上140个小
LIGO将获得新镜面涂层以扩大其探测范围据外媒报道,除了向LIGO观测站提供资金,美国国家科学基金会目前还正在努力申请更新以使观测站能进一步深入宇宙。目前,在华盛顿州的汉福德和路易斯安那州的利文斯顿都设有LIGO观测站。如果把月球炸了,人类还能继续存在吗,地球会受到什么影响?1959年,苏联发射了第一架月球探测器,两年后的1961年,苏联又发射了第一艘载人飞船,加加林由此成为第一个进入太空的人类。随着苏联在航空航天领域的高歌猛进,作为对手的美国也不甘示埃及法老的宝石,地球无法自产,名为雷米石,只由陨石制造埃及法老一直很神秘,他们被诅咒阴谋和神话围绕着,现在这些古老的统治者似乎又跟宇宙联系了起来,科学家发现图坦卡蒙胸前的装饰物,竟有一块地球无法自产的宝石。大约2900万年前,埃及西部16年前爆红的火星男孩结局如何?他对2020年的预言是否可信?火星男孩究竟是不是真的存在?他的诸多预言从何而来?下面安琪带大家了解一下火星男孩背后的奥秘。引子大家好,我是安琪。今天我们来聊火星男孩。可能大家已经对他非常熟悉了,从2004年到现一场比整个地球还大的风暴木星大红斑的风速加快,1小时超过640公里木星一直是天文学家好奇的中心,不过,吸引注意力的不仅仅是这颗行星的惊人大小,还有地表的现象。大红斑就是其中之一,这是一场巨大的风暴,可以看到从太阳系中最大的行星表面快速掠过。哈勃太短短时间,中国实现三大突破!探月探火后,中国即将开始探日工程探日工程在中国第十三届国际航天博览会上,网友们在观看展品时,有了惊人的发现。由中国航天科技集团八院,展出的是太阳双超卫星,也就是说,我国的探日计划,即将启动。据悉,在今年下半年,我英媒人类未来可能从月球岩石中提取氧气和水据英国新科学家杂志网站9月27日报道,未来的月球探险者也许能从石头里挤出水来。一台原型设备可以高效自主地从月球尘土中提取水和氧气。报道称,月球上大约一半的土壤是由富含氧的硅或氧化铁核聚变发电站已有雏形!助力我国未来碳中和,中国将引领世界近日我国国内的碳达峰碳中和科技论坛举行中,宋云涛(中科院等离子物理研究所的所长)在演讲时提到对核聚变能源的利用,表示聚变能是核能方面发展的终极目标,核聚变将会为碳中和的实现做出巨大反渗透海水淡化技术日渐成熟将是未来发展潮流地球上的水资源约有14。5亿立方千米,其中大部分都是咸水,只有大约2。5是淡水。这些淡水其中有70被冻结在南极洲格陵兰岛等地的冰川中,可被人类直接利用的淡水资源不到1。地球表面约7为什么太阳和月亮会变颜色?从天文学家拍摄的照片里,我们可以发现,在宇宙中,月亮是一个被太阳照亮的灰白色的球体,它在漆黑的宇宙空间里发出光芒,而太阳则近似白色。但当我们从地球上观察月亮时,它的颜色则取决于它的如果太阳系中存在地外生命,哪颗星球可能性最大?地球是太阳系中唯一拥有智慧文明的星球,但是以人类的科技水平,还无法探知地外生命是否存在。那么如果在太阳系中存在地外生命,哪颗星球是最有可能的呢?科学家在寻找太阳系可能存在地外生命星