因果推理效果比肩ChatGPT,封神榜推出燃灯模型
机器之心专栏
编机器之心编辑部
最近,AIGC行业的火爆得益于人工智能(AI)技术的快速发展,元宇宙数字人、游戏NPC、复杂场景的控制和决策等越来越多的应用对模型认知能力的强烈需求日益凸显。以预训练大模型为基座,着力于探究语言模型的认知能力是IDEA研究院认知计算与自然语言研究中心(IDEACCNL)盖亚计划的重要方向。
盖亚计划由IDEA研究院认知计算与自然语言研究中心发起,致力于在预训练大模型时代建设AIGC的基础设施。
为赋能中文AIGC行业,IDEACCNL封神榜团队宣布公开最新的研究成果,开放首个因果推理生成API,并开源对应50亿参数模型燃灯,包括演绎推理生成(RandengDeduction)与反绎推理生成(RandengAbduction),在部分推理生成任务上其效果甚至可以超过ChatGPT。以自然语言作为思考推理和输出的媒介,模型凭借其强大的语言能力在中文因果语料上学习,逐步具备常识知识以及更高层次的推理能力,如演绎推理、反绎推理、反事实推理、隐含知识挖掘等。在具备了因果推理能力的基础上,模型能够模仿人类思考过程,实现语言层面的自动多步推理,展示出其巨大的潜在应用价值,帮助拓展了人类的认知边界。
目前,因果推理生成API及在线体验demo已经开放,对应模型已经开源至Huggingface平台:燃灯演绎推理(RandengDeduction)API:https:api。fengshenbanglm。comv1deductiveReasoning模型:IDEACCNLRandengTransformerXL5BDeductionChinese燃灯反绎推理(RandengAbduction)API:https:api。fengshenbanglm。comv1abductiveReasoning模型:IDEACCNLRandengTransformerXL5BAbductionChinese在线demo体验https:ccnl。fengshenbanglm。comsinglereasoning
下面将从多个维度来阐述如何使用燃灯因果推理模型,燃灯能做到什么程度和效果以及在每个维度上和ChatGPT的对比,帮助大家深入了解。
基础推理能力:多步推理
基于RandengDeduction模型,可以进行多步因果推理。给定具体的一个事实推理前提条件(如下图1所示的根节点),RandengDeduction模型能够以自然语言的形式迭代地产生该事件可能导致的结果与影响,最终形成庞大的因果推理树。
图1多步因果推理树
而ChatGPT基于债券市场收益率快速下滑这一事实给出了单链多步推理的结果,推理过程存在一点和前提事实矛盾的地方由债券市场收益率快速下滑推理出了债券收益率上升。(如下图2)
图2ChatGPT的多步因果推理结果
基础推理能力:演绎反绎推理
将RandengDeduction模型与RandengAbduction模型结合,能够同时进行演绎和反绎多步推理,让模型分析导致事件发生的一系列原因(图3左)以及该事件产生的结果(图3右),赋予了语言模型思考因果关系的能力。
图3反绎推理树(左)和因果推理树(右)
ChatGPT的单步反绎推理也能够给出导致玉米价格持续上涨的多方面因素,在这个维度上达到的效果比较一致。
图4ChatGPT的反绎推理结果
基础推理能力:三段论和反事实推理
RandengDeduction模型具备丰富的常识知识,但其强大的推理生成能力并非依赖于对于知识的记忆。采用三段论的形式,RandengDeduction模型既能在正确的事实上进行演绎推理(图5上支、图6上支),同时也能运用常识知识进行反事实推理(图5下支、图6下支)。
图5三段论和反事实推理
图6三段论和反事实推理
而对应于图6的输入,ChatGPT未能正确地进行反事实推理,且混淆了变温动物和恒温动物的定义。
图7ChatGPT的反事实推理结果结果
高级推理能力:问题制导下的自动推理
利用RandengDeduction模型的推理能力,加上蒙特卡洛树搜索(MCTS)算法,可以实现问题制导下的自动推理。图8展示了在给定问题后,基于前提事实推出的因果链条。
图8问题制导下的自动推理(仅展示MCTS中概率最大的单条路径)
通过调整提示(prompt)输入,ChatGPT也同样能够针对前提事实,给出回答目标问题的推理链条。在这个任务上虽然RandengDeduction和ChatGPT给出的推理链条思考角度不同,但都成功地回答了目标问题。
图9ChatGPT针对提问进行多步因果推理的结果
高级推理能力:无限推理
借助于RandengDeduction模型强大的因果推理生成能力,构建自动推理系统,让机器无休止地自主思考和推理。但受限于资源及缺乏对应结果评估和选择模型,ChatGPT目前还无法做到无限推理。
图10永不停止的自动因果推理(仅展示部分推理结果,未展示连接关系)
背后的训练技术揭秘
RandengDeduction模型与RandengAbduction模型采用自回归的方式,将因果命题的生成抽象为给定前提命题的条件生成任务。我们选用50亿参数量的TransformerXL作为基础模型,预先在开放域中文因果语料上进行了自回归因果生成任务的训练,使其具备了一定的因果生成能力。为了让模型突破训练数据的局限,强化其因果推理的能力,让模型并非单纯回忆训练数据,我们尝试引入了3。3亿参数量的RoBERTa模型作为因果关系判别模型,结合两个因果生成模型开展了自洽(Selfconsistent)闭环迭代训练。在闭环中,生成模型凭借各自的因果生成能力为闭环系统提供了源源不断的伪样本,判别模型从多样的伪样本中筛选供自身以及生成模型训练的样本。在闭环运转的过程中,三个模型逐渐从不同的角度(演绎生成、反绎生成、因果关系判断)对因果推理达成一致,得到持续的提升。
图11训练过程总览
未来的场景应用
基于强大的因果推理能力,燃灯模型未来落地可以更多聚焦于大量的推理场景,比如辅助研究分析报告撰写、赋能剧本杀的剧本快速设计、帮助作家创作出更多细思极恐的推理情节等等,甚至能够作为智能机器人和虚拟人的底层逻辑驱动链条,具备更强的认知和决策能力,使之具备像人类一样的思考能力。
燃灯因果推理模型是IDEA研究院CCNL中心继开源中文StableDiffusion太乙模型之后向中文AIGC复兴以及机器认知计算边缘探索迈出的第二步,也是盖亚计划发出的第二架马车。后续还将有更多的模型能力推出,敬请期待。
封神榜相关链接
封神榜官网:https:fengshenbanglm。com
封神榜github主页:GitHubIDEACCNLFengshenbangLM
封神榜huggingface地址:IDEACCNL(FengshenbangLM)
封神榜doc:https:fengshenbangdoc。readthedocs。iozhlatest
数字生命真的能实现吗?流浪地球2票房春节不断攀升,里面有亲情,有责任,也有符合中国人价值观的英雄主义。电影设计了一个情节刘德华饰演的图恒宇,让女儿以数字生命的方式,在量子计算机里存活下去。这不得不引发我
C语言基础练习21任务了解函数传参main(intargc,charargv)的知识2知识点(1)argc为参数个数,argv是字符串数组,argv0表示这个程序的名字(argumentcount
中国基金业协会发布中国证券投资基金业协会举报工作办法(试行)为规范基金行业违规线索举报工作,加大对基金行业违规行为的打击力度,依法履行自律管理职责,提高自律管理服务水平,中国基金业协会日前发布中国证券投资基金业协会举报工作办法(试行)。中国
中国中铁2022年人事变动年度汇总涉及近20家单位超50人!2022年的中国中铁企业综合实力不断攀升各项指标再创历史新高累计新签合同额30323。9亿,同比增长11。1正式迈入3万亿俱乐部全年订单30323。9亿!中国中铁昂首挺进3万亿俱乐
中央确定在陕西省3市,建设5大国家物流枢纽,能为陕西带来什么?近日,中央发布了新一批的国家物流枢纽名单,全国各省份又有不少城市入围名单。所谓国家物流枢纽,是中央确定的在全国流通网络中发挥关键节点作用的,物流基础设施群和活动组织中心。从2019
不是首钢,马布里亮相新岗位,徐杰为家人盖豪宅,沈梓捷女友曝光新年新气象,过去的2022年,受到很多球迷喜欢的马布里过得并不算愉快,在北控男篮经营了3年之后,马布里并没有把这支球队带到一个新的高度或者建议属于自己的体系,这也让马布里在第二阶段
试管婴儿黄体生成素的控制黄体生成素(LH)是一种由垂体前叶合成并脉冲分泌的异源二聚体糖蛋白,其亚单位结构与促甲状腺激素(TSH)促卵泡激素(FSH)和人绒毛膜促性腺激素(hCG)相同,亚单位独特的结构是其
泰国警察警车接机中国游客最新进展未触犯法律但违反纪律日前,一则泰国警察用警车接送中国游客的视频在社交软件上发布后,引起了中泰网友的热议。视频中的女游客称花费7千泰铢,即可享受到vip的待遇,其中包括警察接机,取行李入关均使用快速通道
中国梦牵世界梦挽袖272次老皮的中国情缘视频加载中皮安睿,中国天津的一名澳大利亚籍献血志愿者。从2008年至今,每15天完成一次献血,累计献血和血小板272次,以治疗单位计算,相当于献血超过42万毫升,这是一个成年人自身
年薪1500万的经济专家任泽平,与民间斗士司马南早晚有此一战对于不炒股也不玩投资的人,任泽平其实是一个相对陌生的经济学家,尽管他凭借1500万的年薪入主恒大引发了一些非议,但对老百姓来说,彼时的恒大以及拿着聘书数钱的任泽平,都是个跟自己没什
宝宝半夜不睡觉,大哭是怎么回事?孩子夜间大哭,有以下几种原因1需要检查孩子穿的衣服或盖的被子是否合适,会不会因为衣服穿多孩子太热,检查身上有没有流汗,还要检查衣服上面有没有比较坚硬的东西,会不会刺痛孩子。2需要考