童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

幻觉处理国内最优!530亿参数Baichuan2推理能力飙升

10月22日 阴阳狱投稿
  【新智元导读】昨天,Baichuan253B正式发布!首次开放API,意味着百川大模型开始正式进军商用了。另外,模型的数学和逻辑推理能力都大幅飙升,对于幻觉的处理,已经在国内遥遥领先。
  百川大模型,昨日全面升级!
  就在9月25日,百川智能正式发布了全新升级的530亿参数大模型Baichuan253B。
  体验地址:https:www。baichuanai。comhome
  这一次,它的数学和逻辑推理能力显著提升。
  更重要的是,通过高质量数据体系和搜索增强,Baichuan253B的幻觉大大降低,是目前国内幻觉问题最低的大模型。
  不仅如此,作为首批通过备案的大模型企业,百川智能还开放了Baichuan253BAPI接口。
  这意味着,百川智能正式进军ToB领域,从此将开启商业化进程。
  幻觉处理,国内遥遥领先
  最值得一提的是,新升级的Baichuan253B,在幻觉处理上已经在国内行业遥遥领先了。
  简单讲,幻觉就是LLM在没有任何已知事实支撑下,常常会一本正经地胡说八道。
  别看GPT4在多种任务上表现突出,但也无法逃过这一诅咒。
  那么,为什么大模型会出现幻觉?
  4月,OpenAI联合创始人兼研究科学家JohnSchulman在UC伯克利的演讲中,详细阐述了大模型难以攻克的难题。
  在Schulman看来,LLM黑盒内部隐藏着一个知识图谱。如果这个架构中没有的知识,仅通过SFT教大模型(即行为克隆)知识,实则在教它输出幻觉。
  针对这一难题,百川智能又是如何在大模型的幻觉处理上,做到业内领先的呢?
  在高质量数据构建上,Baichuan253B独创了一套数据质量体系。
  以低质、优质为标准将数据进行分类,确保Baichuan253B始终使用优质数据进行预训练。
  另外,在信息获取方面,Baichuan253B对多个模块进行了升级,包括指令意图理解、智能搜索和结果增强等关键组件。
  这一综合体系通过深入理解用户指令,精确驱动查询词的搜索,最终结合大语言模型技术,优化模型结果生成的可靠性,实现更精确、更智能的模型回答结果,减少模型幻觉。
  比如,在解释勾三股四弦五这个问题上,GPT4显然是在胡说八道。
  相比之下,Baichuan253B一次就给出了正确的回答。
  再比如,周树人和鲁迅是不是同一个人这道经典问题,Baichuan253B的回答既全面又准确。
  可以看到,通过构建高质量数据体系,以及搜索增强技术两个方面的优化,Baichuan253B有效降低了模型幻觉。
  经过FacTool评测后的结果显示,Baichuan253B的综合得分为140。5,在主流基础大模型中仅排在GPT4之后,处于国内领先水平。
  FacTool是由上海交通大学、卡内基梅隆大学、香港城市大学、Meta等机构学者共同提出的一款通用框架,能够查核大模型生成内容的事实准确性(也能查核一般性内容的事实准确性)。
  项目地址:https:github。comGAIRNLPfactool
  能力升级,推理100up
  其实,Baichuan253B已经是百川智能发布的第6款大模型了。
  4月10日百川智能成立后,就一直在以惊人的速度创新,迭代的速度竟然达到了平均每28天就推出一款大模型!
  早在8月8日Baichuan253B刚发布时,它就表现出了优异的知识问答、文学创作才能。
  如果要问,评价一款大模型是否领先的重要指标是什么,相信数学和逻辑推理能力,会是诸多业内人士给出的答案。
  这次,在Baichuan53B的基础上,Baichuan253B就重点强化了数学和逻辑推理的能力,并且,还对整体能力进行了全面升级。
  具体来说,它的逻辑推理能力提升100,数学能力提升31,语言理解能力提升29,文本创作提升18,知识问答提升9。
  数学推理
  数学能力大升级的Baichuan253B,做起数学应用题来当然是不在话下。
  比如,两个数的和是572,其中一个加数个位上是0,去掉0后,就与第二个加数相同。那么,这两个数分别是?
  Baichuan253B列出了方程式,假设一个加数是10A,另一个为B,然后根据已知条件,得出正解。
  再比如下题中,Baichuan253B先计算出来了总运输收入,然后除以每箱玻璃亏损的钱,就得到了损坏的玻璃箱数。
  再来个经典的两地相距多少千米的问题,Baichuan253B通过分步计算,得出了正确答案。
  推理方面,先来个简单的问题:天气预报本周三会下雨,昨天果然下雨了,今天是星期几?
  Baichuan253B毫不费力,直接得出星期四!
  接下来,推理难度稍微升级一下:假设有一个池塘,里面有无穷多的水。
  现有两个空水壶,容积分别为5升和6升。问如何只有这2个水壶,从池塘里取得3升的水?
  Baichuan253B行云流水地开始作答,6步内给出了正确答案。
  经过多轮的测试可以发现,升级后的Baichuan253B的数学和逻辑推理能力,果然不可同日而语。在曾经不太擅长的题目上,它都有了大幅提升。
  时效问题
  而在时效性这方面,Baichuan253B的表现可谓十分优异。
  杭州亚运会刚刚开幕,年龄最小的选手竟然仅有9岁。Baichuan253B在最新的问题上,也答对了。
  甚至,Baichuan253B准确地解释了,特斯拉刚刚公布的人形机器人Optimus背后神经网络原理。
  再比如,今年9月上旬,第80届威尼斯电影节在意大利落幕。
  此次电影节,是否有中国电影和演员获奖?
  Baichuan253B立刻回答出,李鸿其的《爱是一把枪》获得了最佳长片首作,梁朝伟获得了终身成就金狮奖。
  梅老板与大巴黎的合约今年6月底到期,在7月正式加盟迈阿密国际。
  对此,Baichuan253B也是了如指掌。
  同样,它还可以准确地告诉你小德一共拿了24次大满贯,包括2023年的这一次。
  开放API,正式进军商用
  不仅如此,这次Baichuan253B还正式开放了API接口,可以让企业和开发者将模型集成到自己的应用和服务中。
  API地址:https:platform。baichuanai。com
  这项服务是否有门槛呢?
  可以说,几乎没有。Baichuan253B的API接口相当便捷易用,只需要简单的配置和集成,就可以接入了。
  而且,它对OpenAI的接口高度兼容,这样就可以让客户快速迁移,无论是模型的部署成本还是转换成本,都大大降低。
  总之,现在无论是智能客服、智能写作还是智能推荐,都能得到大模型的能力加持。
  要说企业用户最关注的,莫过于安全合规问题了。
  对此也无需担心。
  作为首批通过《生成式人工智能服务管理暂行办法》备案的大模型企业,百川智能为Baichuan253B打造了覆盖大模型预训练、精调、推理全周期的安全增强,可以说,全流程都在安全保障之下。
  而借助着Baichuan253B丰富强大的模型能力,企业用户不仅可以让已有业务升级、减低成本,还能探索更多的应用场景。
  可以相信,就在此刻,已经有一大波令人印象深刻的创新,正在土壤中被酝酿了。
  参考资料:
  https:www。baichuanai。comhome
  (举报)
投诉 评论

“扎堆读书”的博主们,困在变现里“一年前开始发笔记的读书博主,23都停更了。”在小红书,博主杰罗仔发出这样的感慨。在他的观察中,读书赛道投入产出极不平衡的特性,让不少读书博主选择了套路化、模式化的内容创……反对意见:AIGC很难颠覆原有商业模式对ToB企业来说,有了AIGC加持后,会对原有商业模式进行颠覆吗?答案是:很难。尤其对于ToB企业来说,AIGC的介入主要强化和优化了现有的商业模式,更多的是商业模……ChatGPT重磅升级:可以看图、听声音、说话啦!美东时间9月25日,OpenAI在官网宣布,对ChatGPT进行重磅升级实现看图、听声音、输出语音内容三大功能。早在今年3月OpenAI发布GPT4模型时,就展示过看图的……抢占用户时间越多,赚钱也越多。各位村民好,我是村长。注意力就是消费力!我一直和各位强调,不管你做什么,线下开店、线上写公众号、拍抖音、做直播、搞社群等。你能吸引用户的注意力,你就能从用户身……“互联网要完蛋了,只有我们能救它”你有多久没听到一家创业公司说自己要拯救互联网了。今天的创业者似乎要么闷声赚钱,要么在讨论用AI拯救(或者毁灭)全人类。我们每天都生活其中的互联网,似乎早就没人关心他的死活……幻觉处理国内最优!530亿参数Baichuan2推理能力飙升【新智元导读】昨天,Baichuan253B正式发布!首次开放API,意味着百川大模型开始正式进军商用了。另外,模型的数学和逻辑推理能力都大幅飙升,对于幻觉的处理,已经在国内遥……外卖柜,困住外卖小哥近日,全国多地外卖柜开始向骑手收取服务费,与早期的“免费使用”和去年的“试点收费”不同,这一次收费范围更广,收费标准也更高,每单收费大约0。30。6元之间。外卖柜,也叫智……文心一言有了新工作,百度输入法转型AI创作工具在经过了漫长的测试期后,第一款国产AI大模型百度文心一言在8月的最后一天已正式与大家见面,相信已经有不少朋友体验到了它的魅力。并且值得一提的是,在宣布面向所有用户开放文心一言的……支付宝首页新增3个固定流量入口可直接跳转至短视频、商家商品页站长之家(ChinaZ。com)9月27日消息:近日,支付宝首页新增了三块核心场景固定流量“入口”,用户在支付宝首页点击卡片即可进入短视频信息流,或直接进入“消费圈”商品卖场,……德国新闻主播成为AI投资骗局中Deepfake滥用的受害者站长之家(ChinaZ。com)9月27日消息:德国知名新闻主播AndrSchnke最近成为Deepfake滥用的受害者。骗子利用他们的数码复制品在Facebook上的虚假宣传……B站《中国奇谭》第二季官宣《小妖怪的夏天》将拍大电影快科技9月27日消息,B站在20232024国创动画作品发布会上,宣布将与上海电影美术制片厂、上影元联合出品《中国奇谭》第二季。同时将和上影元一起推进《小妖怪的夏天》大电……小扎深夜炸场,世界首款MR头显暴打VisionPro!Met【新智元导读】Meta昨夜的发布会,又给我们带来了亿点点震撼。MetaQuest3终于揭开神秘面纱,Llama2加持的MetaAI搬进了元宇宙,而智能眼镜的演示甚至比头显还要让……
快手推自研云端智能视频处理芯片SL200正在小规模测试阶段站长之家(ChinaZ。com)8月10日消息:在快手视频云品牌StreamLake发布会上,快手高级副总裁、StreamLake业务负责人于冰透露,快手以AI和音视频业务为重……中国有赞:上半年GMV为479亿元非快手渠道GMV同比增长28月10日消息,日前,中国有赞发布2022年上半年财报。财报显示,2022年上半年,中国有赞收入约为人民币7。3亿元,其中订阅解决方案收入约为4。4亿元,商家解决方案收入约为2……快手发布视频云品牌StreamLake进军技术toB市场站长之家(ChinaZ。com)8月10日消息:今天上午,快手发布视频云品牌StreamLake,正式进军技术toB市场。据了解,StreamLake包括VideoAI两……淘宝直播:违规处置增加限制指定商家商品直播间挂品站长之家(ChinaZ。com)8月10日消息:日前,淘宝直播发布通知称,为了规范淘宝直播平台的市场秩序,平台对《淘宝直播管理规则》条款进行修订,并新增《关于限定交易的实施细则……“假背景小伙”全网刷屏!半个月涨粉超540万,谁在助推阿力木在这个人人都能成名15秒的时代,有人靠颜值走红,有人靠才华走红,还有人靠“背景”走红。过去半个月,“假背景小伙”疆域阿力木在全网刷屏,累计涨粉超540万。他不仅做到了人出……抖音电商治理低质引流、虚假宣传等违规行为站长之家(ChinaZ。com)8月10日消息:今天,抖音电商发布《关于“低质引流虚假宣传”违规行为治理公告》。公告显示,近期平台排查发现部分商家和创作者通过联盟带货、……75岁“老干妈”下场带货,传统品牌何以“自救”?如今的一代人,几乎是吃着老干妈成长起来的。一直以来,老干妈占领着辣酱市场大部分的市场份额,一瓶豆豉酱,一碗拌饭就是一个年轻人幸福的一餐。然而,公司错误的决策、后来者强势的……B站留不住朱一旦朱一旦在点淘带货了。7月27日晚,朱一旦在点淘开始了他的直播首秀,当晚直播人气达到266万,从数据上看比4月入淘的一栗小莎子略胜一筹。不过,尽管有负责商品讲解的助播……快手打击无资质用户营销内容处置违规账号5。3万个站长之家(ChinaZ。com)8月10日消息:今天,快手发布《关于打击无资质用户营销内容的公告(第四期)》,公布了近期的治理情况。公告显示,近期,平台发现部分帐号在未使……社区种草,大厂们玩不过小红书大厂放不下的“种草梦”“你有被种草过吗?”近些年,“种草”一词开始频繁地出现在大家的视野中,无论是直播带货还是社交带货,追根究底,他们都是“种草”。自从“种草经济”……17秒短视频竟引爆B站,吸引无数UP主、品牌轮番二创!怎么会有人无论怎么自拍都和背景格格不入?UP主疆域阿力木是一名职业养蜂人,在新疆地区做蜂蜜生意。因为常年风吹日晒导致他变得极其沧桑黝黑,外表看起来像大叔的他却只是个95后……可复制的打法:私域反哺公域一周带火一家店!三四线城市奶茶品牌茶尖尖两年时间做到GMV过千万,在大本营湖北十堰有门店近20家,2020年疫情期间GMV不降反增40,从本地20多个奶茶品牌中突出重围稳居前列。此前见实曾与茶……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界