专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

绝悟化身Minecraft矿工,夺冠NeurIPS2021M

  《Minecraft》(中文译名《我的世界》)是全球最知名的开放世界游戏。小朋友只需观看十分钟的教学视频,就能学会在游戏中寻找稀有的钻石而这是AI无法企及的高度。随机生成的开放地图、自由灵活的玩法、多线程长链条任务,给AI研究带来了极大挑战。
  针对Minecraft的复杂环境,机器学习顶会NeurIPS已组织了三届MineRL(SampleEfficientRLCompetition)赛事,邀请全球程序员在4天时间内用一台计算机训练AI找到游戏中的钻石。
  12月8日,第三届MineRL竞赛主赛道(researchtrack)发布成绩,AI的钻石之梦向前踏进了一大步:腾讯AILab研发的绝悟AI以76。970分的绝对优势夺冠。研究成果已发布在Arxiv上,算法框架可复用于其他复杂决策环境。
  论文地址:https:arxiv。orgabs2112。04907
  因在比赛中展示出极强的性能,绝悟团队被特邀参加微软2021研究者峰会,让人类玩家与绝悟AI在MineCraft世界中共同交互,吸引了大量参会者关注。
  绝悟以压倒性优势获得历史最高分。完整榜单详见:
  https:www。aicrowd。comchallengesneurips2021minerldiamondcompetitionleaderboards
  MineRL竞赛由卡内基梅隆大学、微软、DeepMind、OpenAI,联合机器学习顶级会议NeurIPS共同举办,极富挑战性的赛题持续吸引全球开发者关注。今年赛事共有59支团队、近500名选手投身其中,其中不乏世界顶级学府和研究机构的科研强队。竞赛的研究主题是:训练样本高效的MinecraftAI智能体。
  绝悟是腾讯AILab研发的策略协作型AI,先后于2019年达到王者荣耀职业电竞水平,于2020年获得Kaggle足球AI竞赛冠军,2021年掌握王者荣耀全英雄,同时攻克FPS、RTS等类型游戏,并将其能力应用于游戏研发及运营环节。如今它又再探索开放世界游戏,证明其在充满不确定性的复杂环境中游刃有余,未来应用于现实环境中,也能在多种环境中与人类更好地交互。
  1赛题解析:10分钟内完成复杂决策
  在MineRL竞赛中,与每个真人玩家一样,AI会从《我的世界》游戏里一个随机世界的随机位置出生,从没有任何工具的初始状态开始,完成一系列任务,最终找到钻石。
  这个任务听上去清晰明了,却难倒了无数挑战者。官方基于成熟算法的baseline只能获得2分让AI徒手采集原木并合成出第一块木板,这离获得钻石还有非常远的距离。
  具体来说,这个挑战主要有三个难点:
  首先,是极度多样的环境。不同于绝悟先前学习的游戏,MineCraft最大的难度就在于3D的开放世界。游戏没有固定的地图,完全靠随机种子生成;树木、铁矿、钻石等资源的刷新位置也没有固定的规律。因此,AI见到的每一局游戏都是崭新的。它不能死记硬背,而要从6464像素的高糊视角中真正理解这个无限开放的世界。
  赛事游戏环境截图,分辨率6464
  其次,是长决策序列与复杂的技能。为了在10分钟游戏时间内拿到钻石,AI需要厘清最高效的行动顺序,并抓紧时间掌握多个技能。
  首先,它需要徒手采集原木,合成木板、木棍与木镐等初级工具,以及用于照亮地底的火把;在矿井和山洞里探索过程中,它需要采集到铁矿,并且学会熔炼、用提前准备好的熔炉与燃料打造挖钻石的高级工具。万事俱备后,AI才能深入地底、寻找钻石。在这个过程中,AI还要同时避免落入岩浆或悬崖、并与不期而遇的怪物战斗。
  从木头到钻石,要经过12道流程
  最后,是由高自由度玩法带来的海量策略偏好。赛事主办方收集了玩家的近6000万个动作样本,提供了约1000小时的行为记录,供AI学习模仿。但这些样本来自不同玩家,策略差异极大。比如为了获取钻石,有人喜欢矿洞探险,有人选择向下掘地三尺,甚至还有人直接洗劫村庄房屋里的物品箱。从如此复杂多样的数据中学习、并最终形成自己的一套策略,这对于AI无疑是极大的挑战。
  除了以上难点,竞赛方还制定了严苛的规则,给AI的挑战雪上加霜。
  为了将目光聚焦于算法本身,主办方禁止参赛者编写规则、也禁止AI利用任何游戏知识。不仅如此,游戏环境甚至将背包信息与动作空间加密AI无法直接感知包里有几颗原木、也无法直接指定下一帧动作的含义。因此,人类教练们只能为AI搭一个框架,让它从零开始,在玩家视频与自身探索中逐渐变强。
  挖钻石的全流程,后半程要深入黑暗的地下
  此外,主办方不允许玩家自定义奖励函数,研究人员必须迎难而上、正面突破。从零开始完全采用强化学习的方式来训练MineCraftAI相当困难,与MOBA游戏中不断有经济、血量、经验等实时信号不同,MineRL竞赛的奖励信号非常稀疏,只有第一次获得每种关键物品才会产生reward,这种稀疏性也一直是强化学习的主要难题。
  算力方面,规则同样做了严格限制。赛事不允许使用预训练模型,每个参赛队伍只能使用6核CPU与半张NVIDIAK80显卡训练4天这个配置是几乎所有高校实验室与个人研究者都可以负担的。
  这次比赛的目的在于促进样本高效(highsampleefficiency)游戏AI算法的发展。目前流行的强化学习算法一般需要多达成百上千万次的试错来寻找最优流程,耗费大量的时间和计算资源。而纯靠人类数据的模仿学习算法虽然更快,但性能上往往不尽如人意。如何将两种方法的优势结合、又快又好地完成任务,也是赛题的另一个目标所在。
  2方案解析
  为了解决如此复杂的问题,绝悟团队通过分层强化学习(HierarchicalReinforcementLearning)、表示学习(Representation)、自模仿学习(Selfimitationlearning)、集成行为克隆(EnsembleBehaviorCloning)等四项关键技术,实现了优于其他竞争队伍的效果。
  分层强化学习HierarchicalReinforcementLearning
  首先,为了尽可能提高样本利用率与训练效率,智能体的框架采用了分层强化学习(HierarcichalRL)。由于数据处理阶段禁止引入MineCraft游戏的先验知识,研究人员实现了一套自动的数据切分算法,先基于rewarddelay切分子阶段,再利用统计数据确定各阶段边界。在游戏推进中,上层控制器会实时选定一个子策略,由该策略与环境交互。
  分层强化学习结构
  数据分析表明,上层控制器的预测准确率可以达到99。95,也就是说,AI从人类数据中学到了一套几乎永不出错的宏观策略,每时每刻都清晰地知道自己下一步的正确动向。
  表示学习RepresentationLearning
  在状态空间表征上,MineCraft游戏遇到的最大挑战在于如何表征复杂且多样的3D开放式地图。
  首先被选中的是近年来热门的表示学习方法(representationlearning)。但研究人员很快发现,已有方法只适用于2D场景,在MineCraft游戏环境里效果很差。于是他们设计了一种基于动作感知的新颖算法,用来捕捉每个动作对环境产生的影响,形成注意力机制。这种方法可以显著减小状态空间,提升学习效率。
  实验表明,这种算法可以显著提升智能体获得资源的能力与效率。
  左图执行攻击动作后会变为右图。此时模型只会关注红框区域
  不同动作的可视化结果,AI学会了关注当前图像中的关键区域
  自模仿学习SelfimitationLearning
  随着游戏进程推进,智能体与人类的策略出现了很大的分歧。此时,人类数据已经很难用于指导AI。因此,如何从极有限的交互次数中学到一个优秀的策略成为了新的难题。为此,绝悟使用了自模仿学习(selfimitationlearning)的思想。通过基于鉴别器的自模仿算法,智能体可以从自身过往的成功与失败中获得经验与教训,并在察觉到当前状况不妙的时候,主动往更好的方向修正。
  对比实验证明,在加入自模仿策略后,智能体探索到的行为更加一致,也可以显著降低进入危险区域的概率。
  相比于PPO和SIL,DSIL可以更高效地捕捉到历史的成功策略,从而降低不必要的探索
  表示学习与自模仿学习流程
  集成行为克隆EnsembleBehaviorCloning
  对于合成物品等需要长链条的动作序列,研究人员也做了细致的优化。通过动作序列一致性过滤(consistencyfiltering)与基于投票的集成学习(ensemblelearning),模型在合成物品阶段的成功率从35提升到96,一举将最薄弱的链条扭转为了最稳定的制胜点。
  效果演示:流畅砍下原木
  赛事之外:离复杂的现实世界更近一步
  近年,越来越多AI研究团队将目光投向电子游戏,利用高度复杂、高度定制化的游戏场景,为AI提供实验场景和成长驱动力。业界期望通过越来越复杂的游戏训练,AI最终能够解决现实生活中的问题。
  作为AI游戏研究先行者,腾讯AILab的深度强化学习智能体正不断走近现实。棋牌游戏AI绝艺从围棋棋盘逐步走向象棋、麻将,策略协作型AI绝悟从MOBA走向FPS、RTS、再到如今的3D开放世界MineCraft。它们迈向全新挑战的每一步,都让AI离解决现实问题、科技向善的大目标更近了一步。
  随着虚实集成世界逐步变成现实,这些研究的经验、方法与结论,将在真实世界创造更大的实用价值。

RNG终于卸下包袱,LPL获得第四个S赛名额,接下来就等DK进决赛了MSI季中赛除了争夺冠军之外,还牵扯到一个世界赛名额,冠军以及近年来成绩最好的队伍都能获得一个名额,虽然决赛还没开始打,但LPL已经确认获得第四个世界赛名额!S10世界LCK拿到冠XYG晋级决赛,一只脚踏进KPL,张大仙要去准备几千万的席位费了早在很久之前,张大仙就有进军KPL的梦想,不过实力以及年龄都不允许,最终成为一名王者荣耀的主播,不过他心里一直惦记着曾经的梦想,自己无法成为一名选手,那么就组建一支队伍打上KPL!LPL官方解说爆料厂长夏季赛首发出场,不是的话直播击剑S11赛季EDG组建一套五千万阵容,大有冲击冠军之势,在这种背景下厂长也宣布从教练转回选手复出,为的就是躺赢冠军。不过EDG春季赛以失败告终,常规赛输给RNG,季后赛也输给RNG,RNG击败PSG,Reddit网友呼吁LPL挖人,PCS解说开始慌了RNG和PSG的半决赛打完,最后的结果没有意外,RNG胜利晋级决赛,PSG的硬实力还是要差一些,他们能给RNG造成一些麻烦,但不能将胜利带走。在这场半决赛的较量中,双方的ADC的发LPL官方宣布三场比赛延期,IG不仅要背靠背,睡眠时间也是问题每年到了七八月份就是台风肆虐的时间,今年特别严重,尤其烟花的登陆让河南发生洪灾,人民损失不计其数,烟花折磨完河南后又来到上海,目前相关部门已经在阻止遇险的人员疏散,同时一些聚集性的FPX决赛两连亚,LPL双败制再次引发争议,决赛准备时间不合理LPL夏季赛正式结束,EDG时隔1462天再次捧起银龙杯,而今年的银龙杯有特殊含义,里面融入了许多选手标志性物品,算是一个新的开始至于FPX就扎心了,一年收获两个亚军,春季赛被RNDoinb复盘RNG输给C9他们在试图破局,选卡牌是康特佐伊MSI季中赛来到第二轮对抗赛,RNG基本确定进入半决赛,他们接下来就是跟DK争第一名,这样能拥有挑选半决赛对手(34名)的权力,挑一个弱点的对手起码能保证进入决赛。虽然RNG目前的宁王替IG惋惜,明明很适合版本,却打不出来效果夏季赛赛程接近三分之二,许多队伍渐入佳境,开始向季后赛发起冲击,其中RNG最为显著,因为夏季赛版本改动较大的关系,他们在整个11。12版本都找不到节奏,战绩一度来到15,11。13从头碾压到尾,PSG演示如何将RNG当成人机打,省队克星实锤了从小组赛到对抗赛,RNG一共拿到12连胜,就连DK在他们面前也跟外卡赛区的队伍一样脆弱,一些LPL观众甚至觉得RNG能够全胜夺冠。就在观众不知道RNG怎么输的时候,PSG出来给RN最强王者玩家并非满地走,天美公布数据,钻石星耀占一大半王者荣耀是一款国民级手游,玩家分布各个年龄段,下到小学生,上到年迈老人都有,可见这款游戏的火热,天美官方曾在5周年公布一个数据,王者荣耀日平均登录游戏玩家上亿,也就是说中国每14个真把RNG当成吉祥物?Faker想跟Cryin交手,想和小虎交朋友在LMS赛区解散后,英雄联盟职业联赛就只剩下四大赛区,分别是LPLLCKLECLCS,虽然四大赛区齐名,可实际赛区之间的实力也有差距,LPL和LCK赛区的实力就要比LEC和LCS强
新西兰西部古老小镇大促销!只要750万美元狂野的西部爱好者和流浪者都可以在新西兰购买一整片西部古镇,从而可以体验到一段美国旧西部的历史。Mellonsfolly农场位于新西兰北岛一块900英亩的土地上,售价750万美元,包和平精英又出木乃伊新皮肤了,又一批游戏玩家要剁手了欢迎收看大仙游戏解说第9期,什么,和平精英又出新皮肤了,这不上周才出了个小丑套装活动吗,为了年终奖光子也是够拼啊,这不木乃伊吗据说这次的抽奖光子很良心,只需600多就可以开出这个木酷冷至尊MH650游戏耳机测评响亮的扬声器,安静的麦克风酷冷至尊(CoolerMaster)MH650提供普通清晰的音频,并添加虚拟环绕立体声,在玩游戏时提供额外的刺激。但流媒体使用者和长时间通话人则会希望提升它的麦克风,它的低音量设置20世纪90年代的微软真的比21世纪20年代的苹果善良吗?微软总裁BradSmith宣布支持针对苹果(Apple)iPhone应用程序商店模式的反垄断调查,这是一个典型的五十步笑百步案例。苹果公司被指控,其应用商店的供应商每销售一个程序,6种去除霉菌的自然方法霉菌是家庭和建筑中最常见(也是最可怕)的问题之一。霉菌孢子可以快速生长并释放到空气中,污染空气环境,特别是如果你已经患有呼吸疾病的情况下。如果你正在寻找去除霉菌生长的家庭方法或者想和平精英首届国际主播公开赛介绍,总奖金高达140万到底花落谁家首届和平精英国际主播公开赛(简称PSI)已在昨天6月18日正式开赛,这将是一场全亚洲顶级主播们的巅峰对决,PSI分为线上晋级赛和线下总决赛,线上晋级赛分别由快手斗鱼虎牙企鹅四大平台和平精英极寒模式将于明日早上10点更新,无人机滑雪板齐上阵欢迎收看大仙游戏解说第10期,和平精英极寒模式将在18号正式上线,在极寒模式中,玩家能烤肉,能玩无人机,还能滑雪,下面跟着大仙的脚步来体验一下这个极寒模式吧,1,暴风雪来临时,记得巡查员在游戏中作弊,会被光子制裁吗自从巡查系统上线以来,相信有很多玩家每天都在拼命的打游戏上分,都想成为巡查官,其实他们的目的只有一个,都是为了得到这款专家巡查员的衣服套装想要得到这款套装,也是非常的难,因为门槛非世界上最伟大的四款游戏,最后一款大多数人都没玩过!自电子游戏诞生那一刻起就注定了它会成为我们生活的一部分从当年简单的8BIT像素到如今真假难分的VR全景游戏带给了我们太多欢乐今天,神仙术带你看看世界上最伟大的四款游戏!吃豆人由南梦长沙上周938套房源入市成交均价12769元开盘去化率60当周长沙内五区商品住宅供应11。72万方,与上周相比环涨501。4,但仍处于较低水平上周成交17。15万方,环涨11。1,成交均价12769元m?,环跌5。酒店式公寓为供应主力,约张艺谋最新力作影,上映当天万人好评,邓超孙俪演技炸裂!Hello!小伙伴们,欢迎观看豆豆说电影!最近张艺谋导演的作品影火热上映,可谓是国庆档最值得观看影片之一。豆豆9月30日也去凑凑了热闹,下面跟小伙伴们来说说这部影片!电影故事简介影
友情链接:快好知快生活快百科快传网中准网文好找聚热点快软件