范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

强化学习到底是什么,它如何运作?

  强化学习属于机器学习中的一个子集,它使代理能够理解在特定环境中执行特定操作的相应结果。目前,相当一部分机器人就在使用强化学习掌握种种新能力。
  强化学习是一种行为学习模型,由算法提供数据分析反馈,引导用户逐步获取最佳结果。
  不同于使用样本数据集训练机器模型的各类监督学习,强化学习尝试通过反复试验掌握个中诀窍。通过一系列正确的决策,模型本身将得到逐步强化,慢慢掌控解决问题的更佳方法。
  强化学习与人类在婴幼儿时期的学习过程非常相似。我们每个人的成长都离不开这种学习强化——正是在一次又一次跌倒与父母的帮扶之下,我们才最终站立起来。
  这是一种基于经验的学习流程,机器会不断尝试、不断犯错,最终找到正确的解决思路。
  我们只需要为机器模型提供最基本的"游戏规则",余下的就完全交给模型自主探索。模型将从随机尝试开始,一步步建立起自己的复杂战术,通过无数次尝试达成任务、获得奖励。
  事实证明,强化学习已经成为培养机器人想象力的重要方法之一。不同于普通人类,人工智能将从成千上万轮游戏中积累知识,而强大的计算机基础设施则为这类模型提供可靠的算力支持。
  YouTube上的视频就是强化学习的应用实例。在观看当前视频之后,该平台会向你展示它认为你可能感兴趣的类似内容。如果你点开了推荐视频但却没有看完,机器会认为此次推荐失败,并在下一次尝试其他推荐方法。
  强化学习的挑战
  强化学习面对的核心挑战,在于如何规模模拟环境。模拟环境在很大程度上由有待执行的任务所决定。我们以国际象棋、围棋或者雅达利游戏为例,这类模拟环境相对简单也易于构建。但是,要想用同样的方法训练出安全可靠的自动驾驶汽车,就必须创建出非常逼真的街道原型环境,引入突然闯出的行人或者可能导致碰撞事故的各类因素。如果仿真度不够,那么模型在从训练环境转移到现实场景之后,就会出现一系列问题。
  另一个难题,在于如何扩展及修改代理的神经网络。除了奖励与处罚之外,我们再无其他方法与该网络建立联系。这有可能引发严重的"健忘"症状,即网络在获取新信息后,会将一部分可能非常重要的旧知识清除出去。换句话说,我们需要想办法管理学习模型的"记忆"。
  最后,我们还得防止机器代理"作弊"。有时候,机器模型能够获得良好的结果,但实现方式却与我们的预期相去甚远。一部分代理甚至会在不完成实际任务的情况下,通过"浑水摸鱼"拿到最大奖励。
  强化学习的应用领域
  游戏
  机器学习之所以具有极高的知名度,主要源自它在解决各类游戏问题时展现出的惊人实力。
  最著名的自然是AlphaGo与AlphaGo Zero。AlphaGo通过无数人类棋手的棋谱进行大量训练,凭借策略网络中的蒙特卡洛树价值研究与价值网络(MCTS)获得了超人的棋力。但研究人员随后又尝试了另一种更加纯粹的强化学习方法——从零开始训练机器模型。最终,新的代理AlphaGo Zero出现,其学习过程完全源自自主摸索、不添加任何人为数据,最终以100-0的碾压性优势战胜了前辈AlphaGo。
  个性化推荐
  新闻内容推荐是一项历史性难题,快速变化的新闻动态、随时可能转变的用户喜好再加上与用户留存率若即若离的点击率都让研究人员头痛不已。Guanjie等研究者发布的《DRN:用于新闻推荐的深度强化学习框架》一文,希望探讨如何将强化学习技术应用于新闻推荐系统以攻克这一重大挑战。
  为此,他们构建起四种资源类别,分别为:1)用户资源;2)上下文资源(例如环境状态资源);3)用户新闻资源;4)新闻资源(例如行动资源)。他们将这四种资源插入深度Q网络(DQN)以计算Q值。随后,他们以Q值为基础选择一份新闻列表进行推荐,并将用户对推荐内容的点击情况作为强化学习代理的重要奖励指标。
  作者们还采用其他技术以解决相关难题,包括记忆重复、生存模型、Dueling Bandit Gradient Descent等方法。
  计算机集群中的资源管理
  如何设计算法以将有限的资源分配给不同任务同样是一项充满挑战的课题,而且往往需要人为启发的引导。
  题为《使用深度强化学习实现资源管理》的论文介绍了如何使用强化学习让模型自动探索如何为保留的作业分配及调度计算机资源,借此最大程度降低平均作业(任务)的处理时长。
  这种方法用"状态空间"来表现当前资源分配与作业的资源配置方式。而在行动空间方面,他们使用一种技巧,允许代理在各个时间阶段选择多项行动。奖励则是系统中所有作业的总和(-1/作业持续时间)。接下来,他们将强化学习算法与基准值相结合,借此计算策略梯度,找出最佳策略参数,凭借这些参数计算出能够实现目标最小化的行动概率分布。
  交通灯控制
  在题为《基于强化学习的多代理交通信号网络控制系统》一文中,研究人员尝试设计一种交通信号灯控制方案,借此解决交通拥堵问题。他们的方法仅在模拟环境下进行了测试,并表现出优于传统方法的性能水平,这也体现出在交通系统设计中引入多代理强化学习技术的潜在可行性。
  他们在五个路口的交通网络中部署了五个代理,并在中央路口处部署强化学习代理以控制交通信号。他们将交通状态定义为8维向量,每个元素代表各条车道的相对交通流量。每个代理可以从8种选项中任选其一,各选项代表每个阶段的组合,奖励条件则是新的组合必须在交通流量延迟方面优于前一组合。作者们使用SQN计算{状态,行动}对的Q值。
  机器人
  强化学习在机器人技术领域的应用同样大放异彩。感兴趣的朋友请关注强化学习在机器人领域的研究成果。在这方面,研究人员们通过训练引导机器人学习策略,尝试将原始视频图像与机器人的行动映射起来。将RGB图像输入CNN进行计算,最终输出的则是各台驱动引擎的扭矩。强化学习组件负责根据训练数据中的状态分布总结出准确的转换策略。
  网络系统配置
  网络系统当中往往包含超过100项可配置参数,而参数调整过程则需要合格的操作人员持续进行跟踪与错误测试。
  题为《强化在线网络系统自我配置能力的学习方法》的论文,介绍了研究人员如何在基于动态虚拟机的环境中自动重新配置多层网络系统内各项参数的首次尝试。
  研究人员可以将重新配置的流程公式化为有限MDP(马尔科夫决策流程)的形式。其中的状态空间为系统配置,各参数的行动空间则包括{增加,减少,保持不变}。奖励被定义为预期响应时间与实测响应时间之差。作者使用Q学习算法执行这项任务。
  当然,作者也使用了其他一些技术(例如策略初始化)以解决较大状态空间与复杂问题场景下的计算难度问题,因此并不能算单纯依靠强化学习与神经网络组合实现。但可以相信,这项开拓性工作为未来的探索铺平了道路。
  化学
  强化学习在优化化学反应方面同样表现出色。研究人员们发现,他们的模型已经摸索出极为先进的算法,《通过深度强化学习优化化学反应》一文还探讨了如何将这种算法推广到多种不同的潜在场景当中。
  配合LSTM(长短期记忆网络)对策略特征进行建模,强化学习代理通过以{S,A,P,R}为特征的马尔科夫决策流程(MDP)优化了化学反应。其中的S代表一组实验条件(例如温度、pH等),A为可以调整的一切可能行动的集合,P为从当前实验条件转换至下一条件的概率,R则为状态奖励函数。
  这套应用方案很好地演示了强化学习技术如何在相对稳定的环境下减少试错次数并缩短学习周期。
  拍卖与广告
  阿里巴巴公司的研究人员发表了《在广告展示中采用多代理强化学习进行实时竞拍》一文,表示其基于集群的分布式多代理解决方案(DCMAB)取得了可喜的成果,并计划在下一步研究中投放淘宝平台进行实际测试。
  总体而言,淘宝广告平台负责为经销商提供可供竞拍的广告展示区域。目前大多数代理无法快速解决这个问题,因为交易者往往互相竞标,而且出价往往与其业务及决策密切相关。在这篇论文中,研究人员将商户与客户划分为不同的组以降低计算复杂性。各代理的状态空间表示代理本身的成本-收入状态,行动空间为(连续)竞标,奖励则为客户集群收入。
  深度学习
  近期,越来越多研究人员开始尝试将强化学习与其他深度学习架构相结合,并带来了令人印象深刻的成果。
  其中最具影响力的成果之一,正是DeepMind将CNN与强化学习相结合做出的尝试。以此为基础,代理可以通过高维传感器"观察"环境,而后学习如何与之交互。
  CNN配合强化学习已经成为人们探索新思路的有力组合。RNN是一种具有"记忆"的神经网络。与强化学习结合使用,RNN将为代理提供记忆能力。例如,研究人员将LSTM与强化学习进行组合,创建出一套深循环Q网络(DRQN)并学习如何游玩雅达利游戏。他们还使用LSTM加强化学习解决了化学反应优化问题。
  DeepMind还展示了如何使用生成模型与强化学习生成程序。在这套模型中,以对抗方式训练而成的代理会将对抗信号作为改善行动的奖励,这种方式与GAN(生成对抗网络)将梯度传播至入口空间的方法有所不同。
  总结:何时开始使用强化学习?
  所谓强化,是指根据制定的决策配合奖励摸索最佳方法;这类能够随时与环境交互并从中学习。每做出一项正确行动,我们都将予以奖励;错误行动则对应惩罚。在行业当中,这类学习方法将有助于优化流程、模拟、监控、维护并有望催生出强大的自治型系统。
  大家可以参考以下标准思考何时在何处使用强化学习技术:
  • 需要对复杂甚至存在一定危险性的特定流程进行模拟时。
  • 处理某些需要大量人类分析师及领域专家的特定问题时。强化学习方法能够模仿人类的推理过程,而非单纯预测最佳策略。
  • 能够为学习算法提供良好的奖励定义时。你可以在每次交互中正确对模型进行校准,借此保证奖励总比惩罚多,帮助模型逐步摸索出正确的解决路线。
  • 当缺少关于特定问题的充足数据时。除了工业领域之外,强化学习也广泛适用于教育、卫生、金融、图像以及文本识别等各个行业。
  除了工业领域之外,强化学习也广泛适用于教育、卫生、金融、图像以及文本识别等各个行业。

加尔维斯顿大飓风1900年9月7日傍晚,在加尔维斯顿海滩,人们正享受着黄昏时分的幸福生活,灾难却悄然而至,在西印度群岛以南约1930千米生成的风暴正缓慢而又稳定地向加尔维斯顿移来。9月8日凌晨,城为什么中南半岛上的湄公河三角洲,又被称为九龙江平原?河流属于地表径流,是地表沿着固定的洼地流动的水流,河流对于人类来说具有供水航运水能开发养殖旅游和防御等多种功能,因此,自古以来人类就有沿河而居的习惯。世界上许多著名的河流,比如长江5种抗衰老减龄秘法,看到就是赚到!虽说生老病死是人类必然经历的法则,但谁不希望拥有年轻的容颜健康的体魄梦寐呢?事实论证,街上年轻漂亮的小美女自然能赢得更多男士的青睐。看网上好多小伙伴在找抗衰老的方法,今天和大家分享TRU不容忽视的6个衰老速度加快的信号衰老速度加快的信号,以下6个体现最为明显,各位小姐姐们一定得改善这些生活习惯了哟1。经期缩短或延长月经周期的变化是卵巢功能的表现之一。若月经经期慢慢缩短或延长,小于25天甚至是20伪装成毒蛇!陕西秦岭发现新物种秦皇锦蛇,竟与蛇起源和演化有关近日,中山大学中国科学院古脊椎动物与人类研究所等机构的研究团队,公布一则重要信息,在我国陕西秦岭发现蛇类新物种秦皇锦蛇,在世界蛇类族谱上又将新添一个新成员。专家命名为秦皇锦蛇,属于视频简历,提升你的面试成功率最近遇到有人来咨询面试简历是否可以以视频的形式发送给HR?答案是可以的。简历就是一种个人广告,是自我推销的工具,用来展示一个人的工作技能以及这些技能对未来公司的价值。简历可以体现求视频转二维码能为我做些什么做婚庆的小白在参加表哥的婚礼时有一件事让他印象很深。盛大的婚礼现场,高朋满座,无不洋溢着喜悦的气氛,但和以往参加过的婚礼不同的是,在中央舞台的大屏幕上,投影着一个非常精美的二维码,如何把视频做成二维码,手机扫一扫就可以看近年,互联网图书不少出版机构会在图书印刷二维码,附带相关视频信息,尤其是美食养生科普诗歌类图书,这样读者可以扫描二维码进行观看书籍内容。那么插视这类型二维码是由什么工具来制作,怎么你们还记得当年的南斯拉夫吗?2020年以前,美国人从来都没这么闹心过。2020年一年,大家都说一场疫情扒掉了美国的裤子。那么2021年的一场大雪,直接把美国的内裤也扒没了。要说还是人家美国导演厉害真有先见之明中国这5大工程堪称举世无双!第一让联合国重视,关乎人类的生存要问当前全球有哪些国家的基建技术能够称得上是世界一流级别的,那么中国毫无疑问要占据一席之地。中国的基建技术在经过数年的积累之中取得了惊人的成就,甚至世界各国惊叹于中国的基建技艺而送贱者恒贱,总是幻想我二十年前就看出来了,以美为首的西方压制我们,根本原因在于利益,意识形态人权自由民主都是借口和工具,试想,发达国家总人口8亿多,消耗总资源的百分之七八十,那14亿人也过上那个日子,
飞碟的识别与研究一发现脸盆形飞行物一九六三年秋,人们在坐落在太行山区的山西省蒲西县发现了一个脸盆形飞行物,当时大陆与台湾当局关系非常紧张,好多人把这起事件误以为是蒋特登陆信号。这年秋天的一天晚上,飞碟的动力与推测许多飞碟事件的目击者都说,飞碟飞行的方式极为罕见,与我们常见到的飞机的飞行方式大相径庭。飞碟主要有以下几种特殊的飞行方式突然出现直角转弯快速移位任意调转方向直起直落速度极快空中悬浮疑似外星太空船的壁画科学家发现,古埃及3千年前的金字塔的壁画上面竟然有外星人太空船的模样。金字塔上的太空船的模样好似一个倒转了的碟子,这证明3千多年前,外星人已经与埃及人有过接触了,这个发现并不是很有著名书法家王岳洲书法作品欣赏书法家王岳洲王岳洲先生1943年出生,河南省荥阳市人,毕业于河南大学,退休前供职于河南省开封市龙亭区人民政府。先生自幼喜爱书法,先后临写二王黄颜及于右任等书法大家名帖,即使在工作期宋都书画研究会和河南浩洋文化商城举行新年联谊笔会宋都书画研究会和河南浩洋文化商城举行新年联谊笔会宋都书画研究会副秘书长王智荣报道2021年1月16日,宋都书画研究会和河南浩洋文化商城新年联谊笔会在该商城活动大厅隆重举行。参加这次河南暴雨显示团结也是战斗力!那些打压我国的西方政客看见了吗一场千年不遇的大暴雨让河南陷入灾难之中!也从另一个侧面展示出中国上下一条心,军民一条心的团结!这对于突出以自我为价值核心的西方是难以想象的。灾情就是无声的指示,自发的救援队伍,自发MC这个棒子很少有人知道,它做到万物皆可特性哈喽,大家好我是MC小黑。如果大家喜欢MC或者是各种游戏吐槽的话,那么请关注小黑,小黑就持续给大家带来丰富的内容和直播,谢谢大家对小黑的支持。在MC中有这么一个棒子的存在,它就如同一款堪比MC的游戏,能还原万物,甚至是我的世界在一款游戏中还原另一款游戏,这是沙盒模式下独有的玩法和快乐,Minecraft就是如此而且小黑本身就是MC玩家,被Minecraft所搬运的游戏还是蛮多的,就比如求生之路2和精灵宝日本在大东亚共荣圈的幌子下做了些什么?1940年8月1日,时任日本外相的松冈洋右(18801946)发表了皇道外交宣言。其中提到要根据我们皇道的伟大精神,首先建立以日满华三国为一环的大东亚共荣圈,然后宣布强有力的皇道,彼之死神我是天使!平战结合,翼龙2H保障河南水灾应急通讯特大暴雨暂停后航拍的郑州,已经成了水乡泽国,几乎所有的空地都被淹没了。从7月17日以来河南中原大地普降特大暴雨!特别是7月20日降雨量超过历史峰值,24小时降雨627。4毫米(年降感动!河南水灾视频,一位年长战士被网友认出,竟是共和国上将作者虹摄库尔斯克最近河南水灾牵动了全国人民的心,而大量网友拍摄的现场视频给了我们对当地受灾情况和救灾情况有了直观了解。最近,军迷网友在一段救援视频中发现了一位年长的战士,身穿救生衣