童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

点击查看:新NLP模型如何稳、准、狠狙击“杠精”

9月21日 飞虹塔投稿
  无论国别、无论次元,只要网上冲浪,就会遇到水军、键盘侠、喷子、杠精可以说现在每天,都可以在网络中遇见“大型杠精现场”
  看完《无敌破坏王2:大闹互联网》,资深迪粉的我不禁感慨,我迪自黑和黑起互联网来,也是无人出其右。
  不仅深度“曝光”了互联网充斥着木马病毒、弹窗广告、暗网之类的“阴暗面”,一幕热门视频网站“BuzzzTube”所展现的“人间真实”也令人印象深刻:在网络平台上,算法可以让一个普通人成为点赞无数、收入激增的网红,却难以阻挡网友们赠送的“人参”万两。
  当拉尔夫在后台惊愕地看到无数负面评价并为之难过时,网站的负责人“赞姐”(Yesss)也只能建议他“别看评论区”
  这不就是我们每天都会在网络中围观的大型杠精现场吗?
  无论国别、无论次元,只要网上冲浪,就会遇到水军、键盘侠、喷子、杠精总有一款奇葩网友在线教你做人,社交媒体上的“网怒症”也以指数级增长。当然,平台们也并非无所作为,只不过,他们似乎总是用不对方法。
  比如微博去年就打响了史上最狠评论区保卫战,推出了净化功能“拉黑禁言”,只要评论引发博主不适并被拉黑,乱发言的账号三天内无法再发出任何一条评论。推出后确实震慑到了不少杠精,不过弊端也很明显,那就是依赖网络红人大v博主们一人战杠精,工作量和维护成本也未免也太大了吧?
  既然人肉审查效率太低,那采用自动化呢?Youtube和Facebook以实际行动告诉我们,想要让系统精准识别哪些是垃圾账号和恶意行为,实在是做不到啊!
  前不久,Facebook一口气删除783个“水军”帐号,原因是存在虚假宣传和舆论攻击行为。其中356个Facebook帐户和162个Instagram帐户,早在2010年就开始在网络任性活动了。但由于他们很容易伪装自己,导致系统根本无法自动清理,最后还是靠手动审查才发现了蛛丝马迹。
  看来,想要让机器像人一样精准识别网络行为背后的意图,以当前NLP的阅读理解能力,真的是想太多。
  也因此,去年一篇利用人类眼动来提升NLP模型性能的论文,一经问世,就迅速受到关注,为与网络暴力斗智斗勇的程序员们打开了一扇新的技术之窗。
  我们不妨就以这个最新研究成果为契机,来猜想一下,技术如何才能打赢这场争夺网络话语权的无声战争。
  01:
  机器之殇:远不够完美的RNN在了解这个新的RNN模型做了哪些创新之前,我想有必要先简单介绍一下,NLP的世界里一般是如何使用注意力机制来完成任务的。
  以最为常用的序列对序列(sequencetosequence)模型为例,比如说我们要将中文翻译成英文,如果我们拥有大量的双语语料,就可以得到两个知识丰富而结构相似的编码和解码网络,从而训练出很有效的模型,来实现很好的机器翻译效果。
  但序列模型对机器的记忆力提出了比较残酷的要求,需要先背诵全文再翻译,如果是长篇大论,机器就放飞自我了。
  于是,注意力模型出现了。
  试想一下,人类是如何翻译的(此处致敬高考英语老师):先完整地读完整个句子,结合上下文理解大概含义,然后对关键单词和短语重点思索,再着手进行翻译。
  而注意力模型试图模仿的正是人类这种理解能力。它被设计成一个双向的RNN网络,每个单元由LSTM或GRU组成,能够向前和向后获取信息,通俗点说就是“联系上下文”。
  每次翻译时,注意力模型会根据待翻译部分以及上下文,给予不一样的注意力(权重参数),接着循序渐进地翻译出整段话。
  注意力机制解决了传统神经机器翻译中基于短语的生搬硬套,但并不意味着毫无缺陷。
  它的不完美主要体现在三个方面:
  1。需要大规模标注数据。
  原始RNN在解码过程中,机器的焦点是分散在整个序列当中的,需要先对序列上的每个元素进行标记,再进行对齐操作。里面就包含了词性标注、CHUNK识别、句法分析、语义角色识别,甚至包括关键词抽取等很多子任务,显然不是一个小工程。
  2。增加额外运算负担。
  人类在阅读时,并不关注所有的字,往往会自动忽略掉不想关注或无意义的部分,只重点处理关注需要注意的那一部分。比如“Courageislikeamuscle”中,“Courage”和“muscle”就会让人多看两眼。这样做不仅能够降低任务的复杂度,还能避免脑负荷过载。
  而NLP的注意力机制虽然是在模仿人类行为,但机器必须对所有对象进行处理和计算,还要用一个矩阵去存储不同字节的权重,这些都增加了额外的运算压力和成本。
  3。容易出现归纳偏置。
  通俗点说,就是机器在遇到某种没有见过的东西时,会倾向于给出一个简单的预测或判断,以此来决定输出规则。
  比如通过分析,它认为出现“but”“不”等单词,就说明对方会开始释放负面甚至攻击性的语言了。但要是遇上“我跳起来反手就是一个么么哒”之类玩梗的骚操作,可能就会误伤友军。
  了解了注意力机制的基本工作方式,我们就赶紧来看看这项新的研究成果,究竟是凭什么惊艳了整个学界吧。
  02:
  NLP希望之钥,还掌握在人类手中一句话概括,就是论文作者MariaBarrett和她的同事们,将人类在阅读时的眼部动作引入了RNN网络的训练中,使其能够在标注型文本和人类注意力信息之间来回切换,以此获得性能更好的循环神经网络。具体是怎么实现的呢?
  首先,研究人员利用两个公开的眼动追踪语料库:DundeeCorpus和ZuCoCorpus来研究人类的注意力机制。
  其中,DundeeCorpus包含了20篇报纸文章,共2368个句子,阅读屏幕可以感知眼部动作。ZuCoCorpus则包含了1000个单独的英语句子,有一部分来自斯坦福情感树库,通过红外染色仪来记录眼睛运动和面部情绪分析。
  根据这些人类阅读语料时的眼睛动作追踪数据(比如注视持续时间MEANFIXDUR),得到了一个“人类注意力”的数据集。
  第二步,使用人类眼动数据集与标注好的序列数据集,来共同训练RNN模型。从两个数据集中随机选择一个数据,让机器判断属于哪一个数据集。
  如果属于序列数据集,则进一步判断该句子的类别,计算并预测标签如果属于人类眼动数据集,则计算每个单词的权重(即attention值),再进行归一化(最小平方差)处理。
  那么,经受了人机双重挑战的新RNN网络效果如何呢?接下来,研究人员通过三个任务对其性能进行了测试:
  任务一:句子情感分析。使用新RNN来检测机器是否能识别出数据集(SEMEVALTWITTERPOSNEG)中的负面句子和非负面句子;
  任务二:语法错误检测。让新的RNN阅读经专家注释的英语论文(数据集FCF),并找出其中的语法错误,与正确的句子区分开;
  任务三:暴力语言检测。研究人员安排了20940条设计性别歧视和种族主义等辱骂型语言的推特(数据集Waseem和Hovy),来对新的RNN进行测试。
  最终的实验结果显示,加入了人类注意力训练之后的RNN,找重点的能力,以及预测的精准程度,要远高于原本的序列模型。这项研究成果很快就引起了反响,并获得了NLP顶会CoNLL2018年度最佳研究论文特别奖。
  那么,接下来请回答一道送分题:这项成果有何特别之处?
  03:
  RNN的一小步,NLP的一大步将人类注意力引入机器学习算法的训练,究竟有何意义?
  我来抢答一下:首先,降低了对序列分类标注语料的依赖,让NLP模型的训练有了更多可能性。
  让机器学习注意力函数需要非常大规模的数据,结果就是让开发者不得不陷入争夺计算资源的“金钱战争”。该项研究为NLP中的许多注意力函数提供一个不错的归纳偏置性能,同时还不要求目标任务数据带有眼睛跟踪信息,直接减少了数据需求量。
  其次,是从语义到推理的性能跨越。
  传统的序列到序列模型和RNN网络,只能解决语义理解问题,而该论文证明,使用人眼注意力来规范机器的注意力功能,可以让一系列NLP任务实现显著改善,甚至触及了常识、推理等认知能力。
  机器能从“凝视”信息中获取对多重表达、情绪分析的精准判断,某种程度上已经学会了模拟人类的注意力。
  以后机器也许就能够轻松挑战女朋友说“我没有不高兴”这样双重否定表否定的高难度阅读理解了。是不是很期待呢?
  而最重要也最接地气的,则是新模型带来的网络冲浪体验革命了。研究团队认为,该模型很快就能够在一些比较关键的实际应用中,判断网络文本的犯罪意图、评论信息和情感倾向。
  比如通过帖子或推文的训练,帮助微博推特脸书等社交媒体精准识别出恶意评论的杠精和废话连篇的水军,并予以精准过滤和清楚,营造一个更美好的社区氛围;
  再比如通过淘宝亚马逊Yelp,以及各种应用商店中不同类别的反馈,对特殊属性(衣服的尺寸、使用感受)和商品评价的不同反馈进行分类和提取,帮助商家优化经营,并精准打击刷单等欺骗行为。
  除此之外,该模型还能根据意图对文本进行分类,比如在遇到紧急问题或检测到请求帮助的需求(发出带有自杀或发社会倾向的推文或聊天记录)时,能够及时通知执法人员,从而避免灾难性事件的发生。
  这样一对比,是不是感觉一个“机器懂我、天下无杠”的美丽新世界在向你招手呢?
  再说一点由此延展到整个AI领域,或许可以发现,人类和智能机器,本质上在做着同样的事情,只不过AI的功能是将其抽象化并用新的逻辑演绎出来,然后人类给它投喂数据,它消化之后返还给我们或理想或智障的结果而机器的内化过程,一直遭遇着黑箱性的诟病,越来越庞大的神经网络层和数据需求量,也已经让研究者不堪重负。
  前路在哪里?或许那张大家快看吐了的人类与机器人指尖对指尖的图,正印证着机器学习的未来,那就是:人机协同。
  越来越多的研究者开始将人类推理和决策行为引入到机器训练之中,比如MIT和微软在训练无人驾驶汽车时,开始让它们从人类反馈中找到认知盲点,以此应对那些模糊决策情境。
  DeepMind和OpenAI让没有技术经验的人类控制员来选择预期目标,并以此训练激励预期侧,让智能体根据人类的偏好改进自己的行为,最终完成复杂的任务目标,比如后空翻;基于人眼注意力的新RNN网络也是如此。
  这种改变,可以被归结为深度学习的阶段性技术瓶颈,只能靠向人类借力来攻破。但从某种意义上来说,与人类携手,将人类的抽象能力与计算机系统逻辑进行更高耦合度的融合,可能才是机器智能更现实也更有效的解决方案。
  肯尼迪的那句话放在AI的世界里依然无比适合不要问机器为你做了什么,要问你能为机器做些什么。相比于等待机器自我迭代到成熟的那一天来服务我们,参与“智能养成游戏”不是更令人期待吗?
  好了不说了,我要背上键盘去和杠精们大战三百回合,为机器贡献垃圾数据咯。
投诉 评论

AI系列之赋能教育:基于“AIIOT”技术的“智慧教室”系统新一代技术赋能到特定的商业场景,基于人工智能物联网技术的组合为新一代“智慧教室”的概念提供了新的解决方案。随着人工智能相关技术的日臻成熟和蓬勃发展,尤其是基础层新型传感器……今日头条:AI助力用户推荐(上)众所周知,字节跳动旗下的产品,无论是今日头条还是抖音,均是在AI的赋能下发展的如鱼得水。那么,今日头条的精准推荐是基于AI的哪些技术?又是如何实践的呢?本文笔者将推理出今日头条……入行半年,我这样看云计算本文笔者将根据自己入行一年来的经验以及一些对于云计算的思考,来给大家科普一下云计算的一些知识。文章主要分为五个部分:云计算的前身,数据中心的演变,AWS的潮流,对IAAS、PA……智能音箱,你该重新考虑自己的战略定位了大厂对智能音箱的追捧某种意义上是渴求抓住“下一个入口”的战略焦虑,他们逼迫用户把智能音箱当成家庭中枢,但他们却忽视了用户的需求。也许,智能音箱市场或许到了该战略反思的时候了。……点击查看:新NLP模型如何稳、准、狠狙击“杠精”无论国别、无论次元,只要网上冲浪,就会遇到水军、键盘侠、喷子、杠精可以说现在每天,都可以在网络中遇见“大型杠精现场”看完《无敌破坏王2:大闹互联网》,资深迪粉的我不禁感慨……AI助力零售业务增长,需求预测很关键上一篇笔者给大家介绍了人工智能中的预测技术在商业企业中的应用逻辑,以及项目落地中如何做到“数据预测决策反馈”的完整决策闭环。这一篇,他将给大家讲讲:零售行业在AI预测方面的需求……AI相亲、基因配对,约吗?人工智能发展下的真正的“网恋”,它真的能帮助我们找到更好的伴侣吗?网上的交友和恋爱软件在几十年前就打下了基础,而随着2007年第一部iPhone发布后,“网恋”势头开始猛……智能音箱跌宕四年,互联网巨头的一场硬仗智能音箱是一种舶来品,从一开始的质疑到现在的巨头“群起而抢之”,智能音箱的这四年的发展历程到底是如何的?未来的智能音箱又有什么样的发展呢?从科技玩物到互联网巨头必争高地,……AI生态链:百度、猎豹移动、商汤们背后的智能版图人工智能的探险地图上,BAT是原始拓荒者,基于强大的技术力量以及资本支持,BAT将AI带入并且融入中国人生活的方方面面。但是,AI并不是一个巨头垄断的领域,生态链上也不缺独角兽……如何让机器像人一样听声音?通过对人体系统进行建模,人工智能技术已经取得了重大突破。尽管人工神经网络是数学模型,仅能粗糙地模拟人类神经元的实际运作方式,但它们在解决复杂而模糊的现实问题中的应用却是深远的。……AI系列之自动驾驶(三):“解剖”汽车的“感官系统”汽车要依靠传感器来感知周遭的环境变化,各种类型的传感器由于其属性以及技术原理的不同,各有各擅长的应用场景,发挥着其他的传感器不具备的作用。想象一下:此刻地你正行走于繁华的……通过引入ML,谷歌ARCore实时自拍AR的逼真效果更进一步ARCore是谷歌于去年2月份正式推出的增强现实(AR)软件开发工具包,给开发者提供了一个开发ARAPP的平台。不到一个月前,谷歌正式推出ARCore1。7版本……
成人奶妈网站组织卖淫被警方捣毁今年以来,全国公安机关根据公安部的部署,紧紧抓住涉黄涉赌问题不放,健全完善打击整治常态工作机制,持续推进扫黄扫赌专项行动,深入摸排案件线索,广泛发动群众举报,强化专案打击和重点……音乐视频号呈上升之势,十强占位近半中国微信500强月报(20本期看点:视频号篇1。视频号500强单个作品平均获赞数连续两个月下降,本月降幅4。4;2。音乐类“莲妹情感音乐”首次夺得视频号500强榜首……抖音电商为何成为越来越多主播的选择?月初,抖音电商联合巨量算数发布的《2021抖音电商生态发展报告》显示,抖音电商作者数以及收入增长规模数据可观:抖音电商创作者和人均收入规模持续高速增长,2020年下半年较上半年……我在抖音做剪辑二创博主如何变现?机构奖励、广告、宣发,这三种是流量变现最常见的渠道,而除了这些以外,视频剪辑博主还有一个“类知识付费”的变现方式,业内称之为“收徒。睁眼,按亮手机,屏幕……直播大逃杀:能活下来的,和还有未来的电商和短视频巨头进场,直播行业被彻底重构,谁能活下来,谁还有未来?01第二次大逃杀中国直播行业正面临一场前所未有的变局,这是“千播大战……色情灰产入侵家族群,狂割中老年人“韭菜”当代年轻人应该有个心照不宣的秘密:屏蔽家庭群,尤其是七大姑八大姨都在的那种。为啥呢?当然是因为家庭群总是被长辈们发的土味视频占据,就像这样:对于这种视频,我一……华为下场、B站再次出手,游戏圈为啥这么热如果要评选当下资本市场最热门的行业,游戏行业无疑将会是其中之一,如今无论是国内还是海外市场,游戏厂商也成为了投资并购中的香饽饽,无数巨头更是向着游戏厂商挥舞着钞票。就在此前字节……视频号变现第一人的操盘底层逻辑龚文祥老师确实是草根创业学习的典范,他说他后悔创业太晚,成功太晚,出来创业十多年,每年就赚个几千万吧。顶级凡尔赛本人,高调做事,低调做人,我辈楷模。视频号微信直播这波机遇……一个人,一支笔,拥粉近千万,赵小黎是如何在绘画领域一路蹿红的你是否看到过,在短视频平台有人潇洒自如的挥笔、泼墨,而我们在她手中画笔的挥舞下,仿佛也不知不觉的走进了一个艺术的世界。这些画或浓墨重彩或单纯美好。这些奇妙的画作在让人啧啧……快手亮相首届中国消博会大小屏联动直播释放“融合力”5月7日至10日,由商务部和海南省人民政府举办的首届中国国际消费品博览会在海口举行。本届消博会聚焦“高、新、特、优”消费精品,包含时尚生活、珠宝钻石、高端食品保健品、旅居生活和……拍视频、做直播,一场带娃妈妈的“自救”中国自古有句老话,“母亲是水,父亲是山”。而如今,情况早已发生改变,母亲既要是水也得是山。就连直播间和短视频平台,你会发现,女性和妈妈也顶半边天。一提到宝妈主播,大家首先……“潘嘎之交”血洗B站,看完我人傻了最近,继马保国的“耗子尾汁”以后,又有一个爆梗血洗B站潘嘎之交(潘指潘长江老师,嘎指演过嘎子的谢孟伟)。这个梗有多火呢?我发现它已经火到成为B站新晋财富密码nbsp……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界