范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文
国学影视

AI所生成文本的最权威评估者并非人类

  (原标题:人类评估已不是 NLG 的最佳标准,华盛顿大学提出全新观点,网友:那是评估人水平不行)
  AI 生成的文本好不好,最权威的评估者竟然不是人类自己?
  最近,华盛顿大学和艾伦人工智能研究院的学者们在研究中发现:
  未经过训练的人类评估文本时,往往过分关注生成文本像不像人话 ,而忽略了生成文本更重要的问题,即它的内容是否正确、合乎逻辑。
  研究人员就给出了一个例子:
  他们分别让未经训练的人类和机器来评价一段 GPT-3 生成的文字。
  这段文字翻译过来为:
  从前,有一个海盗。他是那种宁愿把时间花在驱赶在船周围游泳的鲨鱼上,也不愿驶向外国港口寻找战利品的海盗。他是个好海盗,高尚的海盗,诚实的海盗。他是个宁愿和妻儿呆在家里也不愿出海的海盗。
  人类评估员认为这段文字除了有些啰嗦外,没什么大毛病。
  这可能就是一个海盗想回家陪老婆孩子吧,AI 可能没理解,但是这也没什么稀奇的。
  机器评估也认为这段文字很啰嗦,不过它对文段的内容提出了质疑:
  海盗会有老婆孩子?还不和他一起在船上生活?
  对比两种判断,人类评估更看重这段话像不像人话,在检验过它的确非常流畅后,就会默认这段文本没什么大问题了。
  而机器的判断角度则更加多维,会考虑到文字传达的意思是否正确 。很难分辨出 GPT-3 生成的文本
  为了验证自己的观点,研究人员让未经训练的评估人员来区分人类写的文本和 AI 生成的文本。
  他们选择了故事、新闻、菜谱三种不同的文体进行测试。
  具体测试中,受试人员不仅要判断给出的文本是否人类创作的,还要填写相应的理由。
  结果显示,在区分人类和 GPT-2 创作的文本时,被测试群体的正确率为 57.9%。
  但是在区分 GPT-3 生成的文本上,正确率就下降到了 49.9%。
  而二选一问题的随机概率就有 50%……
  显然,普通人已经很难识别出当下最先进的 NLG 模型所生成的文本。
  为了更进一步了解受试人员是如何做出判断的,研究人员对 150 个回答进行了分析。
  结果发现,受试人员在做出判断后,更加倾向于从文本的格式、风格、语法角度上给出理由。
  150 个回答中,基于文本形式的判断几乎是基于内容判断的 2 倍。
  但是,GPT-3 在文本流畅度方面的表现其实已经非常出色,这或许也是为什么人类很难分辨 GPT-3 生成文本。
  而且研究人员发现,受试人员给出判断的理由都不尽相同,这也表明人类评估文本没有一个明确的标准。
  既然 NLG 模型训练后可以变强,那培训一下评估人员呢?
  研究人员决定对一些受试人员进行了培训,提高他们评估文字的能力和速度。
  他们准备了 3 种不同的培训:
  第一种是给出明确的判断标准,让受试人员学习后来判断;
  第二种是通过大量的实例训练,也就是题海战术;
  第三种是通过不断对比来完成训练。
  然而结果表明,这好像并没有什么用。
  三种培训后的判断正确率分别为 52%、55%、53%,相较于未受训时的表现,没有显著提高。
  不过从受试人员的回答中可以看到,更多人现在会多维度判断文本了,还是有进步的。
  基于这样的实验结果,研究人员认为在评估最先进的 NLG 模型方面,人类可能真的不太靠谱了。这实验不太靠谱
  对于这样的结论,网友们提出了一些不同的看法:判断文本质量其实是一件非常艰巨的任务,需要专家来进行评估。
  或许是这项研究中的受试人员不太行?
  有人就指出了问题所在:他们用的 Amazon Mechanical Turk 的评估员。
  是受试人员不太行。
  AMTurk 作为一个众包平台,近年来实在是饱受诟病。
  此前 BBC 报道称,由于招募到的志愿者所在的地区存在一些观念偏见,导致最后研究出的算法也存在偏见。
  而且招募到的人员水平也常常参差不齐。
  不过有人也表示:这些人可能也是最适合的,因为他们最接近普通大众水平,专家认为好的文字,普通人未必也这么认为。这要取决于生成文本的目标人群是谁。
  实验中的志愿者对乔伊斯(后现代文学作家)的欣赏程度肯定和英文系教授不同。
  尽管顶级文学评论家将其描述为"20 世纪实验文学的伟大纪念碑之一"和"英语中最美丽的散文诗之一",但对于大多数普通读者而言,它非常晦涩难懂。
  此外,也有人就对这项研究提出了改进建议:
  我认为他们可以用更简单的 NLG 算法 (基于规则,n-gram, rnn) 进行更精细的分析,并对"非专家"评估者进行排名,而不是将他们作为一个群体来处理。
  而关于 NLG 模型生成文本的评估问题,谷歌曾给出过一个方案。
  2020 年,它们提出了一个可量化评估 NLG 模型性能的指标 ——BLEURT。
  这是一个基于 BERT 的学习评价指标,在学习了几千个人类评估案例后,它可以对不同模型生成的文本进行打分。
  其最大的优势就是,评估速度更快。
  谷歌研究人员认为这个指标有助于 NLG 模型的研究和开发,而且可以为开发人员提供更加多维的评判标准。

1099元,乐视超级电视LeTVY32上架开售感谢IT之家网友疯狂土地神的线索投递!IT之家3月15日消息昨日晚间,乐融致新官方微博LeTV宣布,推出新款Y系列电视Y32,并于15日0时上架开卖。乐视TVY32采用32寸136谷歌获婴儿AI监控专利可追踪眼球,有异常立即提醒IT之家9月8日消息现在社会人们往往因忙于工作而缺乏对婴幼儿的照顾,而如果单独请护理人员又怕他们不负责而让自己的孩子受委屈。不过近日谷歌的一项发明似乎很有可能解决这一问题。据外媒C华为智能眼镜上架9月6日发售,1999元起IT之家8月20日消息先前在巴黎举办的华为P30系列发布会上,华为对外展示了一款同韩国眼镜公司GentleMonster合作研发的智能眼镜。当时GentleMonster的CEOH外媒上手华为WatchGT挺好IT之家10月17日消息华为昨晚在伦敦正式发布了旗下最新旗舰手机华为Mate20系列。期间华为还发布了华为智能手表华为WatchGT,现在已有国外媒体拿到该款手表,并做了简单的上手百度演示无人挖掘机,蓝翔怎么办?11月1日,2018百度世界大会上百度董事长李彦宏演示了百度将AI技术赋能挖掘机的成果。李彦宏在2018百度世界大会现场提问挖掘机技术哪家强,随后在视频中亮相的无人自主挖掘机令从1官方自曝小米全新路由器内测中可插SIM卡IT之家11月27日消息小米路由器已经很长时间没有发布新品了,今天晚间,小米生态链副总裁唐沐提前透露了小米路由器新品的消息。其在微博表示很多人问今年小米路由器还有没有新品,我爆个图外媒体验亚马逊智能微波炉自动帮你算热饭时间11月18日消息,据国外媒体报道,亚马逊最近推出了一款售价60美元的微波炉,你可以通过亚马逊的智能助理Alexa对其进行语音控制,但前提是你要拥有亚马逊的智能音箱Echo。这意味着小米手环3NFC版全面现货开售199元IT之家10月19日消息小米官方今日正式宣布,小米手环3NFC版全面现货,小伙伴再也不用担心抢不到了!小米手环3NFC版本采用了NXPPN80T安全NFC模块,增加支持城市公交一卡摇一摇加好友荣耀小K2儿童手表发布IT之家12月20日消息今天,华为商城上线了一款荣耀智能手表新品荣耀小K2儿童手表。荣耀小K2儿童手表针拥有魔法蓝甜心粉两个配色,采用了1。3寸TFT触摸屏,240240像素,支持赵明暗示荣耀智慧屏开机速度很快IT之家8月3日消息荣耀官方此前已经宣布荣耀智慧屏将在8月10日正式发布,近期荣耀总裁赵明多次在微博为其造势,继此前暗示荣耀智慧屏将没有开机广告后,今晚赵明再次在微博暗示其开机速度亚马逊首批送货机器人Scout上线外观呆萌,速度相当于步行北京时间1月24日消息,零售巨头亚马逊今天宣布,该公司正在华盛顿州斯诺霍米什县测试一款名为Scout的送货机器人。据悉,从周一至周五白天,亚马逊将在当地推出6个Scout机器人用于
<<<<<<>>>>>>
谷歌将于9月9日发售智能家居新设备NestHubMax,售价229美元IT之家7月24日消息据外媒9To5Google报道,谷歌支持页面显示,谷歌将于9月9日发售智能家居新设备NestHubMax,首批发售地区包括美国澳大利亚和英国,售价229美元。马斯克推特搞事情用南瓜怒砸光伏玻璃板测产品强度IT之家11月1日消息特斯拉CEO埃隆马斯克近日在Twitter上分享了一段视频,向网友们展示了特斯拉Solarglass光伏玻璃面板的物理强度。不过测试方法比较有趣,那就是由人站耐克宣布收购预测消费者需求的AI初创公司Celect8月8日消息,据国外媒体报道,耐克公司(Nike)宣布,已经收购位于波士顿的AI(人工智能)初创公司Celect,以帮助提升其预测分析消费者需求的能力。Celect源自麻省理工学院佳明Garmin推出其首款支持4GLTE的智能手表IT之家1月7日消息据外媒TheVerge的新闻,佳明Garmin今天宣布推出其首款配备4GLTE的GPS智能手表Vvoactive3Music,并得到VerizonWirelesCES2019Matrix推出PowerWatch2智能手表,靠体温和太阳就能充电IT之家1月7日消息即将到来的CES2019之前,Matrix公司推出了旗下的新款智能手表PowerWatch2,这款产品完全通过热量充电,作为第一代产品的升级,PowerWatc谷歌眼镜企业版2代现身Geekbench搭载骁龙710,安卓8。1系统IT之家12月3日消息根据外媒报道,谷歌眼镜的第一个版本于2013年推出,但由于其隐形视频录制功能价格过高以及广泛的隐私担忧,未能在市场上掀起波澜。去年,谷歌发布了一款名为谷歌眼镜娃哈哈成立智能机器人公司宗庆后任董事长IT之家4月1日消息今日企查查数据显示,娃哈哈商业股份有限公司新成立一家浙江娃哈哈智能机器人有限公司该公司由宗庆后担任董事长。数据显示,浙江娃哈哈智能机器人有限公司成立于2019年教育部同济大学上海交大等35所高校将首设人工智能专业IT之家3月30日消息29日下午,教育部公布了2018年度普通高等学校本科专业备案和审批结果。呼声极高的人工智能专业被列入新增审批本科专业名单,全国共有35所高校获首批建设资格。根小米米家智能门锁已支持通过小米手环4NFC版开锁IT之家7月15日消息上月初,小米发布了小米手环4与小米米家智能门锁,彼时,小米表示,小米米家智能门锁支持指纹密码手机蓝牙机械钥匙NFC与临时密码等多种开锁方式。今日,米家官方表示ECG功能浅析苹果AppleWatch的心电图功能如何使用12月7日上午消息,在安装了刚刚推送的watchOS5。1。2更新之后,美国的AppleWatchSeries4用户现在可以通过把手指放在表冠上来检测自己的心电图了。通过这次更新,美的首款鸿蒙空调今日上市,可免App自动配网感谢IT之家网友软媒用户1855085的线索投递!IT之家4月30日消息据美的消息,首款搭载华为鸿蒙系统的美的智能空调中国尊鸿蒙艺术柜机今日上市。据悉,此次上市的首款华为鸿蒙系统智