范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

AI所生成文本的最权威评估者并非人类

  (原标题:人类评估已不是 NLG 的最佳标准,华盛顿大学提出全新观点,网友:那是评估人水平不行)
  AI 生成的文本好不好,最权威的评估者竟然不是人类自己?
  最近,华盛顿大学和艾伦人工智能研究院的学者们在研究中发现:
  未经过训练的人类评估文本时,往往过分关注生成文本像不像人话 ,而忽略了生成文本更重要的问题,即它的内容是否正确、合乎逻辑。
  研究人员就给出了一个例子:
  他们分别让未经训练的人类和机器来评价一段 GPT-3 生成的文字。
  这段文字翻译过来为:
  从前,有一个海盗。他是那种宁愿把时间花在驱赶在船周围游泳的鲨鱼上,也不愿驶向外国港口寻找战利品的海盗。他是个好海盗,高尚的海盗,诚实的海盗。他是个宁愿和妻儿呆在家里也不愿出海的海盗。
  人类评估员认为这段文字除了有些啰嗦外,没什么大毛病。
  这可能就是一个海盗想回家陪老婆孩子吧,AI 可能没理解,但是这也没什么稀奇的。
  机器评估也认为这段文字很啰嗦,不过它对文段的内容提出了质疑:
  海盗会有老婆孩子?还不和他一起在船上生活?
  对比两种判断,人类评估更看重这段话像不像人话,在检验过它的确非常流畅后,就会默认这段文本没什么大问题了。
  而机器的判断角度则更加多维,会考虑到文字传达的意思是否正确 。很难分辨出 GPT-3 生成的文本
  为了验证自己的观点,研究人员让未经训练的评估人员来区分人类写的文本和 AI 生成的文本。
  他们选择了故事、新闻、菜谱三种不同的文体进行测试。
  具体测试中,受试人员不仅要判断给出的文本是否人类创作的,还要填写相应的理由。
  结果显示,在区分人类和 GPT-2 创作的文本时,被测试群体的正确率为 57.9%。
  但是在区分 GPT-3 生成的文本上,正确率就下降到了 49.9%。
  而二选一问题的随机概率就有 50%……
  显然,普通人已经很难识别出当下最先进的 NLG 模型所生成的文本。
  为了更进一步了解受试人员是如何做出判断的,研究人员对 150 个回答进行了分析。
  结果发现,受试人员在做出判断后,更加倾向于从文本的格式、风格、语法角度上给出理由。
  150 个回答中,基于文本形式的判断几乎是基于内容判断的 2 倍。
  但是,GPT-3 在文本流畅度方面的表现其实已经非常出色,这或许也是为什么人类很难分辨 GPT-3 生成文本。
  而且研究人员发现,受试人员给出判断的理由都不尽相同,这也表明人类评估文本没有一个明确的标准。
  既然 NLG 模型训练后可以变强,那培训一下评估人员呢?
  研究人员决定对一些受试人员进行了培训,提高他们评估文字的能力和速度。
  他们准备了 3 种不同的培训:
  第一种是给出明确的判断标准,让受试人员学习后来判断;
  第二种是通过大量的实例训练,也就是题海战术;
  第三种是通过不断对比来完成训练。
  然而结果表明,这好像并没有什么用。
  三种培训后的判断正确率分别为 52%、55%、53%,相较于未受训时的表现,没有显著提高。
  不过从受试人员的回答中可以看到,更多人现在会多维度判断文本了,还是有进步的。
  基于这样的实验结果,研究人员认为在评估最先进的 NLG 模型方面,人类可能真的不太靠谱了。这实验不太靠谱
  对于这样的结论,网友们提出了一些不同的看法:判断文本质量其实是一件非常艰巨的任务,需要专家来进行评估。
  或许是这项研究中的受试人员不太行?
  有人就指出了问题所在:他们用的 Amazon Mechanical Turk 的评估员。
  是受试人员不太行。
  AMTurk 作为一个众包平台,近年来实在是饱受诟病。
  此前 BBC 报道称,由于招募到的志愿者所在的地区存在一些观念偏见,导致最后研究出的算法也存在偏见。
  而且招募到的人员水平也常常参差不齐。
  不过有人也表示:这些人可能也是最适合的,因为他们最接近普通大众水平,专家认为好的文字,普通人未必也这么认为。这要取决于生成文本的目标人群是谁。
  实验中的志愿者对乔伊斯(后现代文学作家)的欣赏程度肯定和英文系教授不同。
  尽管顶级文学评论家将其描述为"20 世纪实验文学的伟大纪念碑之一"和"英语中最美丽的散文诗之一",但对于大多数普通读者而言,它非常晦涩难懂。
  此外,也有人就对这项研究提出了改进建议:
  我认为他们可以用更简单的 NLG 算法 (基于规则,n-gram, rnn) 进行更精细的分析,并对"非专家"评估者进行排名,而不是将他们作为一个群体来处理。
  而关于 NLG 模型生成文本的评估问题,谷歌曾给出过一个方案。
  2020 年,它们提出了一个可量化评估 NLG 模型性能的指标 ——BLEURT。
  这是一个基于 BERT 的学习评价指标,在学习了几千个人类评估案例后,它可以对不同模型生成的文本进行打分。
  其最大的优势就是,评估速度更快。
  谷歌研究人员认为这个指标有助于 NLG 模型的研究和开发,而且可以为开发人员提供更加多维的评判标准。

一加手表OnePlusWatch钴合金限定版手工抛光打磨,5月17日开售根据一加手机官方消息,一加首款智能手表OnePlusWatch即将推出钴合金限定版,产品将于5月14日1930在直播中亮相,5月17日1000正式开售。官方暂时未公布产品的售价和照苹果亚马逊发起新连接标准,让智能家居设备跨服交流美国东部时间5月11日,包括苹果亚马逊和谷歌等主要科技公司在内的连接标准联盟(ConnectivityStandardsAlliance,CSA)宣布推出一个新的连接标准MatteIT之家开箱OPPO手环活力版图赏蓝色风暴,动感十足IT之家5月6日消息OPPO手环活力版于今日正式发布,有蓝色风暴和橘色热浪两款配色。IT之家现已拿到OPPO手环活力版的蓝色风暴配色,并为大家拍摄了精美的图赏,一起来看一下吧。第一OPPO手环活力版正式发布支持连续血氧检测,首发149元IT之家5月6日消息OPPO刚刚举行了K9系列超次元发布会,发布了7个产品2个套装,其中一款为OPPO手环活力版。OPPO手环活力版搭载了1。1英寸AMOLED彩屏,支持连续血氧检小米米家新风空调新品正式开售自研新风系统,尝鲜价2499元IT之家5月13日消息根据小米智能生活微博消息,米家全新款的新风空调系列新品正式开售,空调采用自研新风系统,1。5匹新一级能效,尝鲜价格2499元。IT之家了解到,新款空调采用新一IDC2021年一季度可穿戴设备出货量超过1亿部,苹果市场份额下滑IT之家5月28日消息根据IDC最新公布的数据,2021年第一季度,苹果公司的可穿戴设备出货量继续同比增长,但该公司的整体市场份额却被较小的竞争对手蚕食。IDC的数据显示,今年第一抢先苹果AirTags三星GalaxySmartTagPlus在韩国开售,约230元IT之家4月17日消息三星此前宣布于4月16日在美国开售GalaxySmartTagPlus防丢器,然而,美国版本开售日期延迟,韩国版本成为首发。三星官网显示,GalaxySmar小米烟感卫士报警器发布5年续航,149元IT之家4月14日消息小米近日发布了烟感卫士探测报警器。这款产品是小米与霍尼韦尔(Honeywell)联合打造的,具备消防产品CCC认证,可以接入米家生态进行烟雾探测火灾报警。小米天梭腾智无界系列腕表上市,内置部分华为鸿蒙功能感谢IT之家网友疯狂土地神的线索投递!IT之家4月13日消息4月12日晚,瑞士天梭表举办天梭腾智无界发布会,正式发布了无界系列腕表,售价8100元起。据华为技术有限公司解决方案战略谷歌无屏幕健身手环专利公布,不可拆卸设计IT之家12月18日消息据外媒91mobiles报道,谷歌的一项智能手环专利近日获得美国专利商标局的通过。这款手环最大的特点是不包含任何屏幕,仅在内部有着传感器以及充电电极。专利的华为WatchFIT发布全彩方屏10天续航,799元IT之家12月23日消息今天下午,华为WatchFIT正式发布,官方表示它不止是时尚手表,还是腕上私教,内置12门健身课程,44个标准动作示范,拥有瑜伽等96种运动模式,售价799
华米科技黄汪第三代可穿戴自研芯片将很快推出1月29日晚间消息,在今日的极客公园创新大会2021上,华米科技创始人董事长兼CEO黄汪透露,华米科技自研的第三代可穿戴芯片将很快推出。华米科技是小米生态链企业,早期打造了小米手环华为公开人机对话相关专利可根据对话内容生成准确回复IT之家2月27日消息2月26日,华为技术有限公司公开一项名为一种人机对话的方法和装置的专利,公开号CN108319599B,申请日期为2017年1月。IT之家了解到,该方法应用于小米发布米家高速吹风机H700铝合金一体机身LCD彩屏,众筹价699元IT之家12月14日消息,今日上午,小米宣布推出米家高速吹风机H700,零售价799元,众筹价699元,将于12月15日上午1000开启众筹。设计方面,米家高速吹风机H700采用铝小米米家App7。0体验版新增全屋智能控制中心,所有模块均支持设备的显示和控制感谢IT之家网友软媒用户61330的线索投递!IT之家12月14日消息,小米米家App现已向部分用户推送7。0体验版更新,新增全屋智能控制中心,可在设置中开启。IT之家了解到,米家谷歌人工智能DeepMind,高中数学考了个不及格IT之家4月13日消息我们在许多新闻报道里见识过了人工智能(AI)的厉害。谷歌的AlphaGo曾先后击败了李世石柯洁两位顶尖棋手,拿下了围棋这个人类一直以来占据着优势的项目。图自PAI也会查百度了,OpenAI新成果让GPT3回答开放式问题12月17日消息,本周四,OpenAI基于AI模型GPT3发布了WebGPT,该模型可在线搜索问题组织答案,并添加引用来源,更准确地回答开放式问题。在回答问题时,WebGPT可以通皮克斯技术指导辞职读博研究AI设计怪物,从游戏王卡牌开始让AI画人脸见得多了,要是让AI画个幻想中的怪物又如何?来看几个,先是人形的再来个兽形的还有诡异到说不出来属于什么型的你可能会问,这很难吗?毕竟现在用GAN生成人脸都能以假乱真,生报告全球各企业AI预算较去年大幅增长55,数据变得比算法更重要IT之家8月29日消息据外媒美通社报道,训练数据提供商AppenLimited在近日发布了第七份人工智能与机器学习现状年度报告。报告显示,全球各企业AI预算金额范围从50万美元至5失败者还是啦啦队长?AI能识别自拍照给人分类早在2009年,美国斯坦福大学和普林斯顿大学的科学家就曾提出设想,希望教授计算机识别世界上的任何物体。为了实现这个目标,他们需要很多图片,除了猫狗苹果叉子勺子等,还需要无数人类的图京东陶大程超级模型生态系统将引领新一轮产业变革7月8日消息,2021世界人工智能大会第八届中国产业互联网高峰论坛上,澳大利亚科学院院士京东探索研究院院长陶大程博士表示,超级模型生态系统引领新一轮产业变革。陶大程博士认为,通过构开发者确认苹果AppleWatchS7处理器与前代AppleWatchS6完全相同IT之家9月15日消息今日,苹果在秋季新品发布会上推出了全新AppleWatchSeries7。与前代AppleWatchSeries6相比,小号AppleWatchSeries7