童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

搜索引擎如何规避不恰当联想词?

5月5日 温柔冢投稿
  搜索引擎,可以通过联想词使得人们在使用时更加的便利,但是与此同时,也带来了一些麻烦。人类有固有的思维盲区,让他们在设计算法和流程的时候,实在是难以预料用户会出现什么样的不当使用行为,导致什么奇葩的结果。
  有媒体报道,通过搜索引擎,可以找到一些“相约自杀”的QQ群、微信群等,成为有些年轻人自杀的诱因。搜索引擎方面自然对这种联想词功能的问题责无旁贷,然而媒体和公众花样翻新的测试,总是让产品设计者防不胜防。
  为了让我们更方便的使用搜索,联想词是必然要加入的一项功能。而对人们的意图进行联想和预测,也是未来人工智能语音助手变得更好用的基础前提。但是,人类固有的思维盲区,让他们在设计算法和流程的时候,实在是难以预料用户会出现什么样的不当使用行为,导致什么奇葩的结果。
  往往只有在媒体曝光,公众关注以后,他们才能知道运算的结果如何,然而此时,错误已经铸成。
  一、为您推荐
  年轻人在网上相约自杀的行为,中外都有。在中国,主要的网络平台载体就是QQ群、微信群等地。几天前《法制晚报》报道,又有三名青年通过QQ群“相约自杀”成功。
  看到孩子遗体的父亲在悲恸欲绝之余,还质问网络平台说:
  “聊了那么久,网站看不到吗?网络平台没有审核么?不承担任何一丁点的责任么?”
  不管事实上看不看得到,从公司主观层面,腾讯当然都要说看不到用户的聊天记录。这一点可能不会遭遇什么异议,你当然也不希望自己在群里刚说了一句话,五分钟后就有警车呼啸而至什么的吧。
  不过,在《法制晚报》的报道中,记者在百度上搜索“自杀群”关键字,就能非常容易地找到很多QQ群的号码。公开展示的信息,和私密的群聊是两码事。
  报道称:结果页面不仅有聊天记录截屏。相关新闻报道,而且每次点击结果后,都会通过联想词自动“为您推荐”一些关键字,包括“约死微信群2018、2018相约死亡群、2018想死扣扣群”等。
  笔者小时候曾经帮不太懂电脑的同学和家长找过资料,时常被询问“为什么我这么半天搜不出来,你一搜就有了”,这实在三言两语很难讲清楚。
  但是,很显然百度的这些关键词联想功能,给了一些可能不太熟悉搜索引擎语法的用户机会,让他们可以获得更精准的结果。
  二、防不胜防
  记者向百度反映之后,百度已经修正了相关检索结果。现在你再搜索“自杀群”时,就不再显示带有具体群号码的讨论,基本上看到的都是相关事件的新闻,持续十几二十几页都是这样。
  而且,让航通社感受颇深的是,跟“相约自杀”有关的搜索结果清理工作,在今天(6月26日)持续一整天都在不断进行。
  今天上午,航通社测试在百度贴吧搜索框当中打“相约自杀”,并选择“全吧搜索”,还会发现带着QQ群号码的一些帖子;“相约烧炭”“烧碳”等一些变种也有帖子存在。但到了下午4点左右再测试,这些页面刷新之后基本都被清理了。
  然而,媒体曝光的问题修改起来总是容易的。进一步操作的话就会发现,还有一些“高危”的短句搜索结果未作处理。
  在贴吧搜索“相约烧炭”,旁边的“大家都在搜”提示了“烧炭多久可致人死亡”、“车里烧碳”、“烧碳如何确保必死”、“2017有烧碳死的吗”这些短语。
  笔者相信它们的形成机制,和报纸记者测试出现的“约死微信群2018”等是一样的,机器不太可能无中生有地造出这些排列组合。每一个关键字的后面,很大程度上都可能有不止一个真人亲自打出过这些词。
  只要简单想想,就令人后背发麻。
  三、是不是有专门的员工盯着
  在知乎,有关于百度的三个“经典问题”:
  “百度作了哪些恶?”
  “为什么有人说百度以一己之力全面降低了中国互联网体验?”
  “为什么老师说‘百度搜索不是什么正经的东西’?”
  在这些问题下的数千个回答中,有些提到的现象现在再看,已经无法重现。而有时在某个回答成为热门之后很短时间,其中提到的不妥当的搜索结果就会被清理。
  笔者一度怀疑,有专门的百度员工盯着这些“招黑”的帖子和媒体报道。不过有自称的百度员工回帖说,一般他们都是路过看到,顺手贴进内网论坛,也通过这一渠道报了很多Case。
  实际上,面对一部分搜索结果的Bug(特别是和盈利不明显挂钩的问题),百度并不是毫无作为,同时也乐于将一些搜索结果的改善大举宣传,作为企业履行社会责任的一部分表现。
  具体到“自杀”问题,百度和国内其他搜索引擎,均已和国内相关的心理干预机构建立了合作关系。在一些比较容易想到的词语,比如说:“自杀”,“我想自杀”这类关键词结果页,都会出现求助热线电话号码,以及求助方式,基础知识等等。
  至少有一部分人选择自杀时,并不是经过深思熟虑的,只是一时间想不开。与此同时,他又没有接触过关于自杀的一些基础知识,包括死亡的代价,寻死的疼痛,无法挽回和来不及后悔的具体含义。
  也许,如果他们有机会了解到相关的知识,那么他可能就会被吓到,或者被劝阻,从而重新认真的思考自己这一决策是否合理。
  但是,这个关键字提醒功能,并未涵盖“自杀群”、“相约自杀”等词,也没有覆盖所有的“死法”,比如:“上吊”、“跳楼”有,但“烧炭”、“安眠药”没有。
  这很显然与百度的分词策略有很大关系,“自杀”关键字的相关页面无疑是人工干预的结果,而产品经理头脑风暴以后想不到的一些词,就只会由系统自动展开联想。
  具体到“自杀群”这个词,因为在近一两天产生了大量新闻和转载,全国转载媒体达到几十家,所以这可以组成一个自动的新闻专题。我相信记者写稿时看到的结果页肯定不是这个样子,但是已经没有办法去查证了。
  当“自杀群”关键词被系统认为是新闻热点的时候,在页面右侧的推荐结果当中,就会提示“相关人物”最近有什么名人自杀了,以及其中包含的“知名演员”。
  虽然看不到具体的QQ群号,但是显示的是有多少名人和自己一样,也选择了自我了断,这可能对有自杀念头的人来说,并不是一个非常正面的激励。
  此外,也有网友指出,百度虽然对“自杀”实施了干预,但对造成后果同样很严重的“自残”却没有干预。现在(6月26日下午4点)搜索“自残”,第二条结果是有人问“为什么自残会觉得很舒服”。
  四、盲区如何形成
  如此看来,搜索引擎联想词惹出的麻烦,恐怕不能靠产品设计上事先根治,多数情况下是发现一个整改一个,跟打地鼠一样。是什么导致了这样的结果呢?
  首先,与“自杀”相关的这一系列词语,可以说在整个搜索处理流程中,并没有达到一个极端重要的优先级,换句话说就是还没有成为“敏感词”。
  因为如果将“自杀”也设置为不可触碰的最高等级词语,你会发现自己连发消息,甚至发谐音字火星文代替都很困难。如果很多人自杀念头只是一闪念,看这么麻烦,也许就偃旗息鼓了。然而,这样做会很大程度上影响我们的日常交流,给人们带来的不便,已经超出了封禁可能带来的好处。
  但更重要的是:我们寻求结果的过程,从事后来看可以说是非常简单,但是事前想要从零开始去想,那就非常困难。
  这就像我们去阅读一篇构思精巧的侦探小说一样。没有经验的读者,不知道这种小说会有什么样的套路,面对谜题的时候会是一头雾水的。但是当最后真相终于揭晓的那一刻,我们再把它还原回去,就会感觉一切线索原来都预先设置好了,草蛇灰线的埋伏都是在情理之中的。
  那么,为什么我们这么笨,就没有想到呢?
  其实不是我们笨,而是一些我们日常可能思维形成的惯性或者定势,对我们造成了误导。
  小时候,老师用一个“棉花糖实验”,教给我们做事要忍耐,要有毅力,抵御诱惑的道理。好像在有些地方,也被误传为“棒棒糖实验”什么的。实验内容是给一些孩子们每人一块棉花糖,如果他们忍住15分钟不吃掉糖,就能再吃一块。当然,马上就吃也没关系,但是不会有奖励。
  大多数小孩都忍不住吃掉了,或者搞小动作吃了一点点,自以为没被发现,最后能坚持15分钟没吃糖的孩子只有一小部分。然后呢,这一小部分孩子长大后果然坚毅勇敢有耐心,走上人生巅峰。
  然而,《大西洋月刊》杂志最新刊登的一篇文章介绍了纽约大学和加州大学一项共同研究的结果,让人大跌眼镜这项原本进行于1990年的“棉花糖实验”的结论可能有误。
  确实有少数孩子比其他孩子更能坚持15分钟,以拿到双份的棉花糖,但这并不是因为他们更有毅力而是因为他们家境较好,小时候就能经常吃到好东西,所以并不认为棉花糖是一个稀罕物。
  我读到之后既震惊又奇怪,为什么之前我只是被动的接受了老师指定的结论,或者是“标准答案”?为什么我都没想到从另外的角度去看,或者怀疑它?
  我想,对于百度的工程师和产品经理们来说,他们显然也不是全知全能的。说到给关键字添加温馨提示,他们只能是想到“自杀”,以及“我要自杀”、“我想自杀”,沿着这样的路径去联想。
  他们不可能想到,“自杀”后面还可以跟着“QQ群”,或者是“相约”,或者是细致入微地采用自然语言询问怎么自杀最快且不痛苦。
  五、人人都是义务测试员
  历史上,搜索引擎因联想功能而受到的抨击,简直是举不胜举。
  2009年6月,国家有关部门批评谷歌中国存在“大量淫秽色情和低俗信息”,使“大量境外互联网上的淫秽色情信息通过该网站传播到我国境内”。
  在《焦点访谈》节目中,有关部门演示了谷歌网站联想词搜索存在提示黄色信息的问题。例如:在谷歌中国中输入“儿子”,下面却出现了例如“儿子母亲不正当关系”等十几个选项。
  事件成为谷歌宣布退出中国业务运营的直接导火索,此后有网友指出,在报道播出前几天,相关词汇的搜索量异常骤增,导致该词汇成为热门关键字,因此可以进入联想词列表的前列。
  直到现在,谷歌、Facebook、Twitter等网络平台所遭遇的跟关键词、自动联想推荐功能有关的无妄之灾,也依然是层出不穷。
  2016年12月,在谷歌搜索框输入“犹太人是”时,会显示“犹太人是邪恶的”联想词。
  2017年11月,在YouTube搜索“howtohave”时,会显示“howtohavesxwithyourkids”(如何与你的孩子发生关系,原文就有号)。
  2018年2月,谷歌搜索会提供这样一些联想词:“伊斯兰主义者不是我们的朋友”、“希特勒是我的英雄”、“女权主义者是性别歧视”、“白人至上是好的”、“全球变暖是假的”。
  媒体展开了愤怒的质问:
  为什么像我们记者这样的普通用户,都能一眼就发现的东西,你们谷歌有那么高明的技术手段,却迟迟不能发现?
  如同上面我们说过的一样,虽然算法是普遍存在的,然而人的思维是有盲区的。所以,算法优化的方向也是由人来指定的,那么它也只会把一个已经知道的位置去扫描得事无巨细,却完全管不到它和它的设计者可能想象不到的地方。
  自动推荐是机器学习最典型的应用,而这个“黑箱子”里面一向以人们不能掌握其具体运转机制而著称。就算欧盟通过GDPR立法,逼迫厂商公开算法细节,恐怕那公开出来的,也是没人看的懂的天书。
  长远来看,解决混沌的方法必须是还以混沌。也就是说,用机器学习去对抗随机Bug,是解决所有未来这些联想问题的唯一一个看起来可行的途径。
  具体到搜索关键字联想,应对不当联想的方法,除了人工标记就连谷歌在回应媒体报道时,都只能说用到这个方法可能就是要采用类似神经网络翻译的手段:通过分拆和描述一个关键词、短句的具体特征,计算某类词汇(以及其错别字变体)跟另一些词一同出现的概率,并尝试通过人工抽样检查等方式下判断来训练机器。
  如果机器学习实在到不了这种程度,一个非常简单的方式就是一禁了之。
  例如:任何出现QQ群号码的帖子也就是“QQ、秋秋、V信”等词语,后面加上九位或十位数字或者是手机号这类的信息,如果和“自杀”、“烧碳”连缀的话,我们根本就不让它出现在百度搜索结果里,可不可以?
  还是说起来容易,做起来难。全面禁止容易“误伤”,为用户带来不便,而且出了问题以后,对系统改动的断点越多,查找问题源头时就越麻烦,最后可能越改越糟。
  我愿意从比较善良的角度思考,相信百度、谷歌等这些提供算法推荐的企业,并没有因为出现时有发生的负面消息,而一口气关闭推荐功能,初衷是进一步改善和优化搜索结果,以至于让它不断的接近人类的思维可以达到的理想境界。
  在这种改善产品的过程中,搜索引擎事实上推出了一个不完美的“半成品”,把所有使用这个功能的用户、媒体等等,都当成是其测试部门的“编外”工作人员。每一次搜索异常,都是在向开发者反应一个错误的测试结果,或者是示范一种计划之外的错误的用法。
  对于程序员来说,他们可能学到的很多项重要的道理当中,其中一条就是,永远不要去试图规范用户该做什么,不该做什么,他总能找到你意想之外的使用方式。
  然而,如果你试图把所有的用户当做不花钱的测试员,这样做的结果就是你必须要付出金钱之外的代价。
  当媒体以及社会舆论发现你这些错误,并且在社交渠道广为流传的时候,这就不是你能够靠给媒体们发工资能解决的问题了可能很多年之后,关于这个搜索引擎各种不靠谱的印象,还是会继续流传。
投诉 评论

搜索引擎如何规避不恰当联想词?搜索引擎,可以通过联想词使得人们在使用时更加的便利,但是与此同时,也带来了一些麻烦。人类有固有的思维盲区,让他们在设计算法和流程的时候,实在是难以预料用户会出现什么样的不当使用……免费试听Axure菜鸟掌握这4个交互效果,原型专业度立刻提升本次试听的是腾讯课堂起点学院联合打造的6周axure实战班。试听免费,试听信息见下方axure实战班已经有2700多位学习提升,第9期火热报名中如果你想快速……大多数性能最高的产品,都不能称为好产品我们在思考产品问题时,需要跳出产品本身的功能性,把产品放在一个用户场景任务下去看待。当我们设计产品时,设计的并不是产品本身,而是针对于产品场景的一套解决方案。也正是……用球迷的方式,告诉你为什么这届世界杯不卡了。。或许对于国足来说,世界杯是终极目标;但对于中国的视频产业技术升级,世界杯仅仅是一次练兵而已。世界杯期间,什么事最痛苦?如果有某件事比主队输球还要难受的话,那大概只有……线下课程丨微信大改版,对运营人来说或许是一次由外而内的逼迫式上周微信大改版,大家都说很多运营人开始慌了。天台上除了熬夜看世界杯的球迷还多了一群互联网运营人。这大概就像上学的时候,有些作业写不好的同学,听见老师说从今以后作业我都要亲……微信VS抖音:谁才是占据用户时间的霸主?抖音看似抢占了微信的多数用户,但在实际的意义上,只是对社交的裂变途径发生了变化,仍未对微信的社交根基产生动摇。用户的时间争夺始终是社交app一个永无止境的话题,流量红利虽……微信对订阅号的自我修正在等来了呼唤已久的《订阅号助手》APP后,自媒体人感觉终于可以送一口气,去度个假不用带电脑了,刚刚订好机票,没想到微信的另一份“大礼”悄无声息的来了:微信订阅号改版了,这下也别……传统便利店,如何拥抱时代的变化?对于便利店来讲,杨波15年的经验也算经历了中国便利店的风云变幻,现在又恰好赶上了当下炒的很热的新零售。那么,作为传统便利店,他们要如何拥抱时代的变化?面对纷繁复杂的竞争环境,便……腾讯移动分析测评大赛结果公布这一次,且听我娓娓道来时间终究是留不住的,却可以沉淀一些弥足珍贵的东西,尤其是借由文字书写的。记得大赛启动还是在五月初,一转眼已到了月末,我们便要在此刻公布大赛结果。这一次,且听我娓娓道……B2B行业自身体会(一):立足贸易关系,寻找切入点,确立自身进入B2B产业互联网已经一年多时间,作为一名产品人,基于对原行业的理解,在这里分享给大家自身对于B2B产业的一些想法以供参考。众所周知,B2B指的是面向与企业与企业间提供……从产品的角度来浅谈知识付费本文作者将从产品的角度来浅谈一下现在的知识付费平台,enjoy碎片化时间学习?这半年来,我在各个知识付费平台上学了几个课程。认识到碎片化时间学习,其实是个伪命题。真……二手图书市场分析:二手书,一块烫口的香芋烫口的香芋,好却难咽,需求确实存在,但需求点分散,不好满足,对于二手图书市场还有很长的一段路要走。又到了毕业时季,收拾搬东西是最烦的,很多人就都会像我一样面对这样一个问题……
抖音电商推“春雨计划”加码内容生态建设,从严打击“流量乞丐”电商带货越来越普及,带货内容越来越丰富多彩,消费者的购物生活也因此多了很多乐趣和满足。但也有部分主播为了博人眼球、赚取流量无所不用其极,卖惨、做戏等卖货“套路”都成了互联网新笑……“抢菜潮”下生鲜电商股价暴涨,社区团购会“卷土重来”吗?“每天早上定好闹钟,发动朋友一起抢菜,总抢不到,心态已崩”最近一段时间,因疫情防控被困家中的上海市民,不分职业、收入、年龄,统统加入了“抢菜大军”的行列。“抢菜潮”带动了……拼多多上线48小时保供套餐下单后48小时送达站长之家(ChinaZ。com)4月8日消息:为助力解决上海疫情保供“最后100米”问题,拼多多平台上线“48小时保供套餐”。消费者打开拼多多app或小程序,搜索“上海48小时……顺友物流:专业的跨境电商物流服务商深圳市顺友跨境物流股份有限公司(简称顺友物流),成立于2008年6月,总部位于广东省深圳市,十三年来一直深耕于跨境电商物流领域,是中国领先的跨境电商物流服务商。从成立至今,顺友……淘宝支持账号名修改后300万人连夜改名!有你吗最近,关于淘宝账号名修改的消息引起网络热议,一些网友表示:终于能改掉自己的黑历史了”。据悉,该功能目前处于灰测阶段,4月下旬将向用户全面开放,一年可修改一次。从淘宝……消息称京东方今年OLED出货量大涨70两大工厂为苹果iPho经过20多年的追赶,国内公司在LCD领域已经做到了世界第一,京东方则是全球最大的LCD面板厂,目前落后韩国三星公司的主要是OLED面板,但也在迅速追赶中,日经新闻报道称今年出货……淘宝:已有超300万名用户成功修改账号名站长之家(ChinaZ。com)4月8日消息:近日,淘宝宣布账号名可以修改,入口在我的淘宝设置账号与安全淘宝账号。淘宝表示,如用户现在还改不了,请再等等……外媒称京东方计划建设8。6代ITOLED面板生产线为苹果供货4月8日消息,据国外媒体报道,已进入iPhoneOLED面板供应商行列的京东方,也在准备为其他的苹果硬件产品供应OLED面板,有报道称他们已计划为此建设新的生产线。京东方……有赞助力澳洲网红泡芙品牌一体化经营:搭建会员体系与在线商城来自澳大利亚的网红甜品品牌DouxAmour入驻中国后,先后在上海、杭州开设了2家门店,并迅速俘获了消费者的欢心。线下门店销售火爆的同时,DouxAmour希望能够满足线上客户……市值蒸发100亿美元,商家纷纷出走,“美版拼多多”为什么被““我还是要感谢Wish,房子票子车子都有了。但是现在,我决定要离开它。”23岁的义乌跨境卖家小李,2019年在跨境电商平台Wish上创业起家,两年时间做到年流水百万元。他……京东超8万件母婴物资送达徐雷:开足马力支援上海京东物流凤凰网科技讯4月8日消息,京东通过紧急全国调拨,首批超8万件包括婴幼儿奶粉在内的母婴物资,已由京东物流以专人专车形式运抵上海,京东CEO徐雷并在朋友圈发文称,我们……京东新CEO徐雷:已整装待发将开足马力支援上海据新浪科技报道,京东CEO徐雷4月8日晚上21:50在朋友圈表示,将开足马力尽最大努力支援上海。徐雷称:之前很多上海的朋友向我反馈,希望京东能够支援上海的抗疫,缓解大家的……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界