童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

对于敏感词过滤,我们只能选择让用户“痛不欲生”吗?

7月27日 眸中星投稿
  敏感词过滤是随着互联网社区发展一起发展起来的一种阻止网络犯罪和网络暴力的技术手段,通过对可能存在犯罪或网络暴力可能的关键词进行有针对性的筛查和屏蔽,很多时候我们能够防患于未然,把后果严重的犯罪行为扼杀于萌芽之中。
  随着互联网社区和UGC应用的不断发展变化,敏感词过滤系统也经历了不断的发展演进,有如下多种过滤方式:
  一、敏感词替换
  敏感词替换是较早出现的一种敏感词过滤方式,即系统不会在用户端进行敏感词过滤和校验,而是把这个工作放在数据入库之前完成,在数据写入数据库之前,系统根据已经制定的规则把所有敏感词替换为设定好的符号或文字,这个过程是不可逆的。
  敏感词替换
  这种技术手段对于阻止网络暴力成效显著,用户在阅读其他人的发布信息时,不会再看到那些刺眼的侮辱性的字眼,但又不会太过于破坏发布者的本意。同时也不会对用户阅读造成很大干扰和障碍,尤其是在聊天室或群组等场景中表现优异。
  但这种过滤方式仍然可能会对普通用户造成“隐性骚扰”,因为我们基本可以凭借上下文来基本猜出那些被替换成“”的本来面目。
  二、敏感词屏蔽
  敏感词屏蔽就是发布的信息里的敏感词被直接去除,再写入数据库,这种方式能最大程度上避免对普通用户的“隐性骚扰”,但随之而来的代价就是可能会造成发布信息的可读性下降,甚至影响到阅读体验。
  三、用户端阻止发布
  用户端阻止发布是指系统在用户发布信息时,对信息进行本地或服务器端敏感词校验,一旦发现用户发布的信息有词汇符合敏感词过滤条件,即阻止用户的发布操作并返回提示信息,提示用户有敏感词不符合发布要求,并要求用户修改自己发布的信息。
  这种过滤方式能够最大程度上降低系统自身的安全风险并显著降低人工审核的成本,在用户输入昵称,输入简单介绍时效果最佳。
  短文字用户端屏蔽敏感词效果好
  四、系统人工审核
  在UGC内容不是特别多或搭配AI识别敏感词的情况下,系统可以允许用户首先发布自己的信息,再使用AI辅助方式找出存在敏感词风险的发布信息,由人工进行审核。符合条件或者被“误伤”者放行,属于恶意发布信息的则人工删除并通知发布者。
  这是一种对用户体验伤害最小的,最人性化的敏感词过滤方式,但随之而来的可能也是冷人咋舌的人工成本。
  五、“小黑屋”
  系统允许用户发布信息,但用户发布后使用AI辅助方式找出存在敏感词风险的发布信息并批量导入“小黑屋”,然后通知发布者进行修改,一直到系统不再提示有敏感词风险为止。
  这种方式能够保证用户端发布时的体验的流畅性,但因为没有人工审核参与,敏感词风险通知的发送是异步的。用户可能在发布后离开应用,过很长时间返回后,发现发布的信息被关入“小黑屋”,还要自己主动排查猜测屏蔽原因,这种挫折感和用户体验问题也是非常严重的。
  六、仅发布者可见
  有些UCG社区采用了这种敏感词风险控制机制,命中了敏感词的文章或信息,系统暗暗地把信息设置为仅发布者自己可见,而发布者可能还为自己的信息没有浏览和点击而疑惑不解,这真是让发布者“死得不明不白”。这种过滤机制真是非常奇葩,但它却真实地存在很多应用中。
  综上,敏感词过滤是一种阻止网络暴力和网络犯罪的非常有效的手段,但有时候它也会因为其关键词而误伤用户,造成一些让人啼笑皆非的问题,比如下面这个流传甚广的段子:
  半夜IDC急电,“你的网站有涉嫌的关键词,请立即删除!”站长立即从被窝里爬起,冒着零下10度的严寒上网,找那个违法关键词。最后找到的是这样一条信息:转让一台独立服务器。
  在用户发布比较大段的文字或文章时,特别是一些UCG社区。例如美食评论、酒店居住体验、活动体验、游记等等,庞大的敏感词库过于苛刻的匹配规则用户端阻止发布就可能会误伤到普通用户,对普通用户的使用体验造成严重伤害。
  而且随着各应用的系统不断改进升级和扩充自己的敏感词库,恶意发布者的规避敏感词过滤的手段也在不断升级进步,特别是在缺少人工审核的情况下,发布者很容易就可以通过某些技术手段,如加密、替换字符、谐音字、同义字来规避这种过滤。
  这是一场没有硝烟的战争,这是一种无声的军备竞赛,系统和恶意发布者之间相互博弈,最后造成的结果就是关键词库越来越庞大,庞大到已经干扰到了普通用户正常发布UGC内容的程度了。
  我有个朋友就是这种军备竞赛的牺牲者,她在忍无可忍的情况下在朋友圈发布了这样的动态:
  “敏感词”让用户猜不透
  她在口碑上想要发布自己的美食分享,但系统总是提示有敏感词,但敏感词是什么?系统却又不告诉她,最后她凭着自己的不懈努力,终于发现是这个美食店的一款【法式禽兽汉堡】里的“禽兽”二字命中了敏感词库,所以被阻止发布。
  而我自己也曾经多次在不同的UCG社区碰到过类似问题,特别是在移动端,这种敏感词过滤机制简直是“反人类”的“劣币驱逐良币”过滤机制。
  因为优质用户才会输入较长的文字信息,又因为文字信息很长,导致命中敏感词的风险急剧上升,而又因为文字信息很长,导致排查敏感字非常困难。
  查理芒格曾说“如果你告诉我将会死在哪个地方,我以后就绝对不会去那儿”,但这些系统却绝口不提我们会死在哪儿,让我们没有目标地瞎转乱撞。很多时候,精疲力尽的用户会选择放弃发布信息,甚至进而影响它对整个应用的使用体验,从而放弃整个应用。
  我曾经在一个书评应用上发布一篇读后感时,被系统冰冷地提示“不符合发布要求”。为了找出那个该死的敏感词,把所有的文字全选拷贝放到编辑软件里,然后一段一段拷贝到书评应用中。等我尝试到第3段时,系统冷冷地提示我:“您已保存提交太多次,请休息一会儿”,那一刻,我确定我是崩溃的。
  所以,系统在设计敏感词过滤体系的时候,肯定是要综合考虑公司将会付出的成本和用户体验。但如果单纯为了成本和审核等级考虑,而把所有的风险和责任都推到用户这一边,我不认为这是一种明智的做法。
  
投诉 评论

互联网下半场,谁能笑到最后?产业互联网的底层,是“超级大玩家”的斗兽场,它们已经用流量和技术等硬实力筑起了壁垒,未来会形成多寡头割据,其他“小玩家”将再无机会。从2000年初的“。COM泡沫”被刺破……深度分析拼多多的首场618战事:“猫拼狗“的快打旋风年年618,大众的热情不再那么高涨,时刻准备舆论战斗的媒体们也在例行公事中有些懈怠。但是,今年这场618有了新的“花样”。那个已经确定搅局成功的拼多多入场“搞事情”了。它在自己……对于敏感词过滤,我们只能选择让用户“痛不欲生”吗?敏感词过滤是随着互联网社区发展一起发展起来的一种阻止网络犯罪和网络暴力的技术手段,通过对可能存在犯罪或网络暴力可能的关键词进行有针对性的筛查和屏蔽,很多时候我们能够防患于未然,……“猫拼狗”大战一触即发,谁能跳出“套路局”?从曾经的“猫狗大战”,再到“猫拼狗”,618大促已经走到第九个年头了,电商促销也不再是什么新鲜事了,种种“套路”玩法还能让消费者买单吗?618大促已经进入第九个年头,在拼……从两个方向,为大健康生态供给侧扩容是否能为大健康生态供给侧进行指数级的扩容,是建设大健康生态成功最为关键的举措!医疗健康产业区别于零售、社交、娱乐和工具产品所在的行业的原因是服务的对象是患者的身体,国人根……二手电商的AT之战:ToBorNOTToB?现在的二手电商市场中,可以大致看成阿里巴巴与腾讯的巨头之争,阿里凭借电商优势将二手电商侧重于C2C模式,而腾讯更侧重照顾流量端,发展C2B2C模式。自百度砍掉大多数非核心……毫不利己,专门利人:如何再造一个维基百科?维基百科是一本“自由的百科全书”,由全球各地无私的编辑者,在一个基本严谨的组织架构下,付出义务劳动贡献而成,在谷歌产品中,起到了百度百科在百度搜索产品中一样的作用在我们熟……图文时代来临,漫画会颠覆在线阅读市场吗?图片在过去更多作为文字类尤其是长文的一种补充,而如今越来越多的内容展现形式选了“以图为主,以文为辅”的方式,这背后到底发生了什么?而这图文时代来临,漫画会颠覆在线阅读市场吗?……制造业、电商物流、快递企业等,物流整合的关键方向在哪里物流整合存在三个关键方向:垂直供应链整合、水平供应链整合、物流产品整合。不同背景的物流企业所采用的的物流整合方式不同,与之相对应的优缺点也各有差异。整合是一个汉语词汇,意……智慧城市的前世今生计算机和互联网技术的出现,改变了我们的生活,给我们带来了智慧城市,但可以很明显地看出行业还没有成熟,还在摸索阶段,有不少问题需要克服。在中国,重庆机场的人脸识别系统成功匹……面向农民的农业商业模式承接之前提到的大范围商业模式,接下来笔者会对每个农业主体进行小范围商业模式的阐述,本文主要写了以农民主体的农业商业模式。一、中国农民的艰辛在中国,农民有7亿,虽说真……UGC社区的秘密,都在这了社区真是个好产品,但社区也是个复杂的产品。几乎所有的工具类产品都想做社区,因为社区既能提升LT(因为留存提升了),也能提升V(社区构建的关系,提升了变现的可能性和深度),……
从23。25万到11。4亿,董明珠仅隔一年就打了个漂亮的“翻“铁娘子”直播带货再现“不服输”精神。2020年4月24日,珠海格力电器股份有限公司(以下简称“格力”)董事长董明珠在抖音开启直播带货首秀,因技术问题以23。25万元的销……私域增长的“秘密武器”,集中在视频号和企业微信上一直以来,私域流量都被视为企业和品牌的重要资产。如果能够利用好,将会引发巨大的红利效应。在视频号上,如何唤起私域流量,打通公域和私域也是一个热门的话题。4月10日,在锌榜……京东携手云南省工信厅推动云南高原绿色食品出滇中国拥有着极其丰富的物产和特色地域环境,也孕育了各式各样富饶的食物特产。云南地处中国西南边陲,气候宜人,其得天独厚的自然条件,造就了其区域产品绿色、生态、健康的标签。近年来,随……两场直播收入11w,我们总结了7个策划关键最近我做了两场视频号带货直播:3月29日,主题是《视频号直播实战教学》4月14日,主题是《打造个人品牌收入放大10倍》两场直播总观看人数超1。2万人,热度超1……单作销量2000万、Steam畅销榜8连冠,这个品类为什么年10年21个爆款背后的规律。Steam上总有一些每年都出,每年都火的游戏,比如沙盒生存,或许提到这几个字,各位可能会认为这是5年前才流行的品类。但事实上,今年2月发……我在抖音快手追中老年短剧:越尴尬,越想看1分钟8次转折、10次高潮的中老年短剧,都是谁在看?去年以来,短视频平台开始重点发力原创微短剧,继霸总、赘婿、穿越等一系列大火主题之后,一批以家庭伦理、兄弟战友、精致变老……开发者分成最高达200,快手联盟凭什么?“当我跨越沉沦,向着永恒(短视频和直播赛道)开战的时候,快手就是一面军旗!”在4月20日的快手联盟大会会后,我问快手联盟负责人王帅民的感受,他如是回复。而这句话的原型来自……抖音422政策引恐慌?公会:签线下全约就不怕主播走抖音直播政策调整一年后,大量公会主播面临着到期续约的问题。一年前的4月22日,抖音直播发布了“主播与公会合作期限”的公告:到期后的主播可以自行选择续约还是退会,未到期的主……影视剪辑作品再遭围剿!70家影视公司联合倡议:立即清理未授权站长之家(ChinaZ。com)4月24日消息:短视频平台上的影视剪辑号、影视营销号日子可能会很不好过了!继4月9日各大协会、视频平台和影视公司等70多家发布的联合声明,……YouTube应用更新:引入更多节省流量的低视频分辨率选项MacRumors报道称,YouTube刚刚推出了更新后的iOS和Android客户端,主要引入了更多的视频分辨率选项。对于习惯在旅途中观看视频的用户来说,可以在三种不同的模式……华为nova8Pro4G现身官网:麒麟985加持去年12月,华为召开新品发布会,正式带来了华为nova8系列,包括nova8和nova8Pro两款,售价分别为3299元、3999元起。今日,从华为官网了解到,华为nov……罗永浩带货RedmiK40:1999元起售上架后秒光4月24日消息,今晚锤子科技CEO罗永浩直播间是小米有品的直播专场,直播间有很多低价好物,包括RedmiK40系列,起售价1999元,顶配版价格是2499元。这款手机在上……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界