专栏电商日志财经减肥爱情
投稿投诉
爱情常识
搭配分娩
减肥两性
孕期塑形
财经教案
论文美文
日志体育
养生学堂
电商科学
头戴业界
专栏星座
用品音乐

干货!VigDet一种结合领域知识和数据驱动的虚假账号检测

  张一舟:
  南加州大学维特比工程学院计算机系博士生,导师为YanLiu教授。他的研究兴趣包括图数据与时序数据上的机器学习及其应用,如社交网络分析,曾在NeurIPS,KDD,TheWebConf,IJCAI,ICDM等学术会议和期刊上发表论文。他于2019年获得北京大学计算机科学与技术学士学位。
  虚假协作账号检测
  近年来,在一些大型社交媒体平台,如推特上,出现了很多虚假账号,比如机器人。他们通过协作的的方式,如互相点赞、评论和转发,来干预信息的传播,进而影响公众观点。图1展示了两个被推特官方怀疑存在违规行为的账号的部分活动。这些虚假账号的活跃促使研究者探寻如何自动化地检测他们。传统的方法主要来自计算社会学和人机交互领域。该领域的研究者们通常会利用一些先验知识来构建一个衡量账号之间行为一致性的图(graph,不是图片),然后在这个图上进行聚类或者检测。这种方法过于依赖先验知识的质量,并且表达能力也不强,很多复杂的交互行为被简单的压缩成了一个标量边权。因此,这类方法的准确率普遍较低,尤其是在无监督场景下。为了解决这个问题,近年来的研究开始使用数据驱动的的机器学习方法来为账号学习表示向量,然后在表示向量空间进行检测。比如AMDNHAGE,通过最大化社交媒体上观测到的时序数据的似然值(类似自然语言处理中的词向量学习,用过去的事件的表示向量来预测未来事件)来学习账号的表示向量。但是这类方法又很依赖数据的质量和规模。对于一些活动频率低、相对沉默的账号,这类方法往往学不到很好的表示。为了解决这一问题,我们提出了VigDet。这一模型利用领域知识来帮助神经时序点过程(一种数据驱动模型)学到更好的表示。
  图1:协作行为的样例。这两个账号被推特官方怀疑存在违规行
  时序点过程与其神经网络建模
  图2:社交媒体上时序点过程的样例
  时序点过程(如泊松过程)是一种常见的随机过程。它描述了连续时间轴上发生的一系列离散事件。社交媒体上的事件(如发布信息、点赞、转发和评论)是一种非常典型的时序点过程。图2展示了如何将一条信息的传播建模为时序点过程。一条信息(比如一条推特)发布的时刻即为时间轴上的0点,之后每个与该条信息的交互(如点赞评论转发)即为一个事件。每个事件包含两个信息:用户id和时间戳(此处为了适应不同平台的设计,我们略去了具体的事件类型)。每个事件发生的概率被建模为给定之前发生的所有事件的条件概率。我们使用神经网络来建模这一分布:
  其中S〔1:i1〕表示第i个事件前的所有事件,我们可以用RNN或者Transformer来讲他们编码为一个向量Ci,然后分别用两个解码器fm和ft来预测未来交互的用户和时间。然后我们通过最大化已观测到事件的似然值即可学习模型参数。具体流程如图3所示。
  图3:使用神经网络建模时序点过程
  VigDet:结合领域知识与神经点过程
  为了将领域知识表达为可供机器学习模型学习的形式,我们先像传统方法一样,利用先验知识构建一张衡量账号之间行为一致性的图。本文中,我们使用共同活动(coactivity)这一先验知识,即经常和同一条信息交互的用户行为更一致。在以此先验知识构建的图中,两个用户间的边权为他们共同出现过的时间序列的总量。然而,传统方法构建的图往往含有噪音,这是因为受虚假账号影响的真实账号也可能会和虚假账号共同出现。因此我们需要对图进行降噪。此处我们提出了两种方法:幂函数降噪与时序逻辑降噪。
  幂函数降噪(PowerFunction,PF):尽管真实账号可能和虚假账号共同出现,但是统计意义上虚假账号共同出现的概率更大,因此我们可以使用幂函数来放大这种差异,然后对边权进行归一化。
  时序逻辑降噪(TemporalLogic,TL):我们可以将更多的先验知识表示为时序逻辑,然后利用这些时序逻辑去除掉一些没有意义的共同出现,比如过于热点的序列(所有人都回应过)
  利用以上两种策略,我们可以获得一个降噪后的先验知识图。接下来,我们需要考虑如何结合图和时序数据来进行协同检测
  结合领域知识与表示学习进行检测
  为了将图和基于时序数据的用户表示学习结合到一起,我们提出利用用户的表示向量与先验知识图共同构建一个条件随机场(ConditionalRandomField,CRF)。条件随机场是一种概率图模型。概率图中的每个节点是一个待检测的用户。我们把整个图中所有节点的检测结果合集记为Y,则每个可能的Y的概率为:
  其中是能量函数,包含两项,第一项是基于单个节点的embedding计算出的标签的倾向性,第二项是基于每条边上的用户标签的一致性计算出的倾向性。直观来看,第一项包含了来自用户表示向量的信息,而第二项包含了领域知识图的约束(行为一致性更高的用户更有可能具有相同的标签)。Z是对所有可能的Y的能量函数求和以保证P是一个概率分布。然而,Z本身是对指数多的Y进行求和,因此时间复杂度极高。为了解决这个问题,我们提出通过图4所示的EM算法来同时学习P和P的平均场近似Q。在这个算法中,Estep和Mstep交替进行。Estep中我们固定P和能量函数,只计算P的最优平均场近似Q(最小化P和Q的KL散度)。在Mstep中,我们固定Q不动,转而通过优化数据似然值的证据下界(EvidenceLowerBound)来学习模型参数。
  图4:用于联合学习能量函数和平均场近似的EM算法
  实验结果
  我们首先在一个带有真实标签的数据集上比较了我们的模型和已有模型的准确性。除已有模型,我们还加入了我们的模型的两个变体。一个只包含了我们算法中的Estep,另一个则是实用伪似然来进行学习。比较结果如表1表2所示。可以看到我们的模型表现显著超越了已有模型和自身变体。
  我们进一步在一个新冠新闻相关的推特数据集上做了检测。由于这个数据集很新,所以没有真实标签。因此无法进行计算准确率和进行对比。但是我们仍对检测结果进行了一定的分析。图5展示了我们检测出的疑似虚假账号的主要回应话题和其余账号的主要回应话题。可以看出二者之间的显著差异。
  表1:无监督学习的结果
  表2:半监督学习(提供5的用户标签)的结果
  图5:疑似虚假账号群体的主要交互话题(左)和其余用户的主要交互话题(右)

离婚后共有房屋的相关权益,应如何确定?中国山东网感知山东12月13日讯(记者张敏敏)城镇化进程的不断加快,使得城乡结合部大量住宅房屋进行了拆迁安置。如果拆迁安置之后,又出现夫妻双方劳燕分飞的情况,拆迁安置房屋是否属于共梅州市的区划变动,广东省的重要城市,为何有8个区县?在之前的文章中,作者和大家聊了一系列关于我国广东省各个城市区划变迁和经济发展的故事,例如湛江市佛山市东莞市等等。今天,我们聊聊广东省的梅州市。梅州市属于广东省东部的重要城市,地理位广东有望合并的两座城市,如果成功,全省或将起飞,江苏我怕了两座城市合并发展已经不是一个新奇的事,早在2011年合肥就分解了地级市巢湖,合并了县级巢湖市和庐江县。2016年,成都因为修建天府国际机场,将简阳市合并,迎来发展利好。当然还有很多中电科太极西安产业园打造成为集研发交付等于一体的西部基地西安高新区丝路软件城重点项目巡展之中电科太极西安产业园项目位于天谷八路与云水一路西北角,总建筑面积15。21万平米,其中地下三层约59930平米地上23层约92170平米,拟建生产寿险转型深水区,太平人寿探索代理人增优育优新模式保观聚焦保险创新这几年,国内寿险市场进入转型深水区,疫情大环境人口红利的终结消费者保险认知习惯和保险需求的变化数字化转型等因素,对代理人和寿险公司的发展都起到了大浪淘沙的作用。挑战宝洁联合利华欧莱雅等23家消费品2022年第三季度业绩出炉!编者零售哥头图来源网络本文来源全球企业动态(IDbigcompany007)导读宝洁联合利华欧莱雅金佰利高露洁花王等23家消费品企业2022年第三季度财报汇总美国1宝洁宝洁(Pro风吹半夏也烂尾,许半夏破产,遣散员工,变卖资产补偿村民风吹半夏这么快就要迎来大结局了,但是最近几集的走向令观众直呼看不下去了。从许半夏去东北买机器,把工人带回来,伍建设收购省二钢又恶意排污,整个剧情显得索然无味。没有了前面的激情,显得手游推荐不一样的修仙宗门多版本修仙传世佳作攻略更详尽游戏名称不一样的修仙宗门双版本游戏语言中文游戏版本1。0。6特别说明免广告。2。秘境每月刷新。3。降低痴情涯弟子情侣亲密度总数。4。部分功法,法宝加9千万属性国医大师留下的3个土方法疏肝降酶,巧治乙肝肝病是各类肝脏疾病的一个统称,这其中包括各类肝炎甲肝乙肝丙肝酒精肝以及肝硬化,据最新统计,目前我国已知的肝病患者高达4。3亿人,也就是说平均每10个人里面,就有3个患有不同程度的肝丁俊晖旗开得胜,41轻取徐思,顺利晋级英格兰赛正赛2022年斯诺克英格兰公开赛正赛于北京时间12月13日进入到第二个比赛日的较量。在刚刚结束的一场备受中国球迷关注的中国德比战中,我国名将丁俊晖发挥正常,首战告捷,在先失一局的情况下白酒开瓶后还能放多久?老酒鬼忠告不弄懂这3点,酒会越存越少白酒在我国的地位,不可谓不高,它不仅是逢年过节礼品的首选,更是请客宴席的宠儿。这不仅因为它逾千年的历史,更因为它独有的社交属性。我国向来讲求的是人情社会,少不了的就是人际往来,这让
到手价799元起,诺基亚C31开启预售后置三摄5050mAh电池上个月诺基亚手机官方宣布诺基亚C31手机,宣称入门级智能手机新选择,简单好用且稳健可靠。。今日上午,诺基亚C31正式开启预售。新机主打真三摄长续航大屏幕。诺基亚C31一共提供4GB荣耀80Pro配置曝光,使用骁龙8处理器,2亿像素主摄荣耀80Pro的配置曝光了,这次的配置不错?这个手机确定使用骁龙8处理器,不意外,这说明手机快发布了,在骁龙8第二代处理器发布前,这个手机就会出现。内存最高是12g。这个手机使用的十年果粉转入华为Mate50Pro,上手十天体验如何?华为太懂用户华为Mate50系列和iPhone14系列的接连发布,不仅引发了旗舰市场的抢购热潮,也让许多用户陷入了选择困难症,差不多的价格到底是选华为还是苹果呢?近期网上关于iPhone14系双十一不要为了贪便宜而换手机,选对了机型才不会被套路所坑您在阅读前请点击上面的关注二字,后续会第一时间为您提供更多有价值的相关内容,感谢您的支持。我们知道每年的双11都是购买手机的好时机,这个时候手机厂商都会进行促销,价格自然是非常的实12GB512GB,盘点目前高性价大内存手机,一共有4款手机内存到底多大才够用呢,我算是发现了,现在256GB已经无法满足大家对大内存的需求,有粉丝甚至直接希望我推荐512GB版本手机了l然后价格希望3000元以内,有一说一,512GB双十一将至,各大手机品牌机型大降价,超值优惠不容错过马上就到双十一了,各大手机品牌将会带来不错的促销活动,作为一年活动力度最大的时间段,想要购买手机的朋友千万不要错过。第一款一加AcePro处理器骁龙8Gen1屏幕6。7英寸2。5DiPhoneUltra曝光全新青橙配色后置四摄,迈向新征程苹果今年推出的iPhone14卖得并不是很好,因为他依旧采用了刘海屏幕的设计。但iPhone14Pro系列消除了刘海,并使用了胶囊屏幕的设计。并且灵动岛的创意弥补了胶囊挖孔屏的缺点大数据扫黄是如何发现你的?大数据是如何扫黄的?符合什么特征会被列入名单?你知道大数据扫黄吗?你是否曾在深夜在酒店宾馆给别人转账或收款呢?如果有的话,大数据的眼睛就很有可能盯上你了。什么是大数据?它是怎么盯上iPhone的配件,凭啥卖这么贵iPhone14的发布会过了有段时间了。冲了首发的机友应该陆续到货了。今年苹果依旧是将环保进行到底,到手的只有手机和数据线。意味着你还是要自己准备,充电头之类的配件。而iPhone这些年,电商带来的和让我们失去的视频版本已经发布,文章有点长,以后不会再涉及此类问题了。感谢耐心看完。电商是资本手中最快的镰刀大家好,我是老徐。尽管我做电商,也靠电商赚到钱了,但是对电商没有丝毫的好感,做电商的时二十大代表风采丨李会东践行新时代工匠精神河南日报记者徐建勋本报通讯员郭富勤作为一名来自央企生产一线的党员,能当选党的二十大代表,我非常激动。感谢党和人民的认可,今后,我将继续秉承恒天重工艰苦奋斗敢为人先科技创新永争第一的
友情链接:快好找快生活快百科快传网中准网文好找聚热点快软网