童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

马蜂窝事件背后暴露出的数据风险

2月22日 寒霜坞投稿
  马蜂窝利用网络爬虫抓取抄袭其他平台真实评论的事件日益发酵。什么是网络爬虫?马蜂窝这个事件背后暴露了什么数据风险问题?数据风险问题该如何解决?
  近日,针对马蜂窝“数据造假”的文章刷屏网络。文章指出,马蜂窝2100万条真实点评中,有1800万条是通过机器人从点评、携程等其他平台抄袭而来。
  作者表示:在马蜂窝上发现了7454个抄袭账号,平均每个账号从携程、艺龙、美团、Agoda、Yelp上抄袭搬运了数千条点评,合计抄袭572万条餐饮点评,1221万条酒店点评。
  其实,不仅旅游网站遭到网络爬虫的恶意抓取,航空、视频等也是被恶意爬取的重灾区。
  今年2月,视频弹幕网站哔哩哔哩(bilibili)大量用户的视频、昵称、头像及用户评论,出现在某新成立的视频网站上,就是非法网络爬虫的盗取;而航空公司的官网上的机票、订座等信息,长期被代理公司将机票信息爬取、占座,然后在其他网站上加价销售。
  数据造假背后的“恶人”
  网络爬虫:又被称为网页蜘蛛、网络机器人,是按照一定的规则,自动地抓取网络信息的程序或者脚本。
  网络爬虫分为两类:一类是搜索引擎爬虫,一类是其他爬虫。
  前者是为搜索引擎从广域网下载网页,便于搜索检索,后者则是在指定目标下载信息,用于存储或其他用途。
  网络爬虫不仅能够抓取网页商品、服务、文字、图片等关键的静态网页信息,还能够爬取用户评价、价格和账户等动态信息等。在知识产权日益受到重视的今天,数据是互联网平台的重要资产。
  网络爬虫的非法操作不仅窃取了平台的数据资产,更消耗了平台的服务和带宽资源。
  被网络爬虫窃取的信息不仅可以用于同类型平台制作,还可能被转售或者可能用于钓鱼网站制作等其他违法行为。这不但会给平台带来重大损失,更可能导致平台上的用户敏感信息泄露,进而使用户遭遇各类网络和电信诈骗。
  如何识别搜索引擎爬虫和恶意爬虫?
  针对网络爬虫的识别一般是通过用户HTTP请求中的UA(UserAgent)、IP地址字段以及以及浏览器Cookie。
  首先,很多的恶意爬虫程序头或者UA中默认含有类似pythonrequests2。18。4等固定字符串,很容易被系统辨别出来;其次,爬虫经常使用某些固定IP,当某一个IP访问量特别特别大、某一段时间内访问了多次的网页等,也可以被快速识别。
  常规防御是拒绝访问,或直接封杀IP。但是,UA可以伪造装成搜索爬虫或者其他浏览器,而IP地址可以通过频繁变更代理IP绕过。
  此外,通过模拟登录或者手动登录Cookie也能绕过系统监测。所以,这三类方式均不完善。
  验证码是比较有效的一种方式,当某一用户访问次数过多后,就自动让请求跳转到一个验证码页面,只有在输入正确的验证码之后才能继续访问网站。而验证码不仅可以检测访问者行为,还集合设备指纹和风控等多种因素综合判断。
  顶象数据反爬解决方案就是基于验证码和风控。该方案在登录端部署顶象的智能无感验证,直接拦截爬虫对重点数据的爬取。同时,结合顶象设备指纹和实时风险决策系统,实现对于爬虫的总体拦截。再基于对抗过程中的数据积累,利用智能分析平台对数据进行分析,建立基于符合业务场景和需求的风控策略,实时优化风控效果,良好防范数据遭恶意爬取的风险。
  验证码后面的技术
  在用户访问方面,无感验证通过人机交互行为进行防护。如鼠标在页面内的滑动轨迹、键盘的敲击速率、滑动验证码的滑动轨迹、速率、按钮点击等行为轨迹模型检测来进行防护。
  基于顶象机器学习模型平台创建优化相关模型,用于验证码机器模拟轨迹防护。这里面包含轨迹耗时检测、异常轨迹检测(包括直线、匀速、聚合曲线等常规信号发生器生成的轨迹和通过异常检测算法发现的离群行为)。
  在异常检测方面,顶象技术使用的其中一种异常检测算法为孤立森林(IsolationForest),IsolationForest中提出Isolation概念,即将异常数据从既有数据分布中孤立,用以实现异常检测的目的,这种算法较基于正常数据点创建profile进行异常检测的算法,如ReplicatorNeuralNetwork、oneclassSVM有更高的异常识别能力和准确度。
  除此外,二分类器还可以根据既有的验证码数据进行训练,对采集到的人机交互行为数据进行预测区分,进一步提升识别恶意行为的精确度。
  此为了防止网络爬虫对验证码的防暴力破解,无感验证通过图片乱序切条、图片更新定时加工、图片变异等技术,结合关联性检测进行防护,通过内置规则和策略,判断相关关联性,如同一设备关联性、同一IP关联性、滑动失败关联性、验证次数关联性等,有效识别短时间内异常关联性。
  验证码背后的机器学习
  顶象技术将深度学习技术应用于验证码的轨迹分析,通过LSTM等深度学习技术,对滑动验证码的滑动轨迹进行特征提取,然后基于LargeVis,对提取的特征进行可视化分析,如下图所示,通过历史数据的可视化对比分析,可以发现一些异常的轨迹数据。
  LSTM是一种递归神经网络,适合于处理和预测时序及行为数据。基于LSTM的系统可以学习翻译语言、控制机器人、图像分析、文档摘要、语音识别、图像识别等任务,由于验证码的轨迹是连续的行为数据,因此非常适合使用LSTM来进行特征提取。
  除此之外,顶象将深度学习技术应用于点选验证码中,对点选验证码进行“风格迁移”,可大大增加验证码被破解的难度。
  风格迁移是深度学习领域很有创意的研究成果,通过神经网络,将一张图片的艺术风格应用在另外一张图片上,例如上图中是将梵高的名作“星空”的艺术风格应用于点选验证码图片上。
  通过风格迁移,可以将点选图片中的内容进行变换,例如文字变得扭曲及模糊,使得机器破解的难度增加。但是又不会完全改变图片的内容,使用户又可以很容易的识别图片中的文字。
投诉 评论

假账号、薅羊毛、刷单。。细数互联网上那些“捞偏门”的手段捞偏门是一种通过不法手段、打法律擦边球来谋求利益的手段。当前的移动互联网发展迅速,有很多不法分子通过“捞偏门”的手段来谋取暴利,对此,企业和个人一定要对此做好防范措施。郭……商业模式变迁的底层逻辑:从付费到免费再到补贴本文从多角度分析了商业模式从付费到免费再到补贴的底层逻辑,每一次商业模式变迁的背后都有着深刻的技术、价值转移的背景,只有我们从更本质的层面理解这些进化和变迁,才能在不断变化的互……进击的平台:为什么传统大企业会被颠覆?平台的应用将不断引发产业变革,在全新的领域创造新价值。作者:洪杉来源:公众号“红杉汇”(ID:Sequoiacap)过去,人们以为平台微不足道,甚至认为它只是……产品经理周报第41期《王者荣耀》启动强制公安实名校验;微信开早吖各位小伙伴们周五的早晨一周的最后一天来了解一下本周发生的事情啦以下为本周的精选内容,欢迎各位尽情品味Step1:好看……打破娱乐流量到消费流量的壁垒,旅游行业的短视频突围之道旅游抖音会是什么效果?旅游行业如何借助短视频突围?本文将就此进行讨论,enjoy在刚刚过去的十一黄金周,笔者在旅途中发现了一个有趣的现象,当到了一个景点之后,越来越多的游……欧盟如何为繁荣数字经济打造统一的数据法律规则?为单一数字市场建立统一的数据法律规则,是欧盟单一数字市场战略的重头戏。那么,欧盟如何为繁荣数字经济打造统一的数据法律规则?一、数据自由即将成为欧盟的第五大自由10月……YOHO的诚意之作城市潮流生活指南marsmars的slogan是新鲜好去处:通过对品质门店、潮流活动的推荐、游玩路线的规划以及连接用户交流经验心得;帮助用户探索“城市”这座森林。一、mars是什么?提起“……腾讯为什么不投资技术回顾腾讯的发展史,可以看出:腾讯成功的关键更多的是在于产品,而不是技术。这么多年,腾讯一直都秉持技术服务于产品的念,不脱离产品空谈技术。腾讯股价在国庆期间……2018中国运营增长大会北京站参会指南,请查收!10月2728日,人人都是产品经理、起点学院携手腾讯大讲堂重磅打造的2018中国运营增长大会即将在首都北京开幕!距离2018中国运营增长大会北京站开幕还剩2天,一场大型网……马蜂窝事件背后暴露出的数据风险马蜂窝利用网络爬虫抓取抄袭其他平台真实评论的事件日益发酵。什么是网络爬虫?马蜂窝这个事件背后暴露了什么数据风险问题?数据风险问题该如何解决?近日,针对马蜂窝“数据造假”的……信息时代的科学与艺术在信息时代,“科学”与“艺术”是不可分割的。他们既互相独立,又内在关联。一、诞生之始2018年10月19日,小雨。一早起床,得知今天有一个大师级教授来学校做讲座,仔……信贷反欺诈的常用手段:名单库、专家策略、机器学习欺诈从本质上来看是操作风险的一种,而信贷反欺诈的常用手段有名单库、专家策略、机器学习三种。信贷反欺诈的手段虽多,但是都必须建立在深入理解平台业务的基础之上。低廉的造假成本……
3个月涨粉400万开播带货百万美妆赛道再现黑马内卷成为2021年度的关键词,作为覆盖用户广、备受品牌方青睐,变现空间巨大的美妆赛道,聚集了数万个美妆达人。在行业达人竞争激烈的情况下,有一位技术流美妆博主快速涨粉,为美……2022,视频号的十大机会在2021年的微信公开课上,张小龙一个半小时的演讲中,用了三分之二的时间来讲视频号的内容。而今年,虽然张小龙首次缺席公开课,也没录视频,但视频号依然是“C位”,开场第一个……薇娅雪梨被查后的主播补税潮:神秘名单和50万门槛雪梨终于答应了洪磊的补播需求,这让他紧绷的神经有了些许放松。终于有机会挽救一下双十一的销量了,洪磊心想。他们在11月10日当晚上了雪梨的直播,即便心理预期已经很低,但成交……新人登顶、爆款跃升,12月小红书榜单数据分析透露出哪些变化?小红书作为年轻人喜爱的生活分享和消费决策平台,其社区种草属性较强,小红书达人也在内容创作分享中收获巨大关注度。为了帮助大家更好地洞察小红书平台变化和红人的营销价值,克劳锐……一年试水28个新功能,四处出击的抖音想做一个宇宙App?抖音再次加码种草。1月初,据Tech星球报道,抖音正在测试“种草”一级入口,该入口位于首页默认的原“同城”位置。目前二级的“种草”与同城、学习等入口并列。去年11月,抖音……揭秘三农自媒体赚钱的秘密各位村民好,我是村长。欢子TV、小六视野、麦小登、巧妇九妹、渔乡朱朱、渔人阿烽、型男行走在乡村,康仔农人、以上这些名字都是今日头条上最知名的一些三农短视频创作者。他……单篇笔记涨粉3000,穿搭博主的爆款选题法穿搭是小红书的top类目,因为每个女孩子都有属于自己的穿搭心得,所以几乎每个博主在早期也都考虑过做穿搭博主,因此穿搭博主的竞争也是非常非常激烈的。关于竞争激烈这点,我想很……共享单车得了牛皮癣电线杆子不香了。共享单车,正在成为新时代的电线杆子。共享单车,正在被牛皮癣广告占领。经过研究发现这些广告可以大致归为“违法违规”“奇葩功能”“实用宣传”三个类……丁磊致歉“鱼眼观察”作者并回应统一充电口提案争议:已撤回删稿【TechWeb】1月15日消息,据“鱼眼观察”作者发布的消息,“已收到网易公关负责人转来的一份丁磊的’致歉信’,’致歉信’中,丁磊两度向我致歉,并宣布撤回之前的法律函。”……对白嫖彻底失望,著名开源软件作者不愿再自费自Faker。js作者清空项目仓库代码后,又一位软件作者因企业白嫖项目而没有任何回馈而感到失望。1月11日,ApachePLC4X的创建者ChristoferDutz在GitH……小区超市大爷教我通过微信私域运营月入十万今年第一篇分享一个微信私域运营的case:我家小区超市的大爷教我通过微信私域运营,月入十万(甚至还不止)。貌似有点标题党,但事实上的确如此。00。背景……微信的平衡感:原子化、连接、少即是多“没有张小龙”成了2022微信公开课PRO最大的新闻点,但公开课看点依然很多,且脉络清晰。1月6日上午的主论坛上,微信方面介绍了视频号、微信支付、小程序、搜一搜、企业微信……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界