范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

网络爬虫是什么(爬虫怎么学)

  网络爬虫是什么(爬虫怎么学)爬虫的起源
  爬虫的起源可以追溯到万维网(互联网)诞生之初,一开始互联网还没有搜索。在搜索引擎没有被开发之前,互联网只是文件传输协议(FTP)站点的集合,用户可以在这些站点中导航以找到特定的共享文件。
  为了查找和组合互联网上可用的分布式数据,人们创建了一个自动化程序,称为网络爬虫/机器人,可以抓取互联网上的所有网页,然后将所有页面上的内容复制到数据库中制作索引。
  爬虫的发展
  随着互联网的发展,网络上的资源变得日益丰富但却驳杂不堪,信息的获取成本变得更高了。
  相应地,也日渐发展出更加智能,且适用性更强的爬虫软件。
  它们类似于蜘蛛通过辐射出去的蛛网来获取信息,继而从中捕获到它想要的猎物,所以爬虫也被称为网页蜘蛛,当然相较蛛网而言,爬虫软件更具主动性。另外,爬虫还有一些不常用的名字,像蚂蚁/模拟程序/蠕虫。
  爬虫的工作流程大致如下:
  通常,爬取网页数据时,只需要2个步骤:
  打开网页→将具体的数据从网页中复制并导出到表格或资源库中。
  简单来说就是,抓取和复制。爬虫的君子协议
  搜索引擎的爬虫是善意的,可以检索你的一切信息,并提供给其他用户访问,为此它们还专门定义了robots.txt文件,作为君子协议。
  Robots协议(爬虫协议)的全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。该协议是国际互联网界通行的道德规范,虽然没有写入法律,但是每一个爬虫都应该遵守这项协议。
  以淘宝网的robots.txt为例,
  以 Allow 项的值开头的 URL 是允许 robot 访问的。例如,Allow:/article 允许百度爬虫引擎访问 /article.htm、/article/http://12345.com 等。
  以 Disallow 项为开头的链接是不允许百度爬虫引擎访问的。例如,Disallow:/product/ 不允许百度爬虫引擎访问 /product/http://12345.com 等。
  最后一行,Disallow:/ 禁止百度爬虫访问除了 Allow 规定页面外的其他所有页面。
  所以你是不能从百度上搜索到淘宝内部的产品信息的。
  君子协议虽好,然而事情很快就被一些人破坏了,于是就有了反爬虫。爬虫与反爬虫
  爬虫与反爬虫是"矛"与"盾"的攻守关系,有了爬虫自然也就有了反爬虫。
  一些企业为了保证服务器的正常运转,降低服务器的运转压力与成本,不得不使出各种各样的手段来阻止爬虫工程师毫无节制地向服务器索取资源,这种行为我们称之为反爬虫。
  在爬虫与反爬虫的较量上,一些反爬手段常常会让人津津乐道,比如,文本混淆反爬虫、动态渲染反爬虫、信息校验反爬虫、代码混淆反爬虫……等等。
  反爬虫技术是如何对爬虫进行防御的,其实现原理是什么?以下就以信息校验反爬为例,请《鹿鼎记》的韦香主给大家做一下演示。
  假设天地会赤火堂香主派人从京城前往扬州将一封非常重要的密函交给青木堂香主韦小宝,我们可以将这件事抽象为下图:
  这件事的核心是「帮派成员-甲将重要密函交给帮派成员-乙」。假设甲、乙双方互不相识亦从未有过会面,那「帮派成员-甲」如何判断密函交给了「帮派成员-乙」,而不是给错人——给了其他「帮派成员-丁」呢?
  在历史实践中肯定吃过这样的亏,遂天地会采用了接头暗号这种方式来确保甲、乙双方是同一帮派成员,这才有了:
  地镇高岗,一派溪山千古秀;
  门朝大海,三河合水万年流。
  暗号只有帮派成员才知道,且不可外泄。甲、乙双方见面时由「帮派成员-甲」说出「地镇高岗,一派溪山千古秀」,「帮派成员-乙」听到后必须接下一句「门朝大海,三河合水万年流」。如果「帮派成员-乙」不知道下一句是什么,或者胡说一气,那么「帮派成员-甲」就可以判定他不是接头人,而是冒充的。
  同样的,「帮派成员-乙」要听到帮派成员-甲说出「地镇高岗,一派溪山千古秀」。否则「帮派成员-甲」就是冒充的,很有可能会将假的密函交给青木堂韦小宝。
  天地会接头人互相传递消息(密函)很像是我们在开发 WEB 应用时的 Client 和 Server,抽象地看起来像这样:
  那么问题来了,Client 和 Server 之间需不需要天地会这样的暗号呢?
  答案是需要!
  Client 就像「帮派成员-甲」,Server 就像「帮派成员-乙」,而他们的密函很有可能会被其他「帮派成员-丁」拿走或伪造。既然天地会有接头暗号,那么 Client 和 Server 之间用什么来保障传递消息是第一手发出,而不是被拦截伪造的呢?
  没错,签名验证!
  签名验证是目前 IT 技术领域应用广泛的 API 接口数据保护方式之一,它能够有效防止消息接收端将被篡改或伪造的消息当作正常消息处理。
  要注意的是,它的作用是防止消息接收端将被篡改或伪造的消息当作正常消息处理,而不是防止消息接受端接收假消息,事实上接口在收到消息的那一刻无法判断消息的真假。这一点非常重要,千万不要混淆了。
  假设 Client 要将「下个月 5 号刺杀鳌拜」这封重要密函交给 Server,抽象图如下:
  这时候如果发生冒充事件,会带来什么影响:
  其他「帮派成员-丁」从 Client 那里获得消息后进行了伪造,将刺杀鳌拜的时间从 5 号改为 6号,导致 Server 收到的刺杀时间是 6 号。这么一来,里应外合刺杀鳌拜的事就会变成一方延迟动手,这次谋划已久的刺杀行动大概率会失败,而且会造成不小的损失。
  我们使用签名验证来改善这个消息传递和验证的事。这里可以简单将签名验证理解为在原消息的基础上进行一定规则的运算和加密,最终将加密结果放到消息中一并发送,消息接收者拿到消息后按照相同的规则进行运算和加密,将自己运算得到的加密值和传递过来的加密值进行比对,如果两值相同则代表消息没有被拦截伪造,反之可以判定消息被拦截伪造。
  签名验证被广泛应用,例如下载操作系统镜像文件时官方网站会提供文件的 MD5 值、阿里巴巴/腾讯/华为等企业对外开放的接口中鉴权部分的 sign 值等。
  以上反爬方法选自《Python3 反爬虫原理与绕过实战》
  《Python 3 反爬虫原理与绕过实战》 韦世东 著
  这本书是爬虫领域第一本专门介绍反爬虫的书,被誉为爬虫工程师不可错过的"武功秘籍",腾讯、马蜂窝工程师倾力推荐。
  知其然,知其所以然,文武兼备,本书从攻防两个角度进行解读,描述了爬虫技术与反爬虫技术的对抗过程,并详细介绍了这其中的原理和具体实现方法。
  从本书中你将了解到以上文中提到的签名验证以及文本混淆、动态渲染、加密解密、代码混淆和行为验证码等反爬虫技术的成因和绕过方法。
  爬虫技术是一把双刃剑,希望大家可以将学到的技术用于防护,提高应用防护等级,以剑养剑,攻守兼备才能够在技术的江湖上任逍遥~写在最后
  爬虫本身并未违反法律。但程序运行过程中可能对他人经营网站造成破坏,爬取的数据有可能涉及隐私或机密,数据本身也可能产生法律纠纷。

数学知识南昌轻轻教育关于到现在南昌轻轻教育这个话题相信很多小伙伴都是非常有兴趣了解的吧因为这个话题也是近期非常火热的那么既然现在大家都想要知道南昌轻轻教育小编也是到网上收集了一些与南昌轻轻教育相关的信数学知识初中数学的几种思维能力用心教育全都有关于到现在初中数学的几种思维能力用心教育全都有这个话题相信很多小伙伴都是非常有兴趣了解的吧因为这个话题也是近期非常火热的那么既然现在大家都想要知道初中数学的几种思维能力用心教育全都数学知识大学选专业知识小学教育属于数学相关专业吗关于到现在大学选专业知识小学教育属于数学相关专业吗这个话题相信很多小伙伴都是非常有兴趣了解的吧因为这个话题也是近期非常火热的那么既然现在大家都想要知道大学选专业知识小学教育属于数学数学知识深圳新东方中小学全科教育关于到现在深圳新东方中小学全科教育这个话题相信很多小伙伴都是非常有兴趣了解的吧因为这个话题也是近期非常火热的那么既然现在大家都想要知道深圳新东方中小学全科教育小编也是到网上收集了一优惠区间(优惠区间买中间一站可以吗)优惠区间(优惠区间买中间一站可以吗)铁路不知不觉2020年就要过完了目前部分高校寒假时间公布学生党们寒假有什么计划呢?去旅行还是宅在家里呢如何购买学生票?学生票还需要取票吗?学生优花店利润(一个新手怎么开花店)花店利润(一个新手怎么开花店)生意就意味着竞争,所以,对于一些不被人注意的小生意,往往就是赚钱的商机。回答这个粉丝的问题,在城市旮旯里,有哪些不引人注意的小生意,有些人却在赚大钱呢酸菜鱼是哪个地方的菜(酸菜鱼是哪个地方的特色菜)酸菜鱼是哪个地方的菜(酸菜鱼是哪个地方的特色菜)酸菜鱼图片酸菜鱼也称为酸汤鱼,是一道源自重庆的经典菜品,以其特有的调味和独特的烹调技法而著称。流行于上世纪90年代,是重庆江湖菜的开内衣淘宝网(网上买内衣哪家店好)内衣淘宝网(网上买内衣哪家店好)今天给大家带来小喵姑娘从多年购买大码内衣的经历中选出的性价比最高的几家投稿,都是替大家踩完各种雷以后筛出的宝藏店铺,而且各种类型的内衣都有,最后还有数学知识小学数学网小学数学辅导网站教学奥数网关于到现在小学数学网小学数学辅导网站教学奥数网这个话题相信很多小伙伴都是非常有兴趣了解的吧因为这个话题也是近期非常火热的那么既然现在大家都想要知道小学数学网小学数学辅导网站教学奥数中国工商管理局网站(中国工商注册网)中国工商管理局网站(中国工商注册网)公司的背景信息调查可以从政府的官网第三信用机构调查网站可查询,以下简要介绍一些查询网站,供大家参考。一中国大陆网站名称全国企业信用信息公示系统网专业学位与学术学位的区别(一般考研是考专硕还是学硕)专业学位与学术学位的区别(一般考研是考专硕还是学硕)随着高考的结束,不少学子在放松之时,也开始思考填报志愿的问题,这时,一个新名词走进了他们的视线职业本科。很多学生不明白职业本科是
资格考试报名表(法律职业资格考试)资格考试报名表(法律职业资格考试)021年经济师报名自7月19日正式开始,山西陕西海南等地区开通了报名通道,大家要在规定时间内完成报名,小赛总结了相关报名事项,祝各位顺利完成报名。兼容性站点怎么添加(教师资格证报名兼容性怎么弄)兼容性站点怎么添加(教师资格证报名兼容性怎么弄)教资报名2021添加兼容性站点怎么弄2021上半年教师资格证报名正在进行中,由于报名系统兼容性不足,所以在报名过程中,需要各位考生使浙江教育厅教师培训管理平台(浙江省教师资格证报考时间)浙江教育厅教师培训管理平台(浙江省教师资格证报考时间)视觉中国资料图近日,浙江省教育厅等7部门联合印发浙江省关于规范校外线上培训发展的实施细则。实施细则出台的目的是什么?如何理解备壶口瀑布在哪里(黄果树瀑布在贵州哪里)壶口瀑布在哪里(黄果树瀑布在贵州哪里)壶口瀑布黄河流经至此,两岸石壁峭立,黄河水由宽400米的水面骤然收减到三五十米宽的深槽内,由20多米高的陡崖倾斜而下,气势磅礴,形成了千里黄河新乡旅游景点(新乡旅游景点有哪些地方)新乡旅游景点(新乡旅游景点有哪些地方)新乡市。潞王陵景区。。关帝庙。。兴国寺。。文庙。。关帝庙。。新乡博物馆。新乡县。京华园景区。。石刻艺术馆。辉县市。宝泉旅游度假区。。南太行八里斛怎么读(霍山石斛)斛怎么读(霍山石斛)算二龠(yu)为合(g),十合(g)为升,十升为斗,十斗为斛(h)一斛等于十斗一斗等于十升一升等于十各一各等于二龠斛h旧量器,方形,口小,底大容量本为十斗,后来代购怎么做(新手代购怎么找客源)代购怎么做(新手代购怎么找客源)挖品牌不种草,而是要说说和买买买息息相关却又容易被不屑一顾的一个群体。讲真,今天要码的主角算是我的半个衣食父母,因为好些个早先我并不认识的品牌都是在荷花是什么时候开(请问荷花是什么季节开的)荷花是什么时候开(请问荷花是什么季节开的)荷花一般在夏季开花,6月份植株的盛花期,最适合观赏。不同地区和不同种类的荷花的开花时间有差异,偏南地区开花早,偏北地区开花晚。养殖时,如果led灯和卤素灯的区别(led灯和卤素灯哪个更好)led灯和卤素灯的区别(led灯和卤素灯哪个更好)随着汽车使用率的上升,人们对车灯的要求也逐渐升高,那么氙气灯和LED灯是不是都适合自己的车子呢?根据相关部门的数据显示下午六点至九闪光灯电路(频闪灯电路图)闪光灯电路(频闪灯电路图)032024创客e工坊普及数电模电知识,科教兴国。大家好,我是阿乐,今天跟大家分享一个很简单但是很有意思的小电路,先来看电路图在上面的电路图中,用到了5个物理知识科普相对不确定度计算公式关于到现在相对不确定度计算公式这个话题,相信很多小伙伴都是非常有兴趣了解的吧,因为这个话题也是近期非常火热的,那么既然现在大家都想要知道相对不确定度计算公式,小编也是到网上收集了一