童话说说技术创业美文职业
投稿投诉
职业母婴
职场个人
历史治疗
笔记技能
美文纠纷
幽默家庭
范文作文
乐趣解密
创业案例
社会工作
新闻家居
心理安全
技术八卦
仲裁思考
生活时事
运势奇闻
说说企业
魅力社交
安好健康
传统笑话
童话初中
男女饮食
周易阅读
爱好两性

Robots文件写法及文件用法

5月21日 相见欢投稿
  Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;设置网站地图连接,方便引导蜘蛛爬取页面。下面是Robots文件写法及文件用法。
  一、文件写法
  Useragent:这里的代表的所有的搜索引擎种类,是一个通配符
  Disallow:admin这里定义是禁止爬寻admin目录下面的目录
  Disallow:require这里定义是禁止爬寻require目录下面的目录
  Disallow:ABC这里定义是禁止爬寻ABC目录下面的目录
  Disallow:cgibin。htm禁止访问cgibin目录下的所有以”。htm”为后缀的URL(包含子目录)。
  Disallow:?禁止访问网站中所有包含问号(?)的网址
  Disallow:。jpg禁止抓取网页所有的。jpg格式的图片
  Disallow:abadc。html禁止爬取ab文件夹下面的adc。html文件。
  Allow:cgibin这里定义是允许爬寻cgibin目录下面的目录
  Allow:tmp这里定义是允许爬寻tmp的整个目录
  Allow:。htm仅允许访问以”。htm”为后缀的URL。
  Allow:。gif允许抓取网页和gif格式图片
  Sitemap:网站地图告诉爬虫这个页面是网站地图
  二、文件用法
  例1。禁止所有搜索引擎访问网站的任何部分
  Useragent:
  Disallow:
  实例分析:淘宝网的Robots。txt文件
  Useragent:Baiduspider
  Disallow:
  Useragent:baiduspider
  Disallow:
  很显然淘宝不允许百度的机器人访问其网站下其所有的目录。
  例2。允许所有的robot访问(或者也可以建一个空文件“robots。txt”file)
  Useragent:
  Allow:
  例3。禁止某个搜索引擎的访问
  Useragent:BadBot
  Disallow:
  例4。允许某个搜索引擎的访问
  Useragent:Baiduspider
  allow:
  例5。一个简单例子
  在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
  需要注意的是对每一个目录必须分开声明,而不要写成“Disallow:cgibintmp”。
  Useragent:后的具有特殊的含义,代表“anyrobot”,所以在该文件中不能有“Disallow:tmp”or“Disallow:。gif”这样的记录出现。
  Useragent:
  Disallow:cgibin
  Disallow:tmp
  Disallow:joe
  Robots特殊参数:
  允许Googlebot:
  如果您要拦截除Googlebot以外的所有漫游器不能访问您的网页,可以使用下列语法:
  Useragent:
  Disallow:
  Useragent:Googlebot
  Disallow:
  Googlebot跟随指向它自己的行,而不是指向所有漫游器的行。
  “Allow”扩展名:
  Googlebot可识别称为“Allow”的robots。txt标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。“Allow”行的作用原理完全与“Disallow”行一样。只需列出您要允许的目录或页面即可。
  您也可以同时使用“Disallow”和“Allow”。例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目:
  Useragent:Googlebot
  Allow:folder1myfile。html
  Disallow:folder1
  这些条目将拦截folder1目录内除myfile。html之外的所有页面。
  如果您要拦截Googlebot并允许Google的另一个漫游器(如GooglebotMobile),可使用”Allow”规则允许该漫游器的访问。例如:
  Useragent:Googlebot
  Disallow:
  Useragent:GooglebotMobile
  Allow:
  使用号匹配字符序列:
  您可使用星号()来匹配字符序列。例如,要拦截对所有以private开头的子目录的访问,可使用下列条目:UserAgent:Googlebot
  Disallow:private
  要拦截对所有包含问号(?)的网址的访问,可使用下列条目:
  Useragent:
  Disallow:?
  使用匹配网址的结束字符
  您可使用字符指定与网址的结束字符进行匹配。例如,要拦截以。asp结尾的网址,可使用下列条目:Useragent:Googlebot
  Disallow:。asp
  您可将此模式匹配与Allow指令配合使用。例如,如果?表示一个会话ID,您可排除所有包含该ID的网址,确保Googlebot不会抓取重复的网页。但是,以?结尾的网址可能是您要包含的网页版本。在此情况下,可对robots。txt文件进行如下设置:
  Useragent:
  Allow:?
  Disallow:?
  Disallow:?
  一行将拦截包含?的网址(具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号(?),而后又是任意字符串的网址)。
  Allow:?一行将允许包含任何以?结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号(?),问号之后没有任何字符的网址)。
  三、Robots协议举例
  禁止所有机器人访问
  Useragent:
  Disallow:
  允许所有机器人访问
  Useragent:
  Disallow:
  禁止特定机器人访问
  Useragent:BadBot
  Disallow:
  允许特定机器人访问
  Useragent:GoodBot
  Disallow:
  禁止访问特定目录
  Useragent:
  Disallow:images
  仅允许访问特定目录
  Useragent:
  Allow:images
  Disallow:
  禁止访问特定文件
  Useragent:
  Disallow:。html
  仅允许访问特定文件
  Useragent:
  Allow:。html
  Disallow:
  尽管robots。txt已经存在很多年了,但是各大搜索引擎对它的解读都有细微差别。Google与百度都分别在自己的站长工具中提供了robots工具。如果您编写了robots。txt文件,建议您在这两个工具中都进行测试,因为这两者的解析实现确实有细微差别。文萌新seo
投诉 评论 转载

Robots文件写法及文件用法Robots协议用来告知搜索引擎哪些页面能被抓取,哪些页面不能被抓取;可以屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;可以屏蔽站点的一些死链接。方便搜索……怎么发布信息可以使百度排名更靠前?很多做网络营销的人都在思考的一个共同的问题:如何让自己发布的信息效果更好,怎么发布信息百度排名更靠前!俗话说天道酬勤!很多人选择了凡是可以发布信息的网站,都把自己准备好的……21种常见SEO优化名词概述SEO新人成为SEO大神的过程中,这些SEO名词怎能不理解呢?不能理解这些SEO优化名词的SEO可都不能算是SEO大神哦!SEO行业常规的名词主要有以下这些:1、网……博客内容策略中使用关键词的SEO关键词基础排名研究尽管博客已经出现了好多年,但如今的情况与21世纪初的情况大不相同。在那些日子里,人们读你的博客是因为他们关注博客或者订阅了RSS提要。但自那以后,互联网发生了变化。虽然有……网站301重定向在搜索引擎优化中的重要性实际上很多SEO培训机构对于网站301重定向都会讲,然后我们并不一定会重视。其原因还是感觉麻烦,需要操作配置文件和服务器或者虚拟开局配合,不想搞。当然现在的互联网环境发展了,很……细解百度发包快排搜索点击参数了解发包点击排名的真谛百度发包快排和百度点击快排类似但发包省略了点击的步骤,发包快排原理简单说就是直接打包get点击参数为数据包后发送给百度服务器。而理论上百度发包快排可以实现无排名的新站快速上首页……飓风算法3。0官方解读8月8日,百度搜索资源平台发布了《飓风算法3。0即将上线,控制跨领域采集及站群问题》的官方公告。为了帮助开发者更好地理解飓风算法3。0的内容,针对此次飓风算法升级中开发者关注度……飓风算法3。0即将上线,控制跨领域采集及站群问题为了维护健康的移动生态,保障用户体验,保证优质站点智能小程序能够获得合理的流量分发,百度搜索资源平台近期对飓风算法进行升级,上线飓风算法3。0。该算法升级主要针对跨领域采……详解SEO布词以及网站排名优化细节SEO说难不难,其实大部分方法都是N年前的,而且现在也都一样行得通,无非就是把每个简单的细节都做好,排名自然而然就上去了。做久了,你会发现,我压根没做SEO优化啊,其实是自己养……百度索引量持续下降的原因以及解决方法首先,什么是百度索引量?我们来看官方给出的解释:站点中有多少页面可以作为搜索候选结果,就是一个网站的索引量。站点内容页面需要经过搜索引擎的抓取和层层筛选后,方……看了那么多SEO教程,为何你还是搞不定排名前些天和一个朋友在讨论互联网营销的时候偶然提到了SEO优化,朋友说去年买了一套SEO教程自学,到目前为止,差不多将近一年了,排名还是非常的不好(几乎没有排名)。我问他既然……到底什么样的外链才是好外链这个标题写下去,其实才知道写的有些不妥,因为外链根本没有高低贵贱等级之分,只有无效的和有效的区别。好了,先给大家看个图片吧,这个是百度内部某后台系统的截图:从图中我们看出……
多维度导航探秘II矫枉过正的交互设计网站改版的需要注意的几个要点关于文字的可阅读性:新附配图如何评论界面设计〔译文〕产品基本素质关于用户体验,我们常犯的9个错误杂谈产品灰度上线的研发模式从心理学的角度来看用户体验设计关于设计1233G时代手机网站的特点和开发原则中小网站成长过程中如何进行用户体验建设
苹果发布iOS13。5。1iPadOS13。5。1正式版更新安卓手机的定位怎么查(手机查找对方手机位置)论运营的大局观:强势主动与自察思考三朝元老终圆梦汪顺历史性摘金超个性超霸气的文案,很有道理季度工作总结蓟马生活习性有哪些学习委员竞选演讲稿高中樱花优秀作文800字作为父母我们忽视了什么要我们为国家而奋斗是大有作为的大学生的理财策划书

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找作文动态热点娱乐育儿情感教程科技体育养生教案探索美文旅游财经日志励志范文论文时尚保健游戏护肤业界