wordpress教程之通过robots协议屏蔽搜索引擎抓取网站部分内容-凯发网娱乐官网

微信扫一扫,分享到朋友圈

0

大家做网站难免有些时候不想让某些搜索引擎抓取某些页面,当然可以在根目录下放robots.txt文件屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(robots exclusion protocol),网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

一、robots协议写法说明

  • user-agent: 这里的代表的所有的搜索引擎种类,*是一个通配符;
  • disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录;
  • disallow: /require/ 这里定义是禁止爬寻require目录下面的目录;
  • disallow: /abc/ 这里定义是禁止爬寻abc目录下面的目录;
  • disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的;
  • disallow: /? 禁止访问网站中所有包含问号 (?) 的网址;
  • disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片;
  • disallow: /ab/adc.html 禁止爬取ab文件夹下面的adc.html文件;
  • allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录;
  • allow: /tmp 这里定义是允许爬寻tmp的整个目录;
  • allow: .htm$ 仅允许访问以”.htm”为后缀的url;
  • allow: .gif$ 允许抓取网页和gif格式图片;
  • sitemap: 网站地图地址 告诉爬虫这个页面是网站地图;

二、robots协议举例

例1. 禁止所有搜索引擎访问网站的任何部分

user-agent: *
disallow: /

例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt”)

user-agent: *
allow: /

例3. 禁止某个搜索引擎的访问

user-agent: badbot
disallow: /

例4. 允许某个搜索引擎的访问

user-agent: baiduspider
allow:/

三、本站使用的robots协议

user-agent: *
disallow: /wp-*/
disallow: /*?connect=*
disallow: /date/*
disallow: /kod/*
disallow: /api/*
disallow: /*/trackback
disallow: /*.js$
disallow: /*.css$
disallow:/*?replytocom*
disallow: /comments/
disallow: /*/comments/
disallow: /feed/*
disallow: /*/*/feed/*
disallow: /*/*/*/feed/*
disallow:/articles/*
disallow:/shuoshuo/*
sitemap: https://imotao.com/sitemap.xml

 

展开阅读全文

微信扫一扫,分享到朋友圈

0
这个博主很懒,懒死了。
上一篇

使用纯代码给wordpress添加文章目录功能,支持快速定位和多级目录

下一篇

wordpress更换域名和替换文章内部超链接教程

你也可能喜欢

发表评论

this site uses akismet to reduce spam. .

插入图片