文章目录[隐藏]
大家做网站难免有些时候不想让某些搜索引擎抓取某些页面,当然可以在根目录下放robots.txt文件屏蔽搜索引擎或者设置搜索引擎可以抓取文件范围以及规则。robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(robots exclusion protocol),网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
一、robots协议写法说明
- user-agent: 这里的代表的所有的搜索引擎种类,*是一个通配符;
- disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录;
- disallow: /require/ 这里定义是禁止爬寻require目录下面的目录;
- disallow: /abc/ 这里定义是禁止爬寻abc目录下面的目录;
- disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的;
- disallow: /? 禁止访问网站中所有包含问号 (?) 的网址;
- disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片;
- disallow: /ab/adc.html 禁止爬取ab文件夹下面的adc.html文件;
- allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录;
- allow: /tmp 这里定义是允许爬寻tmp的整个目录;
- allow: .htm$ 仅允许访问以”.htm”为后缀的url;
- allow: .gif$ 允许抓取网页和gif格式图片;
- sitemap: 网站地图地址 告诉爬虫这个页面是网站地图;
二、robots协议举例
例1. 禁止所有搜索引擎访问网站的任何部分
user-agent: *
disallow: /
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt”)
user-agent: *
allow: /
例3. 禁止某个搜索引擎的访问
user-agent: badbot
disallow: /
例4. 允许某个搜索引擎的访问
user-agent: baiduspider
allow:/
三、本站使用的robots协议
user-agent: *
disallow: /wp-*/
disallow: /*?connect=*
disallow: /date/*
disallow: /kod/*
disallow: /api/*
disallow: /*/trackback
disallow: /*.js$
disallow: /*.css$
disallow:/*?replytocom*
disallow: /comments/
disallow: /*/comments/
disallow: /feed/*
disallow: /*/*/feed/*
disallow: /*/*/*/feed/*
disallow:/articles/*
disallow:/shuoshuo/*
sitemap: https://imotao.com/sitemap.xml