robots,根据维基百科上的说法是,是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。白话来说,就是设置给搜索引擎看的规则,允许它收录什么,不允许它收录什么的规则。
robots的设置规则可以多种多样,针对wordpress来说,主要就是设置后台程序禁止搜索引擎的访问,可以这样写:
User-agent: *
Disallow: /wp-admin
user-agent: * 意思是允许所有的搜索蜘蛛访问,如果您想禁止某个搜索蜘蛛,只需要在这里写上蜘蛛的名字,然后disallow里面写上 / ,就可以了
比如全站屏蔽百度蜘蛛:
User-agent: baiduspider
Disallow: /
下面给出一些蜘蛛的名字,请参考:
google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot
nicky在他的博客中给出了一个wordpress的robots协议例子,大家可以参考下,放这里收藏起来好了:
User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /comments/feed
Disallow: /trackback/
下面的是三十而立的,也放上来展示一下,嘿嘿~
User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Disallow: /comments/feed
Disallow: /trackback/Sitemap: http://as30.com/sitemap.xml
关于最后的sitemap,用google xml sitemap插件的话,会是以gz结尾的,我给更改了,目前还不清楚是什么原因。先暂时改成这样好了。
最后需要注意的一点是,robots.txt文件必须是小写的字符,放到根目录即可。
适当的robot.txt是不错的,,可以引导蜘蛛爬取页面。
至于搜索引擎支持不支持robots协议,那就是另一回事了……