wordpress的robots规则展示

robots,根据维基百科上的说法是,是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。白话来说,就是设置给搜索引擎看的规则,允许它收录什么,不允许它收录什么的规则。

robots的设置规则可以多种多样,针对wordpress来说,主要就是设置后台程序禁止搜索引擎的访问,可以这样写:

User-agent: *
Disallow: /wp-admin

user-agent: * 意思是允许所有的搜索蜘蛛访问,如果您想禁止某个搜索蜘蛛,只需要在这里写上蜘蛛的名字,然后disallow里面写上 / ,就可以了

比如全站屏蔽百度蜘蛛:

User-agent: baiduspider

Disallow: /

下面给出一些蜘蛛的名字,请参考:

google蜘蛛: googlebot
百度蜘蛛:baiduspider
yahoo蜘蛛:slurp
alexa蜘蛛:ia_archiver
msn蜘蛛:msnbot

nicky在他的博客中给出了一个wordpress的robots协议例子,大家可以参考下,放这里收藏起来好了:

User-agent: *
Disallow: /wp-
Disallow: /feed/
Disallow: /comments/feed
Disallow: /trackback/

下面的是三十而立的,也放上来展示一下,嘿嘿~

User-agent: *
Disallow: /wp-admin
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /wp-includes
Disallow: /?s=
Disallow: /comments/feed
Disallow: /trackback/

Sitemap: http://as30.com/sitemap.xml

关于最后的sitemap,用google xml sitemap插件的话,会是以gz结尾的,我给更改了,目前还不清楚是什么原因。先暂时改成这样好了。

最后需要注意的一点是,robots.txt文件必须是小写的字符,放到根目录即可。

This entry was posted in wordpress文章, 收藏夹 and tagged , . Bookmark the permalink.


2 Responses to wordpress的robots规则展示

  1. 中红网 says:

    适当的robot.txt是不错的,,可以引导蜘蛛爬取页面。

  2. 普洱 says:

    至于搜索引擎支持不支持robots协议,那就是另一回事了……

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注

*

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>