在国内,站长们似乎对robots.txt并没有引起多大重视,看了下卢松松等一些博客,都没有放robots.txt。
robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛/爬虫机器人),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。 robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。(资料来源:维基百科)
重视robots.txt,一定程度上提升网站对搜索引擎友好度。让Google、百度等搜索引擎更多的收录你的站点,也减少网络蜘蛛工作量,提高它们的效率;同时也会带来更多的访问量。这是我的写法,仅供参考,请根据网站情况增减条目——
User-agent: *
Allow: /wp-content/uploads/
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-content/cache/
Disallow: /wp-content/languages/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-content/upgrade/
Disallow: /wp-includes/
Disallow: /comments/
Disallow: /comments/feed
Disallow: /*/comment-page-*
Disallow: /category/*/page/
Disallow: /page/
Disallow: /feed/
Disallow: /tag/
Disallow: /author/
Disallow: /trackback/
Disallow: /*/feed/
Disallow: /*/trackback/
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /?s=
Disallow: /*?replytocom=*
Disallow: /readme.html
Disallow: /licence.txt
Disallow: /wp-config-sample.php
Disallow: /refer/
Sitemap:https://meledee.com/sitemap.xml
稍微解释下,Disallow参数是禁止爬虫机器人访问该页面。关于禁用的原因——
| cgi-bin | 提供CGI程序存放的目录 |
| wp- | WP核心目录,必须禁止访问 |
| feed | 避免文章页面重复 |
| comments/feed | 避免评论页面重复 |
| trackback | 避免垃圾引用 |
| comments | 避免垃圾评论 |
保留一个sitemap文件,因为我装了Google XML Sitemaps 插件和Baidu Sitemap插件,这样文章一更新或者爬虫机器人一过来。就可以被收录,间接提升搜索引擎友好度。弄好之后,上传到网站根目录下,最好使用Google网站管理员工具测试下效果。