在国内,站长们似乎对robots.txt并没有引起多大重视,看了下卢松松等一些博客,都没有放robots.txt。
robots.txt是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛/爬虫机器人),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。 robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。(资料来源:维基百科)
重视robots.txt,一定程度上提升网站对搜索引擎友好度。让Google、百度等搜索引擎更多的收录你的站点,也减少网络蜘蛛工作量,提高它们的效率;同时也会带来更多的访问量。这是我的写法,仅供参考,请根据网站情况增减条目——
User-agent: * Allow: /wp-content/uploads/ Disallow: /cgi-bin/ Disallow: /wp-admin/ Disallow: /wp-content/cache/ Disallow: /wp-content/languages/ Disallow: /wp-content/plugins/ Disallow: /wp-content/themes/ Disallow: /wp-content/upgrade/ Disallow: /wp-includes/ Disallow: /comments/ Disallow: /comments/feed Disallow: /*/comment-page-* Disallow: /category/*/page/ Disallow: /page/ Disallow: /feed/ Disallow: /tag/ Disallow: /author/ Disallow: /trackback/ Disallow: /*/feed/ Disallow: /*/trackback/ Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /?s= Disallow: /*?replytocom=* Disallow: /readme.html Disallow: /licence.txt Disallow: /wp-config-sample.php Disallow: /refer/ Sitemap:https://meledee.com/sitemap.xml
稍微解释下,Disallow参数是禁止爬虫机器人访问该页面。关于禁用的原因——
cgi-bin | 提供CGI程序存放的目录 |
wp- | WP核心目录,必须禁止访问 |
feed | 避免文章页面重复 |
comments/feed | 避免评论页面重复 |
trackback | 避免垃圾引用 |
comments | 避免垃圾评论 |
保留一个sitemap文件,因为我装了Google XML Sitemaps 插件和Baidu Sitemap插件,这样文章一更新或者爬虫机器人一过来。就可以被收录,间接提升搜索引擎友好度。弄好之后,上传到网站根目录下,最好使用Google网站管理员工具测试下效果。