巧设robots.txt优化爬虫访问

在国内，站长们似乎对robots.txt并没有引起多大重视，看了下卢松松等一些博客，都没有放robots.txt。

robots.txt是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛/爬虫机器人），此网站中的哪些内容是不能被搜索引擎的漫游器获取的，哪些是可以被（漫游器）获取的。 robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据。（资料来源：维基百科）

重视robots.txt，一定程度上提升网站对搜索引擎友好度。让Google、百度等搜索引擎更多的收录你的站点，也减少网络蜘蛛工作量，提高它们的效率；同时也会带来更多的访问量。这是我的写法，仅供参考，请根据网站情况增减条目——

    User-agent: *
    Allow: /wp-content/uploads/
    Disallow: /cgi-bin/
    Disallow: /wp-admin/
    Disallow: /wp-content/cache/
    Disallow: /wp-content/languages/
    Disallow: /wp-content/plugins/
    Disallow: /wp-content/themes/
    Disallow: /wp-content/upgrade/
    Disallow: /wp-includes/
    Disallow: /comments/
    Disallow: /comments/feed
    Disallow: /*/comment-page-*
    Disallow: /category/*/page/
    Disallow: /page/
    Disallow: /feed/
    Disallow: /tag/
    Disallow: /author/
    Disallow: /trackback/
    Disallow: /*/feed/
    Disallow: /*/trackback/
    Disallow: /*.php$
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /?s=
    Disallow: /*?replytocom=*
    Disallow: /readme.html
    Disallow: /licence.txt
    Disallow: /wp-config-sample.php
    Disallow: /refer/

    Sitemap:https://meledee.com/sitemap.xml

稍微解释下，Disallow参数是禁止爬虫机器人访问该页面。关于禁用的原因——

cgi-bin	提供CGI程序存放的目录
wp-	WP核心目录，必须禁止访问
feed	避免文章页面重复
comments/feed	避免评论页面重复
trackback	避免垃圾引用
comments	避免垃圾评论

保留一个sitemap文件，因为我装了Google XML Sitemaps 插件和Baidu Sitemap插件，这样文章一更新或者爬虫机器人一过来。就可以被收录，间接提升搜索引擎友好度。弄好之后，上传到网站根目录下，最好使用Google网站管理员工具测试下效果。

本作品采用知识共享署名 4.0 国际许可协议进行许可