各种robots.txt文件的作用与写法教程

作者 : 小编 发布时间: 2020-01-27 共1036个字,阅读需3分钟。 共106 人阅读

阿里云服务器低至¥89元/年 限时抢

阿里云服务器专享1折起 | 限时抢各种代金券

立即抢购

腾讯云服务器低至¥50元/年 限时抢

腾讯云服务器专享1折起 | 1核2g服务器免费拿

立即购买

说起 robots.txt 文件,很多网站的站长都非法的熟悉,尤其是一些专门研究SEO的从业者们。今天借助这篇博文,详细介绍一下 robots.txt 文件的作用与书写方法。

robots.txt是一个写有 robots 协议的文件,它被放置于网站的根目录下,通过网址的形式就可以被访问到。别看它小,但它的作用可不小。

robots.txt文件的作用

1、用来告诉搜索引擎的蜘蛛哪些页面能被抓取,哪些页面不能被抓取;

2、屏蔽一些网站中比较大的文件,如:图片,音乐,视频等,节省服务器带宽;

3、屏蔽站点的一些死链接。方便搜索引擎抓取网站内容;

4、设置网站地图连接,方便引导蜘蛛爬取页面。

Robots 协议中的几个参数

1、自定义搜索引擎

User-agent:来定义搜索引引擎的。如下面代码:

  1. Useragent: Baiduspider //百度蜘蛛
  2. Useragent: Googlebot //谷歌蜘蛛
  3. Useragent: * //*为通配符,表示所有的蜘蛛

注意:以上代码中,出现的汉字为注释说明,在实际的写法中,不能出现。

2、禁止抓取

Disallow:用来指示,要禁止抓取的目录,或文件。

  1. Disallow: /a/ //禁止抓去a目录下的任何文件
  2. Disallow: /b/c/ //禁止抓取b目录中c目录下的任何文件
  3. Disallow: index.html //禁止抓取 index.html 文件

可使用通配符来表示要禁止抓取的目录或文件

  1. Disallow: /*.css$ //禁止抓取所有CSS文件
  2. Disallow: /*.js$ //禁止抓取所有js文件
  3. Disallow: /*.php$ //禁止抓取所有php文件
  4. Disallow: /*?* //禁止抓取所有还有参数的文件,比如动态文件
  5. Disallow: / //禁止抓取所有目录以及文件

注意:*表示所有,$表示结尾

3、允许抓取

Allow:用来表示,允许要抓取的文件或者目录(一般是配合 Disallow 使用)

  1. Allow: / //允许抓取所有目录及文件
  2. Allow: /a/ //允许抓取a目录
robots.txt 写法举例

1、禁止百度抓取网站所有内容

  1. Useragent: Baiduspider
  2. Disallow:/

2、禁止所有搜索引擎访问

  1. Useragent: *
  2. Disallow: /

3、只允许某个搜索引擎访问,如下,只允许百度蜘蛛抓取

  1. Useragent: *
  2. Disallow: / Useragent: Baiduspider Disallow:
1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,请不要用于商业用途!
3. 如果你也有好源码或者教程,可联系站长QQ,分享有金币奖励和额外收入!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!!!!
5. 如有链接无法下载、失效或广告,请联系管理员处理!本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7.如遇到加密压缩包,默认解压密码为"www.xiaosonshu.com",如遇到无法解压的请联系管理员!
8.如遇到充值未到账,请联系管理员补发!管理员整天在线,未回复等等待!
版权声明:原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 、作者信息和本声明。否则将追究法律责任。
守望者软件开发工作室 » 各种robots.txt文件的作用与写法教程

发表评论

  • 23会员总数(位)
  • 143资源总数(个)
  • 0本周发布(个)
  • 0 今日发布(个)
  • 272稳定运行(天)

小松鼠资源网 XIAOSONSHU.COM 一个高级程序员模板开发平台!

立即查看 了解详情