扩展阅读
  • 网站英文/中文域名字符集即网站英文/中文域名可以包含哪些字符
  • 你最喜欢去的JAVA网站或JAVA源代码下载网站是哪里???
  • 网站改版后导致URL改变如何设置301跳转的几种方法
  • 你认为最好的中文JAVA网站或有大量优秀JAVA源代码免费下载的网站是哪里???送分!!!
  • 重装服务器后IIS网站错误(应用程序中的服务器错误)
  • linux VPS之间网站数据的备份与恢复(网站迁移教程)
  • 网站到底怎么实现盈利赚钱:个人网站赚钱方法大总结
  • 极度郁闷中~!各位大虾,请帮帮忙!!我把我的ie5升级到了ie6,并上微软网站升级了一下系统!我的机子上的jsp网站就一个也运行不了了!郁
  • PHP介绍及学习网站推荐
  • DIV+CSS布局的网站对网站SEO的影响分析
  • 网站如何使用cookie以及cookie相关的规范介绍
  • 网站的站内搜索是怎么实现的?怎么做?在网页的头元素中有一关键词元素,是不是就是给站内搜索用的?如果我在Sina中登记我的网站,那么是不是
  • Solaris做JSP网站和PHP网站的OS怎么样?
  • 从豆瓣网站设计谈网站重构
  • windows2008中添加网站、绑定域名的方法
  • 网站内容管理系统 CMSZU
  • 网站导图生成器 Amberjack
  • 请问:如何在路由器上设置可以让某一ip访问国际网站,我们这的机器都被限制了,不能访问国际网站。
  • 推荐-提升你网站排名的方法
  • 网站流量分析 phpTrafficA
  • 多网站内容管理系统 jCore
  •  
    当前位置:  编程语言>php

    网站robots协议介绍及文件写法举例

     
        发布时间:2013-9-8  


        本文导语:  robots协议是搜索引擎在爬取网站的时候要查看的第一个文件,文件会告诉蜘蛛程序在服务器上什么文件是可以被查看的,对应的不允许查看的内容,蜘蛛程序是不会查看. "robots.txt"文件包含一条或更多的记录,...

     robots协议搜索引擎在爬取网站的时候要查看的第一个文件,文件会告诉蜘蛛程序服务器上什么文件是可以被查看的,对应的不允许查看的内容,蜘蛛程序是不会查看.

     "robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以cr,cr/nl, or nl作为结束符),每一条记录的格式如下所示:

    "<field>:<optional space><value><optional space>"

    在该文件中可以使用#进行注解,具体使用方法unix中的惯例一样。该文件中的记录通常以一行或多行user-agent开始,后面加上若干disallow和allow行,详细情况如下:

    User-agent:

       该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受 到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效, 在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User- agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

    Disallow:

       该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help /index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问 /help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一 条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

    Allow:

       该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、 /hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页 同时禁止访问其它所有URL的功能。

    使用"*"and"$":

    Baiduspider支持使用通配符"*"和"$"来模糊匹配url。

    "$" 匹配行结束符。

    "*" 匹配0或多个任意字符


    robots文件举例:

    1.禁止所有搜索引擎访问网站的任何部分 :

    User-agent: *

    Disallow: /

    2.允许所有的robot访问:

    User-agent: *

    Disallow: 或者

    User-agent: *

    Allow: /

    3.仅禁止Baiduspider访问您的网站:

    User-agent: Baiduspider

    Disallow: /

    仅允许Baiduspider访问您的网站:

    User-agent: Baiduspider

    Disallow:

    User-agent: *

    Disallow: /

    4.禁止spider访问特定目录:(需要注意的是对每一个目录必须分开声明,而不能写成

    "disallow: /cgi-bin/ /tmp/")

    User-agent: *

    Disallow: /cgi-bin/

    Disallow: /tmp/

    Disallow: /~joe/

    5.允许访问特定目录中的部分url:

    User-agent: *

    Allow: /cgi-bin/see

    Allow: /tmp/hi

    Allow: /~joe/look

    Disallow: /cgi-bin/

    Disallow: /tmp/

    Disallow: /~joe/

    6.使用"*"限制访问url:

    User-agent: *

    Disallow: /cgi-bin/*.htm

    7.使用"$"限制访问url:

    User-agent: *

    Allow: .htm$

    Disallow: /

    8.禁止访问网站中所有的动态页面:

    User-agent: *

    Disallow: /*?*

    9.禁止Baiduspider抓取网站上所有图片:(若是某一张图片,就是指到对应的图片路径和名称即可)

    User-agent: Baiduspider

    Disallow: .jpg$

    Disallow: .jpeg$

    Disallow: .gif$

    Disallow: .png$

    Disallow: .bmp$

    10.仅允许Baiduspider抓取网页和.gif格式图片:

    User-agent: Baiduspider

    Allow: .gif$

    Disallow: .jpg$

    Disallow: .jpeg$

    Disallow: .png$

    Disallow: .bmp$

    11.仅禁止Baiduspider抓取.jpg格式图片:

    User-agent: Baiduspider

    Disallow:


      您可能感兴趣的文章:

    • 本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
      本站(WWW.)站内文章除注明原创外,均为转载,整理或搜集自网络.欢迎任何形式的转载,转载请注明出处.
      转载请注明:文章转载自:[169IT-IT技术资讯]
      本文标题:网站robots协议介绍及文件写法举例
    相关文章推荐:
  • 我想我的网站屏蔽掉通过某些网站过来的访问,我想通过htaccess 文件来做,请大家帮帮我。
  • 我代理的虚拟主机,当访问量网站系统的模板文件如INDEX.DWT能下载下来.如何解决
  • 请问各位:我的网站下面全部都是jsp文件,有没有必要用apache+tomcat(内空)
  • linux下,通过jsp网站进行文件读写,提示permission denied
  • alsa project网站上的latency.c ,关于这个文件名字的疑问?
  • 前天在一BT网站下载一KNOPPIX_V3.2-bv-20030930.iso文件,从iso文件启动,速度特快,使用起来很爽,不敢独享,特推荐给大家!
  • apache使用.htaccess文件实现屏蔽wget下载网站内容 iis7站长之家
  • apache使用.htaccess文件实现屏蔽wget下载网站内容
  • 从SUN公司的网站上下载一个Solaris10的VMWare虚拟机映像文件,登录系统的时候的用户名和密码是什么?
  • 在线等待…………急…………关于debian__linux的安装问题.我从网站下载了一套debian 的linux,是.iso的镜像文件。问怎么安装。
  • php获取网站页面快照并保存到文件
  • 哪位能给我Jbuilder7的Crack文件,去找了半天,发现一些大家推荐的网站都不能下!谢谢!


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3