1、什么是robots.txt文件?
答:spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
2、robots.txt文件放在哪里?
答:robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站时,首先会检查该网站中是否存在“robots.txt ”这个文件,如果Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围,如果"robots.txt"不存在或者为空文件,则默认搜索引擎可以抓取所有的页面。
3、robots.txt文件如何书写?
答:该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎蜘蛛的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:googlebot"和若干Disallow、Allow行,那么名为"googlebot"只受到"User-agent:googlebot"后面的Disallow和Allow行的限制。
Disallow:
该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的前缀,以Disallow项的值开头的URL不会被robot访问。
例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html
例如"Disallow:/help/"禁止访问/help/index.html,但允许robot访问/help.html、/helpabc.html
例如"Disallow:/"禁止robot访问该网站的所有url
例如"Disallow:"说明允许robot访问该网站的所有url
在"/robots.txt"文件中,至少要有一条Disallow记录,否则这个文件就没有意义了。
Allow:
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。
例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html
一个网站的所有URL默认都是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
需要特别注意的是Disallow与Allow行的顺序是有意义的,如果同一个页面即被Disallow又被Allow,则以最先出现的那行记录为准。
使用"*"和"$":
Baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"$" 匹配行结束符。 "*" 匹配0或多个任意字符。
本文出自:网络推广方案_网站推广方法,地址:http://www.chenlianlong.cn/website/35.html,转载须注明!

to "robots.txt文件如何书写" 引用该日志!
这个东西好纠结,一直不知道怎么下手。
这可是好东西呀。终于找到了,谢谢。
我的这个文件是在线生成的,主要对wp-admin等目录做了disable,其它的也没有什么/
在用谷歌网站管理员工具时学习了些!很实用的……
挺详细的SEO基础知识 学习学习
文章挺详细的,支持一下~
来回访了。呵呵
这个robots我看过好多好多了...但是你这个...挺详细的....
你这个很细,我都能看懂一点了,还有一些不太明白。
这个值得学习
博客之前空间出问题一直忘记把robots文件放上,那天一看赶忙百度了一个,第二天排名就上来了,不过对这玩意我还是一知半解,所以我一般都直接百度还不是自己写,嘿嘿。
发了好几次评论都不成功 结果点击了两次 提示不要发重复的评论
我以为这次成功了 结果还是不成功
哈 评论好难
这篇文章好 我没用过robots 我得学习学习
很好的技术性文章学习了
中国的教育。在穷也不能穷教育。。呵呵顶你
学习了...
分析的很透彻。。也很详细。。学习了。。也祝博主中秋快乐
感谢分享
看过了,还不错,支持了!!
写的不好害死人
怎么评论提交那么慢啊
还没学,还看不懂。。
还没学到这个。。
我曾经乱写了很多东西在robots,但是网站仍然被收录,没K.现在网络上复制了过来,但是今天才看懂了具体是什么意思
写的很好,谢谢分享经验
上海丁丁来学习。
比较常见的问题了,但这字体有点小啊
请教:我的博客下,log文件夹下是空白,这是为什么呢?
那还是不写好,被K的怕
博主的文笔不错 支持
值得学习的文章 支持
基本的格式就以上那些,但一定要注意顺序。
基本的格式就以上那些,但一定要注意顺序。
这个我搞了个很简单的,代码的意思是,什么都可以抓取!。。。咋回事,留言发不了!
这个我搞了个很简单的,代码的意思是,什么都可以抓取!
回访,顺便温习一下,呵呵
呵呵,这个文件都是在网上找的格式,不知道对错了
robots.txt文件 要求很高的!尤其是质量!
呵呵,这个文件都是在网上找的格式,不知道对错了
不错的博文过来学习看看了.
哈哈,来好好学习了
来打酱油了啊
字怎么变的这么小了?
学习了。支持下博主,收藏下了
比较详细,可是看的多了。呵呵!恕我直言!
这个一直在弄
这个一直在写的
一直都是空着的,没感觉到有影响
其实robots.txt文件可有可无,但如果写上就要写完整和准确,要么就别写了
这个是比较详细的了,收藏了!
刚给网站加了呀呵呵,咱们是老乡呀,临沭的
robots 比较基本的知识了...温习一下
经常有人写错被K掉,所以还是不敢写了
还真有点看不懂
写得不错,非常详细。
我的网站没写robots.txt文件呢 是不是必须要写呢?