Robots.txt是存放在网站根目录下的一个文件,通常情况下,如果没有Robots.txt这个文件,搜索引擎漫游器(又称网络蜘蛛)会对所有的网站页面进行抓取分析,如果一个网站管理员不想让搜索引擎抓取一些页面,比如网站管理后台,网站次要目录或者涉及到不愿被搜索引擎抓取公开的内容等,则可以通过创建这个文件来引导各大搜索引擎抓取。当搜索引擎抓取一个站点时,会首先检查其根目录下是否有robots.txt存在。如果存在,则会按照文件中所规定的抓取范围,若不存在,则会按照正常的方法进行抓取。关于robots.txt的具体阐述,请参阅:Google管理员>站长帮助:使用 robots.txt 文件拦截或删除网页
  去年网上炒得沸沸扬扬的著名B2C网站淘宝网屏蔽百度蜘蛛(BaiduSpider)事件。事情已经过去一年多了,至今仍然可以看到淘宝的robots.txt文件(内容如图所示),从它的内容可以看到,淘宝网全站完全屏蔽了百度蜘蛛的索引。那么百度搜索中是否还有淘宝网的内容呢?请看搜索结果:http://www.baidu.com/s?wd=site%3Awww.taobao.com。由搜索结果可以看到百度中仍然有淘宝网的首页。而百度在自己的网站上称支持robots协议:http://www.baidu.com/search/robots.html。网上既有人说支持,但是要从百度搜索结果中完全删除需要一段时间(这时间到底是多长?一年?两年?)。也有人说不支持,屏蔽了百度蜘蛛后,百度蜘蛛仍然会访问服务器。到底是否支持,有待大家进一步的观察与试验。

淘宝网屏蔽百度蜘蛛

淘宝网屏蔽百度蜘蛛

随机日志