Robots文件对于不同网站的描写方式
首先名字不能错,我发现很多网站的名字都没有加s,写为robot.txt,也有的人是第一字母大写,理论上这样都是无效的。
robots是个协议,所以一些东西都需要完全按照标准的来,所以首先定义好名字为:robots.txt放在根目录。至于不同网站不同写法,我这里列举几个例子来说明。
通用的写法:
User-agent: *
Disallow: /ajax/
...首先名字不能错,我发现很多网站的名字都没有加s,写为robot.txt,也有的人是第一字母大写,理论上这样都是无效的。
robots是个协议,所以一些东西都需要完全按照标准的来,所以首先定义好名字为:robots.txt放在根目录。至于不同网站不同写法,我这里列举几个例子来说明。
通用的写法:
User-agent: *
Disallow: /ajax/
...什么是robots.txt文件?
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
网友代问:百度蜘蛛会抓取被Robots 禁止的网页
1、己经Disallow了 /modules/news/ 文件夹,但/modules/news/view.category.php/ 还是会被抓走,并且放了出来。
2、重新设置了Disallow,设置为/modules/,蜘蛛才不抓/modules/news/view.category.php/
3、年初刚做站时,担心蜘蛛抓错了测试文章,所以整站Disallow了,五月初才开放给蜘蛛进来,蜘蛛每天访问很多次首页和部分内页,但只放出首页,和一些抓错网址的栏目页,一个合格的内页都没放出来。
...
这个url即便在其他地方被发现,但由于robots的缘故,它也不会被建索引。
...