带你了解网站robots使用说明
什么是robots文件
限制抓取一个网页的搜索引擎蜘蛛对您网站的进行访问。蜘蛛是自动访问的,它们在访问该网站的网 页之前,都会查看robots。txt文件是否存在阻止它们访问网页。
只有您的网站中包含不想让搜索引擎编入索引的内容时,才用robots。txt文件。搜索引擎将网站上的所有内容编入索引,就不需要robots。txt文件。为了能使用robots。txt文件,您必须要有对您域名的根目录的访问权限。
robots。txt文件的格式
robots文件往往放置于根录目下,包含一条或更多的记录。
User-agent:描述搜索引擎的名称。在"robots。txt"文件。有一条User-agent记录。值设为*,那么对任何搜索引擎均有效,在"robots。txt"文件,"User-agent:*"这样的记录只有一条。
Disallow:描述不希望被访问的URL,这个可以是一条完整的绝对路径,也可以是路径的非空前缀,以Disallow项的开头的URL不会被robot访问。在"/robots。txt"文件,至少要有一条Disallow记录。如果"/robots。txt"不存在或者是空文件,则对于所有的搜索引擎robot,该网站都是开放的。
Allow:描述希望被访问的一组URL,与Disallow的功能相反,以Allow项的值开头的URL是允许robot访问的。网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
百度会对robots中所写的文件和不想被抓取和收录的目录做精确匹配,否则robots协议是无法生效。
详情请到百度站长平台