http://www.sowang.com 2007-09-16 谷歌中文网站管理员博客发表者 Dan Crow, 产品经理 | |
原文:Controlling how search engines access and index your website 文件 robots.txt是这里的主角,该文件已经成为业界标准好多年了。它让一个网站所有者控制搜索引擎访问他们的网站。你可以用robots.txt不 同层次地控制访问,比如让搜索引擎只访问整个网站,单个目录,特定类型的网页,或者某一网页。有效地使用robots.txt能让你更好地控制对你的网站 的搜索,但是如何达到这一目标不是很显而易见的。这是我们关于如何使用robots.txt来控制对你的网站的存取的一系列帖子的第一篇。
象Google这样的搜索引擎会读取所有信息并对这些信息索引,索引是为了让一个搜索引擎对一些用户查询显示与之相匹配的网页。 User -Agent行指明下面部分的一套指令只是为Googlebot。所有主要搜索引擎都阅读并听从你放在robots.txt的指令。只要你愿意,你可以为 不同的搜索引擎指定不同的规则。Disallow行告诉Googlebot不能进入你网站的档案日志子目录。你放在日志目录中的内容将不会显示在谷歌搜索 结果中。 这段代码会阻止谷歌索引此文件。标签META特别有用,如果你只被允许编辑单个文件,而不是全站的robots.txt。他们还允许你逐页地指定复杂的访问控制规定。 我们也在我们的站长博客里写了一些关于robots.txt的帖子,也许对你有用。例如: 这里还有一个主要搜索引擎使用的机器人的有用清单:http://www.robotstxt.org/wc/active/html/index.html |




















