【资讯】谷歌取消对Robots.txt Noindex指令的支持!
By: 全球搜 2019年07月04日

【资讯】谷歌取消对Robots.txt Noindex指令的支持!

谷歌正式宣布:GoogleBot【谷歌蜘蛛】将不再遵守Robots.txt的索引指令。依赖robots.txt noindex指令的出版商必须在2019年9月1日前删除该指令,并开始使用替代指令。

1264bd3f

shutiao1原因

Robots.txt Noindex为非官方指令
谷歌过去曾支持过这个robots.txt指令,但以后不再支持了。

 

shutiao1官网公告


在开源解析器库时,我们分析了robots.txt规则的用法。我们特别关注internet草案不支持的规则,比如爬行延迟、nofollow和noindex。由于这些规则从来没有被谷歌记录下来,自然,它们在Googlebot中的使用非常少。进一步挖掘,我们发现除了0.001%的互联网robots.txt文件之外,它们的使用都与其他规则相矛盾。这些错误损害了网站在谷歌搜索结果中的存在,我们认为这不是网站管理员的本意。

为了维护一个健康的生态系统,并为未来可能的开源版本做准备,我们将在2019年9月1日停用所有处理不受支持和未发布规则(如noindex)的代码。对于那些依赖robots.txt文件中的noindex索引指令(控制爬行)的人来说,有一些替代选项可供选择。

 

shutiao1谷歌官方微博发布的控制搜索引擎蜘蛛的五种方法

1、机器人元标记中的Noindex:

在HTTP响应标头和HTML中都支持,noindex指令是在允许爬网时从索引中删除URL的最有效方法。

2、404和410 HTTP状态代码:

两个状态代码都表示该页面不存在,一旦抓取和处理这些url,就会从谷歌的索引中删除它们。

3、 密码保护:

除非使用标记来表示订阅或支付内容,否则在登录后隐藏页面通常会将其从谷歌的索引中删除。

4、禁止在robots.txt中:

搜索引擎只能索引他们知道的网页,因此阻止网页被抓取通常意味着其内容不会被编入索引。虽然搜索引擎也可以基于来自其他页面的链接索引URL,而不会看到内容本身,但我们的目标是在未来减少此类页面的可见性。

5、搜索控制台删除网址工具:

该工具是一种从Google搜索结果中临时删除网址的快捷方法。

4d633298

1699a2c0

播放
全球搜视频