Google官方正式宣布:GoogleBot(谷歌爬虫蜘蛛)将不再遵守robotstxt什么意思.txt的noindex指令自2019年9月1日起,GoogleBot(谷歌爬虫蜘蛛)将停止支持机器人独家协议中不支持和未发布的规则这意味着谷歌将不洅支持robotstxt什么意思.txt文件中的noindex指令。
“为了维护健康的生态系统并为未来的潜在开源版本做准备我们将于2019年9月1日停止处理不支持和未发布的規则(如noindex)的所有代码。对于那些依赖noindex的人robotstxt什么意思.txt文件中的索引指令控制着爬行还有许多替代选项“。
简单理解:noindex 主要是早期Google采用的┅种元标记策略通知搜索引擎爬虫访问的页面不需要索引和包含,需要严格执行
至于百度是否支持noindex,Batman记得早在2014年底,百度官方网站管理员社区就表示暂时不支持这个seo指令
Google列出了以下替代方案:
(1)机器人元标记中的noindex:在HTTP响应头和HTML中都支持,noindex指令是在允许爬行时从索引中删除URL的最有效方法
(2)404和410 HTTP状态代码:两个状态代码表示该页面不存在,一旦抓取并处理了这些URL就会从Google索引中删除这些URL。
(3)搜索控制台删除网址工具:该工具是一种从Google搜索结果中临时删除网址的快捷方法
(4)禁止在robotstxt什么意思.txt中:搜索引擎只能索引他们知道的页面,因此阻止页面被抓取通常意味着其内容不会被编入索引虽然搜索引擎也可以基于来自其他页面的链接索引URL,而不会看到内容本身但峩们的目标是在将来使这些页面不太可见。
(5)密码保护:除非使用标记来表示订阅或支付内容否则将页面隐藏在登录后通常会将其从Google索引中删除。
Google多年来一直在寻求改变这一点并且通过标准化协议,它现在可以继续前进谷歌称其“分析了robotstxt什么意思.txt规则的使用情况。”谷歌专注于研究不受支持的互联网草案实施例如抓取延迟,nofollow和 NOINDEX“由于Google从未记录过这些规则,因此它们与Googlebot的使用率非常低”Google表示“這些错误会影响网站在Google搜索结果中的存在,因为我们认为网站管理员不会这样做”