Back to Question Center
0

搜索结果中仍然列出被域名拒绝的Semalt

1 answers:

所以,在我们所有的网站都没有搜索,我们已经应用了机器人. txt文件(根据如何从实时Semalt搜索结果?或其他类似问题排除网站).

但是,如果搜索条件足够具体,则可以通过结果找到域本身. 这个例子可以在这里找到. 正如您从链接中看到的那样,可以找到域本身(内容不被缓存,但域被列出). 另外,使用 网站进行搜索:hyundaidigitalmarketing - ninja mouth mask. com 应该有3个结果. 检查反向链接也提供了一些,但我显然不能阻止它们(在上下文中允许链接)或控制如何处理(不能告诉主机添加nofollow,noindex).

现在,我知道这是一个严重的边缘案例,但是我的公司客户正在这样做. 事实上,我们的领域是相当不错的,所以即使是看似任意的搜索也能找到相关的结果. 现在,我必须写一份关于如何/为什么会发生的报告.

所以,我转向精彩的Stack Exchange网络,以帮助我了解我所缺少的或理解正在发生的事情. 对行业的文章是非常有帮助的,但是,你可以给的任何东西显然是感激的. 我打算尽最大努力提供赏金,使之成为未来的答案.

编辑: 我已经在这个问题上开了一个奖金,希望得到更多的回应. 我也在下面提供了我自己的研究结果.

February 8, 2018

我得去寻找这个信息的来源,但显然是机器人. txt不一定会阻止页面被索引. 但是HTTP x-robots-tag头文件确实可行.

如果你使用的是Apache,你可以使用这一行来批量阻止页面. htaccess文件:

标题集x-robots-tag:noindex

试一下,看看会发生什么.

编辑

(找到源. 不是我记得的,但它的工作原理).

我想马特·卡茨谈到这个. 如果我的记忆是正确的,它必须做链接. 这里是更多: http:// www. 谷歌. com / support / forum / p / Webmasters / thread?tid = 2720810fa226e9c8&hl = en

您可以使用Google删除工具删除它们.

根据我对这个主题的研究,我发现没有一个100%保证的方法来防止数据的索引和缓存,但是你可以相当接近(假设你想处理增加的bot流量). 这是我如何解释信息.

有人会认为机器人. txt文件用于定义站点范围内的机器人信息,元标记用于页面特定的细节. 我认为二者背后的精神正是这一点,但事实并非如此.

不要创建机器人. txt文件

这与所有主要的搜索提供商合作,以防止内容出现在SERP上,但是确实不是阻止索引. 这也可以防止漫游器抓取你的页面,所以任何机器人元标记(见下文)也被忽略. 正因为如此,你不能一起使用2,这就是为什么,如果你想防止索引,你不应该使用机器人. txt文件.

注意:Google支持在机器人中使用Noindex:/. txt,但它是无证的(谁知道什么时候会中断),而且不知道这是否适用于其他人.

使用HTTP头或HTML META标签来防止一切

与机器人不同. txt文件,机器人元标记(和HTTP头)得到了广泛的支持,令人惊讶的是,功能丰富. 它被设计为在每个页面上设置,但是最近采用X-Robots-Tag头部使得设置整个网站变得容易. 这种方法唯一的缺点是机器人会抓取您的网站. 这可以通过使用nofollow来限制,但不是所有的bots真正尊重nofollow.

我在这里发现了大量的信息,过时了,博文. 它的原始版本是2007年,但是,因为很多关于它的信息都是更新的功能,所以它似乎会定期更新.

总之,你应该发送X-Robots-Tag的HTTP标头:noindex,nofollow,noodp,noydir. 这是为什么分解:

  • nofollow应限制在您的网站上爬网的页面数量,保持bot流量下降. *noindex告诉引擎不索引页面.
  • 现在,你可能会认为noindex可能就足够了. 然而,我发现,即使你说noindex,您的网站可能会被索引,因为其他网站链接到它. 防止来自Y的常见网站链接的最佳方式!目录(noydir)和开放目录(noodp).
  • 使用HTTP标头将机器人数据应用于文件,图像和其他非HTML文件!好极了!

这将在99%的情况下工作. 请记住,虽然仍有可能在某些情况下被某些提供者索引. 谷歌声称完全尊重noindex,但我有我的怀疑.

最后,如果你得到了索引,或者已经被索引,唯一的方法就是去掉每个提供者的信息,去请求去掉这个站点/ url. 显然,这意味着你可能想要使用类似Google Alerts(谢谢@Joe)来监视网站/页面。.

我认为你的基本问题是网站的反向链接,因为这些链接为搜索引擎提供了进入网站的入口点,并让他们意识到了这一点. 因此,虽然他们不会显示该网站的描述,但如果他们认为该网址与搜索结果最匹配,则可能会显示该网址.

阅读这篇文章链接到一个@joe贴出来:马特卡茨保持谷歌

关键是:

这其中有一个很好的理由:当我在2000年从Google开始时,几个有用的网站(eBay,纽约时报,加利福尼亚DMV)有机器人. txt文件,禁止任何页面提取任何. 现在我问你,当有人进行查询[california dmv]时,我们应该返回什么样的搜索结果?如果我们没有返回www,我们会觉得很难过. DMV. CA. 第一个结果是gov. 但请记住:我们不允许从www中获取页面. DMV. CA. 在那个时候gov. 当我们有高度的信心,认为这是正确的链接时,解决方案是显示未被抓取的链接. 有时我们甚至可以从开放目录项目中抽取一个描述,这样我们就可以给用户提供很多信息,甚至不用提取页面.

你所做的研究也涵盖了安静的事情,@john和@joe的答案都是相关的. 我在下面列出了一个链接,提供了关于阻止搜索引擎的进一步指导. 我认为完全封锁网站的唯一方法是在显示内容之前在网站前添加某种形式的密码保护.

SEOMoz提示没有出现在搜索中