Back to Question Center
0

Google如何构建Web Scrapers? - Semalt答案

1 answers:

网络抓取已成为每个组织不可缺少的活动,. 虽然几乎所有的公司都从中受益,但Google网站最大的受益者是Google.

Google的网络抓取工具可以分为三大类,它们是:

1. Google抓取工具

Google抓取工具也被称为Google bot. 它们被用于抓取网页上每个页面的内容. 网络上有数十亿的网页,每分钟都有数百个网页被托管,所以Google机器人必须尽可能快地抓取所有的网页 - nudo doble.

这些机器人运行某些算法,以确定网站抓取和网页刮. 它们从先前的抓取过程中生成的URL列表开始. 根据他们的算法,这些机器人检测每个页面上的链接,当他们抓取并添加链接到页面的列表将被抓取. 抓取网页时,他们会注意到新的网站和更新的网站.

为了纠正一个常见的误解,Google机器人没有排名网站的能力. 这是Google索引的功能. 机器人只关心在最短的时间内访问网页. 在抓取过程结束时,Google bots会将从网页收集的所有内容转移到Google索引.

2. 谷歌索引

谷歌索引从谷歌机器人收到所有刮掉的内容,并用它来排名已被抓取的网页. Google索引基于其算法执行此功能. 如前所述,Google索引对网站进行排名,并将搜索结果发送给搜索结果服务器. 具有较高特定位置的网站首先出现在该特定位置的搜索结果页面中. 它是如此简单.

3. Google搜索结果服务器

当用户搜索某些关键字时,最相关的网页按其相关性的顺序被送达或返回. 虽然排名用于确定网站与搜索关键词的相关性,但并不是决定相关性的唯一因素. 还有其他因素用于确定网页的相关性.

来自其他站点的页面上的每个链接都提高了页面的排名和相关性. 但是,所有的环节都不相同. 由于页面内容的质量,最有价值的链接是收到的.

在此之前,某个关键词出现在网页上的次数被用来提升网页的排名. 但是,它不再. 对于Google而言,重要的是内容的质量. 内容意味着被阅读,而读者只被内容的质量所吸引,而不是众多的关键词外观. 因此,每个查询的最相关页面必须具有最高排名,并且首先显示在该查询的结果中. 如果没有,谷歌将失去其信誉.

总之,从这篇文章中删除一个重要的事实是,没有网络抓取,谷歌和其他搜索引擎将不会返回任何结果.

December 22, 2017