Back to Question Center
0

Google如何构建Web Scrapers? - Semalt答案

1 answers:

网络抓取已成为每个组织不可缺少的活动,. 虽然几乎所有的公司都从中受益,但Google网站最大的受益者是Google.

Google的网络抓取工具可以分为三大类,它们是:

1. Google抓取工具

Google抓取工具也被称为Google bot. 它们被用于抓取网页上每个页面的内容. 网络上有数十亿的网页,每分钟都有数百个网页被托管,所以Google机器人必须尽可能快地抓取所有的网页.

这些机器人运行某些算法,以确定网站抓取和网页刮. 它们从先前的抓取过程中生成的URL列表开始. 根据他们的算法,这些机器人检测每个页面上的链接,当他们抓取并添加链接到页面的列表将被抓取. 抓取网页时,他们会注意到新的网站和更新的网站.

为了纠正一个常见的误解,Google机器人没有排名网站的能力. 这是Google索引的功能. 机器人只关心在最短的时间内访问网页. 在抓取过程结束时,Google bots会将从网页收集的所有内容转移到Google索引.

2. 谷歌索引

谷歌索引从谷歌机器人收到所有刮掉的内容,并用它来排名已被抓取的网页. Google索引基于其算法执行此功能. 如前所述,Google索引对网站进行排名,并将搜索结果发送给搜索结果服务器. 具有较高特定位置的网站首先出现在该特定位置的搜索结果页面中. 它是如此简单.

3. Google搜索结果服务器

当用户搜索某些关键字时,最相关的网页按其相关性的顺序被送达或返回. 虽然排名用于确定网站与搜索关键词的相关性,但并不是决定相关性的唯一因素. 还有其他因素用于确定网页的相关性.

来自其他站点的页面上的每个链接都提高了页面的排名和相关性. 但是,所有的环节都不相同. 由于页面内容的质量,最有价值的链接是收到的.

在此之前,某个关键词出现在网页上的次数被用来提升网页的排名. 但是,它不再. 对于Google而言,重要的是内容的质量. 内容意味着被阅读,而读者只被内容的质量所吸引,而不是众多的关键词外观. 因此,每个查询的最相关页面必须具有最高排名,并且首先显示在该查询的结果中. 如果没有,谷歌将失去其信誉.

总之,从这篇文章中删除一个重要的事实是,没有网络抓取,谷歌和其他搜索引擎将不会返回任何结果.

December 22, 2017
Google如何构建Web Scrapers? - Semalt答案
Reply