Back to Question Center
0

Semalt:HTML刮擦指南 - 重要提示

1 answers:

网页内容主要采用结构化或HTML格式。每个页面都以其独特的方式进行组织,具体取决于内容的种类。如果有人想提取网络信息,每个人都希望以一种结构合理,组织良好的方式获取数据。这将有助于节省分享之前审阅,分析和组织文档所需的时间。但是,获取结构化格式并不容易,因为大多数网站不提供这种选项来防止人们提取大量数据。然而,一些网站提供了一个快速简单的过程提供信息提取选项的API。

在这样的事件中,你将别无选择,只能使用称为scraping的软件编程的帮助。这是一种使用计算机程序帮助用户以有用的格式收集信息并保存数据结构的方法。

Lxml和Request

这是一个广泛的抓取库,有助于快速分析和评估XML和HTML,并有助于节省时间。在处理分析过程中的杂乱标签也是有帮助的。在这个过程中,您使用Lxml请求而不是内置的urllib2,因为它更快,更强大,更易于使用。.使用pip安装Lxml和pip安装请求很容易安装。

对于HTML抓取请按照这些步骤

从导入开始 - 在这里您从Lxml导入HTML,然后导入请求。使用请求,然后跟踪包含您想要提取的数据的网页,通过HTML模块进行分析,然后将解析的数据保存到树中。

您将需要使用页面内容而不是文本,因为HTML预计接收以字节为单位的输入。存储分析数据的树现在包含树形结构中的HTML文档。您可以通过不同的方法(XPath和CSSelect)来查看树结构。

XPath可帮助您检索信息或以HTML或XML等结构化格式获取信息。有多种方法可以获得XPath元素。其中包括Firebug for Firefox或Chrome Inspector。使用Chrome浏览器时,检查信息很简单,因为只需要点击需要检查的元素,选择“检查元素”,突出显示提供的代码,然后右键单击并选择复制XPath。这个过程将帮助您了解哪些元素包含在您的页面中,并且可以轻松地创建正确的XPath查询并正确应用Lxml XPath。

通过这些步骤,可以确保您已经使用Lxml和Requests获取了要从特定Web中提取的所有数据。您将把信息存储在一个两个列表内存中,现在可以进行排序了。你可以使用像Python这样的编程语言来分析它,或保存并共享它。此外,您可能希望在分享信息之前重新编辑或编辑部分信息。

December 8, 2017
Semalt:HTML刮擦指南 - 重要提示
Reply