Back to Question Center
0

与Semalt专家的网刮

1 answers:

网刮是又一种网收的技术,从网站提取数据。 Web采集软件可以使用HTTP或Web浏览器直接访问Web。尽管该过程可以由软件用户手动实施,但该技术一般需要使用网络爬虫或机器人实现的自动化过程。

网页抓取是将结构化数据从网页复制到本地数据库进行查看和检索的过程。它涉及获取网页并提取其内容。页面的内容可以被解析,搜索,重构,并将其数据复制到本地存储设备中。

网页通常由基于文本的标记语言(如XHTML和HTML)构建,这两种语言都包含大量文本形式的有用数据。但是,这些网站中的很多都是为最终用户设计的,而不是自动使用的。这就是为什么刮软件创建的原因。

有许多技术可以用于有效的网页抓取。

1.人的复制与粘贴

甚至最好的网络抓取工具也不能取代人的手工复制和粘贴的准确性和效率。.这主要适用于网站设置屏障来防止机器自动化的情况。

2.文本模式匹配

这是一个相当简单但功能强大的方法,用于从网页中提取数据。它可能基于UNIX grep命令或者只是给定编程语言的正则表达式工具,例如Python或Perl。

3. HTTP编程

HTTP编程既可以用于静态网页,也可以用于动态网页。通过在使用套接字编程的同时向远程Web服务器发送HTTP请求来提取数据。

4. HTML分析

许多网站都倾向于拥有从底层结构源(如数据库)动态创建的大量页面集合。这里,属于相似类别的数据被编码成类似的页面。在HTML解析中,程序通常在特定的信息源中检测这样的模板,检索其内容,然后将其翻译成附属表格(称为包装器)。

5. DOM解析

在这种技术中,程序嵌入到全面的Web浏览器(如Mozilla Firefox或Internet Explorer)中以检索由客户端脚本生成的动态内容。这些浏览器也可以根据可以提取部分页面的程序将网页解析为DOM树。

6.语义注释识别

您打算抓取的页面可能包含语义标记和注释或元数据,可用于查找特定的数据片段。如果这些注释嵌入到页面中,则可能将此技术视为DOM解析的特例。这些注释也可以组织成一个语法层,然后与网页分开存储和管理。它允许刮板在分割页面之前从该层检索数据模式以及命令。

December 6, 2017
与Semalt专家的网刮
Reply