酷应用

使用JSOUP实现网络爬虫：从一个文件加载一个文档

技术作者：程序猿 2016-09-19 18:32:34

问题在本机硬盘上有一个HTML文件，需要对它进行解析从中抽取数据或进行修改。办法可以使用静态 Jsoup.parse(File in, String charsetName, String baseUri) 方法：

view plain copy print?
File input = new File("/tmp/input.html"); 
Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");

说明 parse(File in, String charsetName, String baseUri) 这个方法用来加载和解析一个HTML文件。如在加载文件的时候发生错误，将抛出IOException，应作适当处理。 baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。另外还有一个方法parse(File in, String charsetName) ，它使用文件的路径做为 baseUri。这个方法适用于如果被解析文件位于网站的本地文件系统，且相关链接也指向该文件系统。

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

*文章为作者独立观点，不代表爱尖刀立场

本文由程序猿发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/safe/cto/31475.html

爬虫 JSOUP

图库