您的位置:首页 > 新闻 > 会展 > Jsoup:一款强大的Java HTML解析器

Jsoup:一款强大的Java HTML解析器

2025/5/10 1:26:12 来源:https://blog.csdn.net/Aaron_945/article/details/141112892  浏览:    关键词:Jsoup:一款强大的Java HTML解析器

文章目录

    • 引言
    • 官网链接
    • 基础使用
      • 1. 引入依赖
      • 2. 解析 HTML
        • 从 URL 加载 HTML
        • 从文件加载 HTML
        • 从字符串加载 HTML
      • 3. 选择元素
      • 4. 获取和操作数据
    • 高级使用
      • 1. 设置请求参数
      • 2. 提取和转换数据
      • 3. 清理 HTML
    • 优点
    • 结论

引言

Jsoup 是一款基于 Java 的 HTML 解析器,它提供了一套非常省力的 API,可以直接解析 URL 地址、HTML 文本内容,并通过 DOM、CSS 以及类似于 jQuery 的操作方法来取出和操作数据。Jsoup 因其简单易用、功能强大而广受欢迎,广泛应用于数据爬取、数据挖掘、数据分析等场景。

官网链接

Jsoup 官网

基础使用

1. 引入依赖

首先,你需要在项目中引入 Jsoup 的依赖。如果你使用 Maven,可以在 pom.xml 文件中添加以下依赖:

<dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.14.1</version>
</dependency>

2. 解析 HTML

Jsoup 支持从多种来源解析 HTML,包括 URL、文件、字符串等。

从 URL 加载 HTML
Document doc = Jsoup.connect("http://example.com").get();
String title = doc.title();
System.out.println("Title: " + title);
从文件加载 HTML
File input = new File("D:/test.html");
Document doc = Jsoup.parse(input, "UTF-8");
System.out.println(doc);
从字符串加载 HTML
String html = "<html><head><title>First parse</title></head>"+ "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
System.out.println(doc);

3. 选择元素

Jsoup 提供了强大的选择器 API,允许你使用 CSS 选择器语法来选择 HTML 元素。

// 选择所有 p 元素
Elements paragraphs = doc.select("p");// 选择所有 class 为 "example" 的元素
Elements examples = doc.select(".example");// 选择 id 为 "header" 的元素
Element header = doc.select("#header").first();

4. 获取和操作数据

一旦你选择了元素,就可以获取和操作它们的属性、文本等。

// 获取链接的 href 属性
for (Element link : doc.select("a[href]")) {String linkHref = link.attr("href");String linkText = link.text();System.out.println("Link: " + linkText + " (" + linkHref + ")");
}// 修改元素文本
doc.select("p").first().text("New text");

高级使用

1. 设置请求参数

在请求 URL 时,你可以设置请求参数、User-Agent、Cookie 等。

Document doc = Jsoup.connect("http://example.com").data("query", "Java").userAgent("Mozilla").cookie("auth", "token").timeout(3000).post();

2. 提取和转换数据

Jsoup 不仅限于解析 HTML,你还可以用它来提取数据并转换成其他格式,如 Markdown。

// 假设我们有一个包含 HTML 的字符串
String html = "<html><body><p>Hello, world!</p><a href='http://example.com'>Example</a></body></html>";
Document doc = Jsoup.parse(html);// 提取 p 标签的文本
String markdownParagraph = doc.select("p").text() + "\n\n";// 提取 a 标签并转换为 Markdown 格式
for (Element link : doc.select("a[href]")) {String markdownLink = "[" + link.text() + "](" + link.attr("href") + ")";markdownParagraph += markdownLink + "\n";
}// 输出 Markdown 格式的文本
System.out.println(markdownParagraph);

3. 清理 HTML

Jsoup 提供了清理 HTML 的功能,以防止 XSS 攻击。

String unsafeHtml = "<p>Some <script>bad()</script> stuff</p>";
String safeHtml = Jsoup.clean(unsafeHtml, Whitelist.basic());
System.out.println(safeHtml);

优点

  1. 简洁的API:Jsoup的API设计简洁直观,容易上手。即使是初学者也能快速掌握并用于实际项目中。

  2. 强大的选择器:支持CSS选择器语法,能够灵活高效地定位HTML文档中的元素,满足各种复杂的需求。

  3. 安全性:内置了HTML清理功能,可以有效防止XSS攻击,保护应用程序和用户数据的安全。

  4. 灵活性:不仅可以从URL、文件或字符串中加载HTML,还支持自定义的解析器设置,如设置请求头、代理等,满足不同的网络请求需求。

  5. 纯Java实现:无需依赖外部库或浏览器环境,即可在Java项目中直接使用,便于集成和部署。

  6. 活跃的社区和丰富的文档:拥有庞大的用户群体和活跃的开发者社区,遇到问题时可以迅速找到解决方案。同时,官方文档详尽且更新及时,为开发者提供了良好的学习资源。

  7. 性能优越:Jsoup在解析HTML时具有较高的效率,能够快速处理大量数据,适合用于数据爬取、数据挖掘等场景。

结论

Jsoup作为一款基于Java的HTML解析器,凭借其简洁的API、强大的选择器、良好的安全性、灵活性以及纯Java实现的优势,在Java开发者中广受欢迎。无论是对于简单的HTML文档处理,还是复杂的数据爬取任务,Jsoup都能提供可靠且高效的解决方案。同时,Jsoup的活跃社区和丰富的文档资源也为开发者提供了良好的支持和帮助。因此,对于需要处理HTML数据的Java开发者来说,Jsoup无疑是一个值得推荐和使用的工具。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com