此列表包含与 Web 抓取和数据处理相关的 Java 库。
- 网络请求工具
- 网页抓取框架
- HTML/XML
- 文本处理
- 特定格式处理
- 自然语言处理
- 浏览器自动化和仿真
- 多进程
- 队列
- 电子邮件
- URL 和网络地址操作
- 网页内容提取
- 异步
- WebSocket
- DNS 解析
- 计算机视觉
- 代理服务器
用于解析和操作纯文本的库。
用于解析和处理特定文本格式的库。
-
通用
用于处理人类语言的库。
- TODO
用于异步网络编程的库。
- TODO
- TODO
用于解析电子邮件的库。
- TODO
用于解析/修改 URL 和网络地址的库。
- 网址
- TODO
- 网络地址
- TODO
用于提取网页内容的库。
- HTML 页面中的文本和元数据
使用 WebSocket 的库。
- TODO
- TODO
- TODO