Hutool Hutool
首页
指南
  • 核心(Hutool-core)
  • 配置文件(Hutool-setting)
  • 日志(Hutool-log)
  • 缓存(Hutool-cache)
  • JSON(Hutool-json)
  • 加密解密(Hutool-crypto)
  • DFA查找(Hutool-dfa)
  • 数据库(Hutool-db)
  • HTTP客户端(Hutool-http)
  • 定时任务(Hutool-cron)
  • 扩展(Hutool-extra)
  • 布隆过滤(Hutool-bloomFilter)
  • 切面(Hutool-aop)
  • 脚本(Hutool-script)
  • Office文档操作(Hutool-poi)
  • 系统调用(Hutool-system)
  • 图形验证码(Hutool-captcha)
  • 网络Socket(Hutool-socket)
  • JWT(Hutool-jwt)
支持
更新记录 (opens new window)
GitHub (opens new window)
首页
指南
  • 核心(Hutool-core)
  • 配置文件(Hutool-setting)
  • 日志(Hutool-log)
  • 缓存(Hutool-cache)
  • JSON(Hutool-json)
  • 加密解密(Hutool-crypto)
  • DFA查找(Hutool-dfa)
  • 数据库(Hutool-db)
  • HTTP客户端(Hutool-http)
  • 定时任务(Hutool-cron)
  • 扩展(Hutool-extra)
  • 布隆过滤(Hutool-bloomFilter)
  • 切面(Hutool-aop)
  • 脚本(Hutool-script)
  • Office文档操作(Hutool-poi)
  • 系统调用(Hutool-system)
  • 图形验证码(Hutool-captcha)
  • 网络Socket(Hutool-socket)
  • JWT(Hutool-jwt)
支持
更新记录 (opens new window)
GitHub (opens new window)
  • 快速入门

    • 简介
  • 核心(Hutool-core)

    • 克隆

      • 支持泛型的克隆接口和克隆类
    • 类型转换

      • 类型转换工具类-Convert
      • 自定义类型转换-ConverterRegistry
    • 日期时间

      • 概述
      • 日期时间工具-DateUtil
      • 日期时间对象-DateTime
      • 农历日期-ChineseDate
      • LocalDateTime工具-LocalDateTimeUtil
      • 计时器工具-TimeInterval
    • IO流相关

      • 概述
      • IO工具类-IoUtil
      • 文件工具类-FileUtil
      • 文件监听-WatchMonitor
      • 文件类型判断-FileTypeUtil
      • 文件

        • 文件读取-FileReader
        • 文件写入-FileWriter
        • 文件追加-FileAppender
        • 文件跟随-Tailer
        • 文件名工具-FileNameUtil
      • 资源

        • 概述
        • 资源工具-ResourceUtil
        • ClassPath资源访问-ClassPathResource
    • 工具类

      • 概述
      • 字符串工具-StrUtil
      • 16进制工具-HexUtil
      • Escape工具-EscapeUtil
      • Hash算法-HashUtil
      • URL工具-URLUtil
      • XML工具-XmlUtil
      • 对象工具-ObjectUtil
      • 反射工具-ReflectUtil
      • 泛型类型工具-TypeUtil
      • 分页工具-PageUtil
      • 剪贴板工具-ClipboardUtil
      • 类工具-ClassUtil
      • 枚举工具-EnumUtil
      • 命令行工具-RuntimeUtil
      • 数字工具-NumberUtil
      • 数组工具-ArrayUtil
      • 随机工具-RandomUtil
      • 唯一ID工具-IdUtil
      • 压缩工具-ZipUtil
      • 引用工具-ReferenceUtil
      • 正则工具-ReUtil
      • 身份证工具-IdcardUtil
      • 信息脱敏工具-DesensitizedUtil
      • 社会信用代码工具-CreditCodeUtil
      • SPI加载工具-ServiceLoaderUtil
      • 字符编码工具-CharsetUtil
      • 类加载工具-ClassLoaderUtil
    • 语言特性

      • 概述
      • HashMap扩展-Dict
      • 单例工具-Singleton
      • 断言-Assert
      • 二进码十进数-BCD
      • 控制台打印封装-Console
      • 字段验证器-Validator
      • 字符串格式化-StrFormatter
      • 树结构

        • 树结构工具-TreeUtil
    • JavaBean

      • 概述
      • Bean工具-BeanUtil
      • DynaBean
      • 表达式解析-BeanPath
      • Bean描述-BeanDesc
      • 空检查属性获取-Opt
    • 集合类

      • 概述
      • 集合工具-CollUtil
      • 列表工具-ListUtil
      • Iterator工具-IterUtil
      • 有界优先队列-BoundedPriorityQueue
      • 线程安全的HashSet-ConcurrentHashSet
      • 集合串行流工具-CollStreamUtil
      • 行遍历器-LineIter
    • Map

      • 概述
      • Map工具-MapUtil
      • 双向查找Map-BiMap
      • 可重复键值Map-TableMap
      • Map流式构建器-MapBuilder copy
    • Codec编码

      • Base62编码解码-Base62
      • Base64编码解码-Base64
      • Base32编码解码-Base32
      • 莫尔斯电码-Morse
      • BCD码-BCD
      • 回转N位密码-Rot
      • Punycode实现-PunyCode
    • 文本操作

      • CSV文件处理工具-CsvUtil
      • Unicode编码转换工具-UnicodeUtil
      • 可复用字符串生成器-StrBuilder
      • 字符串切割-StrSplitter
    • 注解

      • 注解工具-AnnotationUtil
    • 比较器

      • 概述
      • 比较工具-CompareUtil
      • 版本比较器-VersionComparator
    • 异常

      • 异常工具-ExceptionUtil
      • 其它异常封装
    • 数学

      • 数学相关-MathUtil
    • 线程和并发

      • 线程工具-ThreadUtil
      • 异步工具类-AsyncUtil
      • 自定义线程池-ExecutorBuilder
      • 高并发测试-ConcurrencyTester
    • 图片

      • 图片工具-ImgUtil
      • 图片编辑器-Img
    • 网络

      • 网络工具-NetUtil
      • URL生成器-UrlBuilder
    • 源码编译

      • 源码编译工具-CompilerUtil
  • 配置文件(Hutool-setting)

    • 概述
    • Properties扩展-Props
    • 设置文件-Setting
  • 日志(Hutool-log)

    • 概述
    • 日志工厂-LogFactory
    • 疑惑解答
    • 静态调用日志-StaticLog
  • 缓存(Hutool-cache)

    • 概述
    • 缓存工具-CacheUtil
    • 先入先出-FIFOCache
    • 文件缓存-FileCache
    • 最少使用-LFUCache
    • 最近最久未使用-LRUCache
    • 超时-TimedCache
    • 弱引用-WeakCache
  • JSON(Hutool-json)

    • 概述
    • JSON工具-JSONUtil
    • JSON对象-JSONObject
    • JSON数组-JSONArray
  • 加密解密(Hutool-crypto)

    • 概述
    • 加密解密工具-SecureUtil
    • 国密算法工具-SmUtil
    • 对称加密-SymmetricCrypto
    • 摘要加密-Digester
    • 消息认证码算法-HMac
    • 签名和验证-Sign
    • 非对称加密-AsymmetricCrypto
  • DFA查找(Hutool-dfa)

    • 概述
    • DFA查找
  • 数据库(Hutool-db)

    • 概述
    • SQL执行器-SqlExecutor
    • 支持事务的CRUD-Session
    • 数据库简单操作-Db
    • 数据源工厂-DsFactory
    • 数据源配置db.setting样例
    • 案例1-导出Blob字段图像
    • 常见问题
    • NoSQL

      • Redis客户端封装-RedisDS
      • MongoDB客户端封装-MongoDS
  • HTTP客户端(Hutool-http)

    • 概述
    • Http客户端工具类-HttpUtil
    • HTML工具类-HtmlUtil
    • Http响应-HttpResponse
    • Http请求-HttpRequest
    • UA工具类-UserAgentUtil
    • 常用Http状态码-HttpStatus
    • 案例1-爬取开源中国的开源资讯
      • 介绍
      • 开始
        • 分析页面
        • 模拟Http请求爬取页面
      • 结语
    • 常见问题
    • Server

      • 简易Http服务器-SimpleServer
    • WebService

      • Soap客户端-SoapClient
  • 定时任务(Hutool-cron)

    • 概述
    • 全局定时任务-CronUtil
  • 扩展(Hutool-extra)

    • 概述
    • Servlet工具-ServletUtil
    • 二维码工具-QrCodeUtil
    • 邮件工具-MailUtil
    • cglib

      • Cglib工具-CglibUtil
    • emoji

      • Emoji工具-EmojiUtil
    • FTP

      • FTP客户端封装-Ftp
      • 简易FTP服务器-SimpleFtpServer
    • Jsch封装

      • SFTP封装-Sftp
      • Jsch工具-JschUtil
    • Spring

      • Spring工具-SpringUtil
    • 中文分词

      • 中文分词封装-TokenizerUtil
    • 压缩

      • 压缩封装-CompressUtil
    • 拼音

      • 拼音工具-PinyinUtil
    • 表达式引擎

      • 表达式引擎封装-ExpressionUtil
    • 模板引擎

      • 模板引擎封装-TemplateUtil
  • 布隆过滤(Hutool-bloomFilter)

    • 概述
  • 切面(Hutool-aop)

    • 概述
    • 切面代理工具-ProxyUtil
  • 脚本(Hutool-script)

    • 概述
    • Script工具-ScriptUtil
  • Office文档操作(Hutool-poi)

    • 概述
    • Excel工具-ExcelUtil
    • Excel生成-ExcelWriter
    • Excel大数据生成-BigExcelWriter
    • Excel读取-ExcelReader
    • Word生成-Word07Writer
    • 流方式读取Excel2003-Excel03SaxReader
    • 流方式读取Excel2007-Excel07SaxReader
  • 系统调用(Hutool-system)

    • 系统属性调用-SystemUtil
    • Oshi封装-OshiUtil
  • 图形验证码(Hutool-captcha)

    • 概述
  • 网络Socket(Hutool-socket)

    • 概述
    • AIO封装-AioServer和AioClient
    • NIO封装-NioServer和NioClient
  • JWT(Hutool-jwt)

    • 概述
    • JWT工具-JWTUtil
    • JWT签名工具-JWTSignerUtil
    • JWT验证-JWTValidator
  • 指南
  • HTTP客户端(Hutool-http)
Hutool
2023-03-28
目录

案例1-爬取开源中国的开源资讯

特别赞助 by:

# 介绍

为了演示Hutool-http的http请求功能,因此这个栗子用红薯家的开源资讯开刀,在此做个简单的Demo。

# 开始

# 分析页面

  1. 打开红薯家的主页,我们找到最显眼的开源资讯模块,然后点击“更多”,打开“开源资讯”板块。

  1. 打开F12调试器,点击快捷键F12打开Chrome的调试器,点击“Network”选项卡,然后在页面上点击“全部资讯”。

  1. 由于红薯家的列表页是通过下拉翻页的,因此下拉到底部会触发第二页的加载,此时我们下拉到底部,然后观察调试器中是否有新的请求出现。如图,我们发现第二个请求是列表页的第二页。

  1. 我们打开这个请求地址,可以看到纯纯的内容。红框所指地址为第二页的内容,很明显p参数代表了页码page。

  1. 我们右键点击后查看源码,可以看到源码。

  1. 找到标题部门的HTML源码,然后搜索这个包围这个标题的HTML部分,看是否可以定位标题。

至此分析完毕,我们拿到了列表页的地址,也拿到了可以定位标题的相关字符(在后面用正则提取标题用),就可以开始使用Hutool编码了。

# 模拟Http请求爬取页面

使用Hutool-http配合ReUtil请求并提取页面内容非常简单,代码如下:

//请求列表页
String listContent = HttpUtil.get("https://www.oschina.net/action/ajax/get_more_news_list?newsType=&p=2");
//使用正则获取所有标题
List<String> titles = ReUtil.findAll("<span class=\"text-ellipsis\">(.*?)</span>", listContent, 1);
for (String title : titles) {
	//打印标题
	Console.log(title);
}

抓取结果为:

其实核心就前两行代码,第一行请求页面内容,第二行正则定位所有标题行并提取标题部分。

这里我解释下正则部分:ReUtil.findAll方法用于查找所有匹配正则表达式的内容部分,第二个参数1表示提取第一个括号(分组)中的内容,0表示提取所有正则匹配到的内容。这个方法可以看下core模块中ReUtil章节了解详情。

<span class=\"text-ellipsis\">(.*?)</span>这个正则就是我们上面分析页面源码后得到的正则,其中(.*?)表示我们需要的内容,.表示任意字符,*表示0个或多个,?表示最短匹配,整个正则的意思就是。,以<span class=\"text-ellipsis\">开头,</span>结尾的中间所有字符,中间的字符要达到最短。?的作用其实就是将范围限制到最小,不然</span>很可能匹配到后面去了。

关于正则表达式这块可以看下我的博客:正则表达式简明参考 (opens new window)

# 结语

不得不说,抓取本身并不困难,尤其配合Hutool会让这项工作变得更加简单快速,而其中的难点便是分析页面和定位我们需要的内容。

真正的内容抓取分为四个部分:

  • 找到列表页(很多网站都没有一个总的列表页)
  • 请求列表页,获取详情页地址
  • 请求详情页并使用正则匹配我们需要的内容
  • 入库或将内容保存为文件

而且在抓取过程中我们也会遇到各种问题,包括但不限于:

  • 封IP
  • 对请求Header有特殊要求
  • 对Cookie有特殊要求
  • 验证码

这些问题都有一些解决办法,具体要在具体的开发中分析解决。

希望大家看到这个栗子有所启发,也为Hutool提供更多更好的意见~

上次更新: 2023/05/08, 01:55:50
常用Http状态码-HttpStatus
常见问题

← 常用Http状态码-HttpStatus 常见问题→

Theme by Vdoing | Copyright © 2023-2023 Hutool | MulanPSL-2.0
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式