Android Jsoup 爬取网页数据

一不小心一个月又过去了，其实最近还是小忙小忙的，废话不多说，直接进入今天的主题吧。

Jsoup -- Java HTML Parser, with best of DOM, CSS, and jquery.，看这个介绍就知道，这个就是方便咱们 Java 和Android 来解析 HTML 的。

HTML 标签

要去爬别人的 HTML 标签的话，首先你肯定得有一定的 HTML 的基础知识吧。比如说常用的标签，标签的相关属性，这个就不多说了，有相关问题都可以在 www.w3school.com.cn 的网站解决一下。

加载网页

最简单的，直接加载一个网页：

  Document document = Jsoup.connect("https://www.google.com").get();

那看到最后的 get() 方法聪明滴你一定就猜到还有一个对应的 post() 方法了吧。另外，http 请求的相关操作都是可以设置的，包括 header 请求参数，请求超时等等。除此之外，本地的文件（IO流）等都是可以直接解析的哈。

Document document = Jsoup.connect("https://android-arsenal.com")
        .timeout(5000)
        .cookie("cookie", "cxxx")
        .header("xx", "xx")
        .userAgent("")
        .get();

基本标签解析

之后咱们就得到了一个 Document 的对象了。这个对象就是对整个请求网页的封装，相关内容都可以在里面获取。

来吧，加入我们有下面一段html标签需要解析：

<div class="project-info clearfix">
    <div class="header">
        <div class="title">
            <a href="/details/1/5442">RendererRecyclerViewAdapter</a>
            <a class="tags" href="/tag/199">Recycler Views</a>
        </div>
        <a class="badge free" href="/free">Free</a>
        <a class="badge new" href="/recent">New</a>
    </div>
    <div class="desc">
        <p>A single adapter for the whole project.</p>
        <ul>
        <li>Now you do not need to implement adapters for RecyclerView.</li>
        <li>You can easily use several types of cells in a single list.</li>
        <li>Using this library will protect you from the appearance of any business logic in an adapter.</li>
        </ul>
    </div>
    <div class="ftr l"><i class="fa fa-calendar"></i> Mar 17, 2017</div>
</div>

Jsoup 里面对于标签的寻找使用的方法是 select() 方法，这个方法不要太强大了。咱们一步一步的来。

比如我们要在茫茫标签中找到 <div class="project-info clearfix"> 的话，拿这里就是应该 findElementByClass() ，那么在 Jsoup 中是怎么定义这一块的呢？

Jsoup-selector.png

哈哈，很easy嘛，那就是 document.select("div.project-info clearfix") 咯，当然不是这样子的，等等 class 属性里面这个空格是什么意思啊？是不是一脸懵逼？这里最终的写法是 document.select("div.project-info.clearfix") 空格需要用 . 来处理。

      Elements select = document.select("div.project-info.clearfix");

这里得到是一个集合。我们接下来就需要遍历这个集合，然后把里面的每一个标签都拔出来。

title 部分的解析，这里是一个 <div> 里面嵌套了一个 <a> 的标签。这里就涉及到了解析 <a> 标签了。这里我们需要对应的 href，也需要对应的 text ， Jsoup 提供了对应的两个方法 attr() 和 text() 。

Elements elements = e.select("div.title");
if (!elements.isEmpty()) {
    for (Element tittle : elements) {
        Element first = tittle.select("a[href]").first();
        if (first != null) {
            title = first.text();
            titleUrl = first.attr("href");
            System.out.println("名称：" + title);
            System.out.println("具体地址：" + titleUrl);
        }

        Elements select1 = tittle.select("a.tags");
        if (!select1.isEmpty()) {
            tag = select1.text();
            tagUrl = select1.attr("href");
            System.out.println("tags:" + tag);
            System.out.println("tagUrl:" + tagUrl);
        }
    }
}

嵌套解析

到这里， <div> 和 <a> 标签的介绍基本搞定，接下来就是 <div class="desc"> 的解析了。

<div class="desc">
    <p>A single adapter for the whole project.</p>
    <ul>
    <li>Now you do not need to implement adapters for RecyclerView.</li>
    <li>You can easily use several types of cells in a single list.</li>
    <li>Using this library will protect you from the appearance of any business logic in an adapter.</li>
    </ul>
</div>

这里又多了 <ul> 和 <li> 了，其实道理是差不多的，但是这里它们既没有 class 也没有 id ，那这个我们应该这么去解析呢？

这里还是要回到 select() 方法，这里就需要使用到指定层级的方法了。

嵌套解析.png

        Elements select1 = e.select("div.desc > p");
        String s = select1.toString();

对于 <dt> <dd> 相关的标签，就可以使用 + 相关的连接符了。例如我想要只解析 Tag 下面的对应的 Tag 名称和相关的 url，这个应该怎么写呢？

<dt>Tag</dt>
<dd><a href="/tag/9">Background Processing</a></dd>
<dt>License</dt>
<dd><a href="http://opensource.org/licenses/Apache-2.0" rel="nofollow" target="_blank">Apache License, Version 2.0</a>
</dd>

代码就是这样的，这里一不小心就又引出了 select() 方法的嵌套高级写法。

 Elements select4 = element.select("dt:contains(Tag) + dd");

select-高级.png

其实不用太多解释啦，截图里面描述的很清楚了。最后一个是可以支持正则的匹配。

同级相邻解析

还有一种情况就是我们需要的标签没有具体的 id 或者 class，并且它没有直接对应的父标签或者某种固定的嵌套关系，例如下面这种情况：

<a id="favoriteButton" href="#" class="fa fa-star-o favorite tshadow" title="Add to favorites"></a> 
<a href="/details/1/5244">ImmediateLooperScheduler</a> <div id="githubInfoValue">

这里我们只需要解析到第二个 <a> 标签，那么需要怎么处理呢？这里就需要使用到 nextElementSibling() 的方法了。

Element ssa = h1.select("a#favoriteButton").first();
Element element = ssa.nextElementSibling();
String title = element.text();

模糊解析

属性限制.png

有时候我们只知道这个 <div> 是以什么开头或者是以什么结尾或者又是里面包含了某个单词的，那么这个时候就需要使用模糊查找了。

在 Jsoup 中定义了这些情况的相关 select() 写法，其中，以什么开头，是使用 a[href^=http] ,以什么结尾使用 a[href$=.jpg] ，包含什么就是使用 a[href*=/search/]。

javascript 解析

刚刚说的都是普通标签及其内容，如果我要获取js相关的标签以及内容呢？其实也不难，只是最后不是使用text()的方法，而是使用data()的方法了。

就是 Jsoup 最主要的就是写好这个 select() 方法，

final Elements script = document.select("script");

String js = script.first().data();

相关实战

Android-Arsenal 这个网站不造大家伙儿有听说过没？这里给我们Android开发者提供了了一个信息交流展示平台，实时更新一些Android相关的App,开发库、以及Demo。然后，我看到它也有自己的客户端，所以一时好奇也打算下载下来看看，结果，客户端就是直接加载的网页，关键是广告满天飞。这个就让人不好受了（话说回来，人家不打广告赚点儿钱做这个平台干嘛呢。）

所以灵机一动，为什么我不自己搞一个 Android-Arsenal 的客户端呢？这样方便在手机上看到最新的东西嘛。所以就做了一个客户端，而使用的就是Jsoup 来爬去的对应的网页。然后就把对应 ads 的标签都过滤了，所以是很清爽的啦。当然功能也只是先实现了一部分。喜欢的朋友可以点个星星或者下载使用哟！

最后来一波效果图：

项目地址：https://github.com/lovejjfg/Android-Arsenal

1.jpg

2.jpg

3.jpg

4.jpg

5.jpg

6.jpg

---- Edit By Joe At 2017 03 18 ----

最后编辑于：2017.12.06 03:38:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 201,784评论 5赞 474
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 84,745评论 2赞 378
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 148,702评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,229评论 1赞 272
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,245评论 5赞 363
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,376评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,798评论 3赞 393
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,471评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,655评论 1赞 295
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,485评论 2赞 318
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,535评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,235评论 3赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,793评论 3赞 304
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,863评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,096评论 1赞 258
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,654评论 2赞 348
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,233评论 2赞 341