Python文献爬虫①

为什么要批量爬取

虽然很少用到知网，但是还是会时不时看看知网的文献。当需要了解某个领域的，看中文的文章还是来得更快些。但是呢通常并不需要把每一篇都下载了看，只需要看看标题，看看摘要，再看看关键词就行了。检索某个关键词，一篇一篇打开看，真的是太麻烦了。就像下图这样：

图片来自中国知网

那能不能批量处理呢？最好是把标题作者日期关键词摘要都整理在一个Excel表里面，再筛选就方便多了。不知道是哪个计算机大佬说过“重复的工作应该交给电脑，人类更擅长的是浪费时间 ”。嚯嚯嚯，这时候就该Python出场了。

写代码前的工作

先是试了试直接在知网进行爬取，但是技术不到家，死活找不到可用的URL，而且，知网分分钟识别到爬虫恶意爬取，分分钟封禁IP。找啊找，终于找到一个可代替的网站：远见搜索。同样的检索“根系分泌物”：

图片来自远见搜索

比在知网检索到的还多！！！！！！
简单分析一下网页结构，在页数不同的时候只有这个地方会改变：

图片来自远见搜索

等等，分析了网页代码结构，无法get到文献的摘要部分！！！只能get到标题、作者、日期、关键词、下载次数、被引次数等信息！！！最重要的摘要部分无法get到！！！(灬ꈍ ꈍ灬)哈哈，还好有CNKI官网的链接，那把这个链接抓取下来，然后再批量访问这些链接就能get到文献的摘要了。那就先get到除摘要之外的信息吧！

Talk is cheap. Show me the code!

import os
import random
import openpyxl
import time
import requests
from bs4 import BeautifulSoup
import re

time_start = time.time()
url = 'http://yuanjian.cnki.net/Search/ListResult'
user_agent = {
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36'
}

results = []

title_link_result = openpyxl.Workbook()
sheet = title_link_result.active
sheet.title = '根系分泌物CNKI文献链接爬取'
col_name = ['title','link']
sheet.append(col_name)

for i in range(2,450,10):
    for j in range(i-1,i + 9):
        try:
            paramas = {
            'searchType': 'MulityTermsSearch',
            'ArticleType': '1',
            'ParamIsNullOrEmpty': 'true',
            'Islegal': 'false',
            'Content': '根系分泌物',
            'Type': '1',
            'Order': '1',
            'Page': str(j)
            }

            res = requests.get(url,params=paramas)
            print(res.status_code)
            soup = BeautifulSoup(res.text, 'html.parser')
            items = soup.find_all('div',class_='list-item')

            for item in items:
                title = item.find('a')['title']
                try:
                    try:
                        keywords = item.find('div',class_='info').find('p',class_='info_left left').find_all('a')[0]['data-key']
                        article_info = item.find('p',class_='source').text.replace('\n','')
                        download_num = re.findall('\d{1,10}',item.find('div',class_='info').find('span', class_='time1').text)[0]
                        cited_num = re.findall('\d{1,10}',item.find('div',class_='info').find('span', class_='time2').text)[0]
                        CNKI_link = item.find('a')['href']
                    except IndexError: 
                        keywords = 'None'
                        article_info = 'None'
                        download_num = 'None'
                        cited_num = 'None'
                        CNKI_link = 'None'
                except AttributeError:
                    keywords = 'None'
                    article_info = 'None'
                    download_num = 'None'
                    cited_num = 'None'
                    CNKI_link = 'None'

                results.append([title,keywords,article_info,download_num,cited_num,CNKI_link])
                sheet.append([title,keywords,article_info,download_num,cited_num,CNKI_link])

            print(j)
            print(results[-1])
            print('成功爬取：%s条'%len(results))

            time_end = time.time()
            print('耗时：%s秒'%str(time_end-time_start))

            time.sleep(0)
        except TimeoutError:
            title_link_result.save('根系分泌物CNKI文献链接_all.xlsx')
            break
    time.sleep(0)

title_link_result.save('根系分泌物CNKI文献链接_break.xlsx')

结果

先上图：

图片来自小蓝哥

大概是一分钟1200条。

最终Excel表（来自小蓝哥）

最后得到的Excel就能用于后续的阅读分析了（R语言搞个词云什么的）。再把摘要爬取下来就差不多完整了。这个下篇简书介绍，敬请期待。

PS：
①恶意爬取隐私信息会触犯相关法规，请合理使用爬虫。
②遇到IP被临时封禁的情况，修改单次爬取的数量即可。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,440评论 5赞 467
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,814评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,427评论 0赞 330
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,710评论 1赞 270
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,625评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,014评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,511评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,162评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,311评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,262评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,278评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,989评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,583评论 3赞 303
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,664评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,904评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,274评论 2赞 345
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,856评论 2赞 339

Python文献爬虫①

为什么要批量爬取

写代码前的工作

Talk is cheap. Show me the code!

结果

推荐阅读更多精彩内容